Elon Musk afirma que a IA esgotou os dados do mundo real e aposta no uso de "dados sintéticos".
Elon Musk, fundador da empresa de Inteligência Artificial xAI, afirmou que os dados do mundo real disponíveis para treinar modelos de inteligência artificial (IA) “estão esgotados”. “Basicamente, esgotámos a soma acumulada do conhecimento humano... no treino de IA. Isso aconteceu no ano passado”, explicou Musk durante uma conversa com Mark Penn, presidente da Stagwell.
Esta posição reforça o que foi destacado em dezembro por Ilya Sutskever, ex-Chief Scientist da OpenAI, que apontou que a indústria da IA alcançou o “pico de dados”. Ambos concordam que a falta de novos dados reais obrigará a uma mudança na forma como os modelos de inteligência artificial são desenvolvidos.
De acordo com TheCrunch, Musk sugeriu que o futuro da IA passa pela criação de “dados sintéticos”, gerados pelos próprios modelos de inteligência artificial. “A única forma de complementar os dados reais é com dados sintéticos, onde a IA cria os seus próprios dados de treino. Com esses dados, a IA irá auto-avaliar-se e passar por um processo de auto-aprendizagem”, explicou Musk.
Empresas como Microsoft, Meta, OpenAI e Anthropic já começaram a implementar dados sintéticos para treinar os seus modelos. Segundo a Gartner, 60% dos dados utilizados em projetos de IA e análises em 2024 serão gerados sinteticamente. Modelos recentes, como o Phi-4 da Microsoft, Gemma da Google e Claude 3.5 Sonnet da Anthropic, foram parcialmente desenvolvidos com dados gerados por IA.
Vantagens e desafios do uso de dados sintéticos
O uso de dados sintéticos oferece vantagens claras, como a redução de custos. Por exemplo, a Writer, uma startup de IA, desenvolveu o modelo Palmyra X 004 com um custo de 700 mil dólares, em comparação com os 4,6 milhões que um modelo de tamanho semelhante da OpenAI teria custado.
No entanto, especialistas alertam para os riscos. Pesquisas recentes sugerem que treinar modelos com dados sintéticos pode levar ao “colapso do modelo”, onde a IA se torna menos criativa e mais enviesada. Se os dados originais contiverem preconceitos, os modelos resultantes tenderão a replicar essas limitações. A indústria tecnológica está a explorar soluções para otimizar o uso de dados na IA.
Musk concluiu que, embora os dados sintéticos representem uma oportunidade, também levantam novos desafios em termos de qualidade e ética. “A inteligência artificial deve aprender de forma responsável para manter a sua relevância e funcionalidade”, sublinhou. Com o aumento da dependência de dados gerados por IA, a inovação precisará equilibrar-se com medidas que assegurem precisão e transparência num ecossistema em constante evolução.