Em uma descoberta polêmica, pesquisadores do AI Disclosures Project revelaram que a OpenAI pode ter treinado seus avançados modelos de inteligência artificial, como o GPT-4o, utilizando livros pagos da O'Reilly Media sem a devida autorização. A análise focou em 13.962 trechos de 34 livros da O'Reilly, revelando que o GPT-4o reconhece consideravelmente mais conteúdo desses materiais em comparação com modelos anteriores, como o GPT-3.5 Turbo.
Esta investigação, liderada por Tim O'Reilly e Ilan Strauss, co-fundadores do AI Disclosures Project, questiona a prática de treinamento de modelos de IA baseados em dados que não são públicos. A pesquisa, realizada recentemente nos Estados Unidos, utiliza a técnica DE-COP, uma abordagem sofisticada para detectar conteúdo protegido por direitos autorais, visando avaliar se o modelo pode distinguir entre textos gerados por humanos e aqueles produzidos por IA.
A comparação entre o desempenho do GPT-4o e do GPT-3.5 Turbo em relação ao reconhecimento de conteúdo dos livros pagos da O'Reilly revelou um desempenho significativamente melhor do modelo mais novo. Isso levanta suspeitas de que o GPT-4o foi, de fato, treinado com esses livros sem autorização explícita. Adicionalmente, os pesquisadores notaram que a metodologia aplicada possui suas limitações. Há a possibilidade de que o conteúdo tenha sido adquirido indiretamente, talvez por meio de cópias feitas por usuários que postaram trechos nas plataformas da OpenAI, como o ChatGPT.
A OpenAI enfrenta sérios desafios legais quanto ao uso de conteúdo protegido por direitos autorais. A empresa estabeleceu acordos de licenciamento com alguns editores e disponibiliza opções para que detentores de direitos autorais optem por não ver seu conteúdo utilizado em modelos de IA. Contudo, a avaliação da eficácia desses mecanismos permanece questionativa. A falta de clareza sobre as fontes de dados de treinamento se tornou um tema crítico, especialmente em um cenário onde a indústria de inteligência artificial busca equilibrar a necessidade de dados de qualidade com a manutenção dos direitos autorais.
O estudo do AI Disclosures Project não apenas fortalece as críticas já existentes sobre as práticas de treinamento de IA, mas também sublinha a urgente necessidade de uma melhor transparência na coleta de dados. A tensão entre a exigência por dados de alta qualidade e os direitos autorais acende um debate ético fundamental sobre como os modelos de IA devem ser desenvolvidos e aplicados. Para a OpenAI, além de lidar com as implicações legais da questão, há um caminho a percorrer em busca de maior colaboração e diálogo na formulação de diretrizes claras que regulem o uso do conteúdo protegido por direitos autorais na IA.