Bluesky propõe controle de dados para IA e usuários reagem

A rede social Bluesky publicou recentemente uma proposta no GitHub que detalha novas opções para que os usuários possam indicar se desejam que suas postagens e dados sejam utilizados para fins como treinamento de IA generativa e arquivamento público.

O CEO, Jay Graber, discutiu a proposta esta semana durante uma apresentação no South by Southwest, mas a iniciativa ganhou mais atenção na noite de sexta-feira, após Graber compartilhar um post sobre o assunto na própria plataforma. Muitos usuários reagiram com preocupação, interpretando os planos da empresa como uma inversão da posição anterior do Bluesky, que vinha afirmando que não venderia dados de usuários a anunciantes nem treinaria IA com postagens dos usuários.

Um dos usuários, Sketchette, expressou sua indignação: “Oh, de jeito nenhum! A beleza desta plataforma estava na NÃO compartilhamento de informação. Especialmente com IA generativa. Não ceda agora.”

Em resposta, Graber explicou que as empresas de IA generativa já estão “coletando dados públicos da web”, incluindo do Bluesky, já que “tudo no Bluesky é público, assim como um site é público”. Por isso, afirmou que a rede social está tentando estabelecer um “novo padrão” para regulamentar essa coleta, semelhante ao arquivo robots.txt usado por websites para comunicar suas permissões a robôs de busca.

As discussões em torno do treinamento de IA e direitos autorais colocaram o robots.txt em evidência, ressaltando que ele não possui força legal. O Bluesky apresenta seu padrão proposto como tendo um “mecanismo e expectativas” análogas, oferecendo um “formato legível por máquina, que os bons atores devem respeitar, e que carrega peso ético, mas não é legalmente exigível.”

Segundo a proposta, os usuários do aplicativo Bluesky, ou de outros que utilizam o protocolo ATProtocol, poderão acessar suas configurações para permitir ou proibir o uso de seus dados do Bluesky em quatro categorias:

IA generativa
Conexões de protocolo (ou seja, integrar diferentes ecossistemas sociais)
Conjuntos de dados em massa
Arquivamento web (como o Wayback Machine do Internet Archive)

Se um usuário indicar que não deseja que seus dados sejam utilizados para treinar IA generativa, a proposta afirma que “empresas e equipes de pesquisa que estão construindo conjuntos de dados para treinamento de IA devem respeitar essa intenção quando a virem, seja ao coletar dados de sites ou realizando transferências em massa usando o protocolo.”

Molly White, que escreve a newsletter Citation Needed e o blog Web3 is Going Just Great, descreveu a proposta como “um bom encaminhamento”, e achou “estranho ver pessoas criticando o Bluesky por isso”, já que não se trata tanto de “abrir as portas para a coleta de IA”, mas sim de “tentar adicionar um sinal de consentimento para que os usuários possam comunicar suas preferências sobre a coleta que já está acontecendo.”

White também apontou uma fragilidade nessa e em propostas semelhantes do Creative Commons para 'sinais de preferência', observando que dependem da boa vontade dos scrapers em resumir esses sinais. “Já vimos algumas dessas empresas ignorarem totalmente o robots.txt ou conteúdos protegidos para coletar dados”, concluiu.

IA generativa
Conexões de protocolo (ou seja, integrar diferentes ecossistemas sociais)
Conjuntos de dados em massa
Arquivamento web (como o Wayback Machine do Internet Archive)