O que é ai.txt?
ai.txt é um arquivo colocado na raiz de um site que restringe ou permite o acesso ao conteúdo e à mídia do site – a ideia é ter a mesma função do padrão robots.txt. Ao contrário do robots.txt, que normalmente é lido quando um site é rastreado, o ai.txt é lido quando a mídia de um site é baixada.
Com o ai.txt, os proprietários de sites podem controlar se seu trabalho será usado ou não para treinar novos modelos de IA e podem continuar a usar o robots.txt para gerenciar permissões para mecanismos de pesquisa populares.
Spawning está em uma posição única para promover um padrão ai.txt. A partir de hoje, a API do Spawning comunicará as permissões definidas pelos arquivos ai.txt à nossa crescente rede de pesquisadores e parceiros de IA, incluindo Hugging Face e Stability AI.
Por que ai.txt?
Embora o robots.txt tenha sido uma ferramenta útil para permissões de mecanismos de pesquisa, ele tem limitações significativas quando se trata das necessidades diferenciadas das práticas atuais de mineração de dados.
Leia na hora certa
Considere este cenário: você descobriu que suas imagens foram incluídas no conjunto de dados LAION 5B e imediatamente colocou um arquivo robots.txt em seu site para evitar futuros rastreamentos de dados. Infelizmente, os links para suas imagens ainda permanecem no conjunto de dados LAION 5B, o que significa que qualquer pessoa que usar esse conjunto de dados no futuro para treinar um modelo de IA ainda poderá encontrar e baixar suas imagens.
Um arquivo ai.txt aborda esse desafio porque é verificado quando os links no LAION 5B são usados para baixar as imagens do seu site – permitindo ajustes em tempo real nas permissões.
Leia do lugar certo
A prática generalizada de incorporar links externos ao conteúdo complica a eficácia do robots.txt. Mesmo que o arquivo robots.txt do seu site seja respeitado por um rastreador da web, os links para sua mídia ainda podem ser extraídos de sites sem um robots.txt e acabar em um conjunto de dados.
Um arquivo ai.txt também fornece uma solução aqui, garantindo que os modelos de IA verifiquem as permissões do site onde baixam a mídia.
Fornecimento de fundamentos legais
Por último, muitos veem o robots.txt como um padrão opcional, o que o torna insuficiente como medida de proteção contra a mineração de dados. Em contraste, o ai.txt visa diretamente a exceção do Artigo 4 do TDM da UE, fornecendo explicitamente um método de exclusão legível por máquina para texto comercial e mineração de dados. Esta adesão a um padrão legal reconhecido ajudará a garantir a conformidade e reforçará o papel do ai.txt como um mecanismo confiável para honrar os desejos dos criadores.
Embora os desenvolvimentos da IA não se limitem aos EUA e à Europa, e a legislação global varie, a adoção generalizada de normas semelhantes (como formulários de consentimento de cookies) sugere uma tendência global para o aumento da proteção de dados. Um padrão ai.txt, com o seu respeito pelos direitos dos dados e a sua promoção do desenvolvimento ético da IA, alinha-se com esta tendência.
Uma das muitas ferramentas para criadores
Spawning vê o ai.txt não como um padrão unilateral, mas sim como uma maneira simples e útil de declarar permissões para mineração de texto e dados. À medida que outras convenções e padrões surgirem, continuaremos a integrá-los em nosso pacote python fácil de usar, o que torna mais fácil para os treinadores de modelos respeitarem as solicitações de consentimento, independentemente de como elas sejam feitas.
Embora o ai.txt ofereça proteção abrangente para conteúdo hospedado em seu site (mesmo quando vinculado externamente), ele não se estende a cópias hospedadas em sites que você não possui ou não controla. Este é um problema que a Spawning está atualmente abordando de outras maneiras. Com o Have I Been Trained, você pode pesquisar conjuntos de dados populares em busca de cópias de seu trabalho hospedados em qualquer lugar da web e desativá-los. Excluímos automaticamente quaisquer duplicatas exatas do seu trabalho que apareçam em outro lugar e temos uma detecção de duplicatas mais ampla em andamento.
Colocando as permissões de IA nas mãos dos criadores de conteúdo
Os avanços na IA não devem ocorrer às custas do controle e da proteção de suas criações. Configure o ai.txt do seu site hoje mesmo.
Convidamos você a se juntar a nós no esforço de moldar um conjunto global de padrões para práticas consentidas de IA, contribuindo para um futuro mais seguro, respeitoso e inovador.
Traduzido Spawning Blog