Apesar da popularidade do ChatGPT entre os usuários, devido à sua vasta gama de informações, o mesmo não se verifica entre os proprietários de websites.
O ChatGPT, desenvolvido pela OpenAI, utiliza rastreadores para coletar dados de diversos sites. Se você é proprietário de um site e prefere que o rastreador da OpenAI não acesse o seu conteúdo, existem algumas medidas que pode tomar para o impedir.
Como Funciona o Processo de Rastreamento da OpenAI?
Um rastreador web, também conhecido como spider ou bot de motor de pesquisa, é um programa automatizado que percorre a internet em busca de dados. Em seguida, ele organiza essas informações de forma que sejam facilmente acessíveis para o motor de busca.
Os rastreadores web indexam todas as páginas de URLs relevantes, com foco em sites que consideram mais pertinentes para as consultas de pesquisa. Por exemplo, se você pesquisar no Google sobre um erro específico do Windows, o rastreador web do motor de busca irá examinar URLs de sites que ele considera mais confiáveis sobre o tema de erros do Windows.
O rastreador web da OpenAI é denominado GPTBot e, de acordo com a Documentação da OpenAI, permitir o acesso do GPTBot ao seu site pode auxiliar no treinamento do modelo de IA, tornando-o mais seguro e preciso, e possivelmente expandindo as capacidades do modelo.
Como Bloquear o Rastreamento do seu Site pela OpenAI
Assim como outros rastreadores web, o GPTBot pode ser impedido de acessar seu site através da modificação do protocolo robots.txt (também conhecido como protocolo de exclusão de robôs). Este arquivo .txt, alojado no servidor do site, controla o comportamento de rastreadores e outros programas automatizados no seu site.
O arquivo robots.txt permite:
- Bloquear completamente o acesso do GPTBot ao site.
- Impedir o acesso do GPTBot apenas a páginas específicas dentro de um URL.
- Definir quais links o GPTBot pode seguir e quais deve ignorar.
A seguir, veja como controlar o comportamento do GPTBot no seu site:
Bloquear Totalmente o Acesso do GPTBot ao seu Site
User-agent: GPTBot
Disallow: /
Bloquear o Acesso do GPTBot Apenas a Páginas Específicas
User-agent: GPTBot
Allow: /pasta-1/
Disallow: /pasta-2/
É importante lembrar que a alteração do arquivo robot.txt não é uma solução retroativa e qualquer informação que o GPTBot já tenha coletado do seu site não será removida.
A OpenAI Permite que Proprietários de Sites Optem por Não Participar do Rastreamento
Desde que os rastreadores começaram a ser usados no treinamento de modelos de IA, os proprietários de sites têm buscado formas de proteger a privacidade de seus dados.
Existe a preocupação de que os modelos de IA estejam, de certa forma, se apropriando do trabalho, reduzindo o número de visitas aos sites, uma vez que os usuários agora obtêm as informações sem precisar acessá-los.
Em resumo, a decisão de bloquear completamente os chatbots de IA de rastrear o seu site é exclusivamente sua.