Como impedir que os rastreadores do OpenAI raspem seu site

Embora os usuários adorem o ChatGPT pela grande quantidade de informações que ele contém atualmente, o mesmo não pode ser dito sobre os proprietários de sites.

O ChatGPT do OpenAI usa rastreadores para raspar sites, mas se você é proprietário de um site e não deseja que o rastreador do OpenAI acesse seu site, aqui estão algumas coisas que você pode fazer para evitá-lo.

Como funciona o rastreamento do OpenAI?

Um rastreador da Web (também conhecido como spider ou bot do mecanismo de pesquisa) é um programa automatizado que verifica a Internet em busca de informações. Em seguida, ele compila essas informações de uma maneira fácil para o mecanismo de pesquisa acessá-las.

  Emitir Crachás e Certificados Profissionais com Sertifier etechpt.com

Os rastreadores da Web indexam todas as páginas de todos os URLs relevantes, geralmente com foco em sites mais relevantes para suas consultas de pesquisa. Por exemplo, suponhamos que você esteja pesquisando no Google um erro específico do Windows. O rastreador da Web em seu mecanismo de pesquisa verificará todas as URLs de sites que considera mais confiáveis ​​no tópico de erros do Windows.

O rastreador da Web da OpenAI é chamado GPTBot e, de acordo com Documentação do OpenAIdar ao GPTBot acesso ao seu site pode ajudar a treinar o modelo de IA para se tornar mais seguro e preciso, e pode até ajudar a expandir os recursos do modelo de IA.

  Como ele se sustenta?

Como impedir que o OpenAI rastreie seu site

Como a maioria dos outros rastreadores da web, o GPTBot pode ser impedido de acessar seu site modificando o protocolo robots.txt do site (também conhecido como protocolo de exclusão de robôs). Esse arquivo .txt é hospedado no servidor do site e controla como os rastreadores da web e outros programas automatizados se comportam em seu site.

Aqui está uma pequena lista do que o arquivo robot.txt pode fazer:

  • Ele pode bloquear completamente o GPTBot de acessar o site.
  • Ele pode impedir que apenas determinadas páginas de uma URL sejam acessadas pelo GPTBot.
  • Ele pode dizer ao GPTBot quais links ele pode seguir e quais não pode.

Veja como controlar o que o GPTBot pode fazer em seu site:

Bloqueie completamente o GPTBot de acessar seu site

  • Configure o arquivo robot.txt e edite-o com qualquer ferramenta de edição de texto.
  • Adicione o GPTBot ao robots.txt do seu site da seguinte forma:
  •  User-agent: GPTBot
    Disallow: /

    Bloqueie apenas determinadas páginas de serem acessadas pelo GPTBot

  • Configure o arquivo robot.txt e edite-o com sua ferramenta de edição de texto preferida.
  • Adicione o GPTBot ao robots.txt do seu site da seguinte forma:
  •  User-agent: GPTBot
    Allow: /directory-1/
    Disallow: /directory-2/

    No entanto, lembre-se de que alterar o arquivo robot.txt não é uma solução retroativa e qualquer informação que o GPTBot já tenha coletado do seu site não será recuperável.

      25 Melhor Provedor de Número de Telefone Virtual Gratuito

    OpenAI permite que proprietários de sites optem por não rastrear

    Desde que os rastreadores são usados ​​para treinar modelos de IA, os proprietários de sites procuram maneiras de manter seus dados privados.

    Alguns temem que os modelos de IA estejam basicamente roubando seu trabalho, atribuindo até menos visitas ao site ao fato de que agora os usuários obtêm suas informações sem nunca ter que visitar seus sites.

    Em suma, se você deseja bloquear completamente os chatbots de IA de escanear seus sites, é uma escolha totalmente sua.