Como usar ChatGPT para web scraping usando plug-ins e intérprete de código

Um guia detalhado para web scraping usando ChatGPT Code Interpreter e seus plug-ins.

Se você não gosta de criar novidades, é provável que precise de algumas informações pré-requisitos para começar. Ou você pode querer analisar a concorrência em busca de informações valiosas. Além disso, podem existir inúmeros motivos para alguém se interessar pelo conteúdo de um site específico.

Web scraping é o processo que atende a esses casos de uso.

E existem algumas maneiras de fazer isso. Existem ferramentas pesadas que você pode assinar para raspagem profissional de grandes sites. Como alternativa, você pode exigir uma configuração específica para processamento local.

De qualquer forma, a abordagem é cara, demorada e tediosa para iniciantes, especialmente para copiar algumas páginas da web.

Visão geral do ChatGPT para Web Scraping

Não devo apresentar o ChatGPT a você. Eu sou?

Resumindo, ChatGPT é uma IA generativa que responde como humanos. Você obtém uma interface de bate-papo para solicitar a realização de diversas tarefas, como perguntar sobre eventos históricos, escrever ensaios, resumir, traduzir, codificar, etc.

ChatGPT responde em texto. No entanto, existem plug-ins ChatGPT que aprimoram seus recursos de várias maneiras. E usaremos um desses plugins. Além disso, usaremos seu intérprete de código para raspar sites com estruturas de páginas complicadas ou com protocolos anti-raspagem ativos.

Saiba que o ChatGPT possui versões gratuitas e pagas. Mas você precisará de uma assinatura paga (atualmente, US$ 20 por mês) para usar o plug-in web scraper ou seu mecanismo Code Interpreter.

  Escolha entre GUI, linha de comando ou ferramentas online

Nas próximas seções, ilustrarei o processo passo a passo.

Isenção de responsabilidade: antes de prosseguir, confirme se o site em questão permite a extração de seu conteúdo. Caso contrário, você pode entrar em contato com o administrador e ver se eles permitem isso para evitar problemas legais.

Raspagem da Web usando o plug-in ChatGPT

Faça login no seu Conta OpenAIpasse o mouse sobre GPT-4 (sua versão paga atual) e clique em Plugins.

Em seguida, clique em Nenhum plug-in ativado, role para baixo e clique em Loja de plug-ins.

Observe que em vez de Nenhum plug-in ativado, você terá um ícone de plug-in, se algum estiver ativo. Nesse caso, você precisa clicar nesse ícone para abrir o menu suspenso e clicar na loja de plug-ins na parte inferior.

Isso abrirá a loja de plug-ins. Procure por Scraper e clique em Instalar.

Selecione este plugin na interface do ChatGPT.

Uma vez selecionado, deve-se solicitar o ChatGPT, mencionando o URL do assunto e o conteúdo para extração.

Eu fiz isso em alguns sites. Veja isso.

Raspar uma publicação

Somos uma publicação focada em tecnologia e escolhi nossa página inicial, etechpt.com.com/ para esta ilustração.

Aqui está o prompt:

check this webpage: https://etechpt.com.com/ and prepare a table indicating the article title, author, publication date, and excerpt for the top 10 articles.

Também é possível solicitar novamente a conversão dos dados para o formato CSV, colá-los em um arquivo de texto com extensão .csv e abri-los em um aplicativo de planilha como o MS Excel.

Raspar uma página da Web de oferta ou cupom

A seção de ofertas etechpt.com é onde escolhemos a dedo algumas ofertas em projetos de alta tecnologia. Que tal buscar cada negócio em formato tabular?

Prepare a list of deals from this webpage: https://etechpt.com.com/deals/. present the result in a tabular format.

Raspando a Wikipédia

Summarize in tabular format the latest news from the "in the news" section from this wikipedia page: https://en.wikipedia.org/wiki/Main_Page

Raspando lojas de comércio eletrônico

Por último, tentei extrair o Amazon.com para os laptops aplicando alguns filtros e alimentando o URL no ChatGPT. Isto é o que eu consegui:

  Computação quântica – todas as perguntas frequentes respondidas

O problema é que este não é um caso único. Você encontrará muitos casos em que os sites possuem medidas anti-raspagem. Nessa situação, você precisará encontrar uma alternativa para obter os dados se assinar scrapers padrão do setor não for uma opção.

As seções a seguir envolvem uma dessas soluções.

Web Scraping usando intérprete de código ChatGPT

Code Interpreter é um mecanismo ChatGPT recém-lançado para atender tarefas relacionadas à programação. Embora o mecanismo padrão dependa muito de respostas de texto, o Code Interpreter pode ajudar a visualizar resultados, analisar, depurar e executar código, integrar-se a binários de software e fazer muito mais coisas centradas na programação.

Neste processo, iremos baixar o HTML fonte, carregá-lo no ChatGPT Code Interpreter e prosseguir com a raspagem.

Peguei esta página para extração:

Começaremos salvando a página da web como HTML. Para isso, acesse a página da web e pressione Ctrl+S.

Agora temos o arquivo para raspagem. Vamos descobrir o prompt.

Além do prompt de texto, você pode ver que forneci elementos de amostra para acelerar a raspagem. Como as estruturas das páginas da Web da Amazon são complexas, sem essas amostras, a tentativa de extração pode falhar ou resultar em nada.

E obter esses elementos é bastante fácil. Clique com o botão direito em qualquer lugar da página do assunto e clique em Inspecionar no pop-over.

Primeiro, clique no ícone superior (marcado como 1). Isso destacará os detalhes enquanto você seleciona os elementos da página. A seguir, selecione o elemento contêiner para qualquer produto específico.

  11 melhores softwares de gerenciamento de recursos para pequenas e médias empresas

Certifique-se de selecionar o contêiner mais interno. Você pode passar o mouse e ele continuará sendo destacado. No momento em que você obtiver o último shell cobrindo esse bloco, você pode clicar e ir para o lado direito para copiar a classe div do elemento.

Da mesma forma, selecione as amostras para outros elementos.

Por fim, carregue o HTML e um prompt semelhante a este:

check out this webpage html and extract the laptop titles, price, and ratings. present the result in a tabular format within this chat interface and also give the results in a CSV to download.

div class="s-card-container s-overflow-hidden aok-relative puis-include-content-margin puis puis-vfcg1duwvmpo42mcln9ojhiljk s-latency-cf-section s-card-border"
sample title element: span class="a-size-medium a-color-base a-text-normal"
sample price element: span class="a-price-whole"
sample ratings element: span class="a-size-base puis-bold-weight-text"

Isso levará algum tempo enquanto o ChatGPT Code Interpreter faz seu trabalho. Você terá alguns detalhes, enquanto tudo estará no arquivo CSV incorporado.

Você pode observar que a tabela possui algumas entradas que não estão presentes na página original, principalmente no início. Nesses casos, você precisa verificar novamente e limpar os dados em busca de redundâncias.

Se houver algum, você pode solicitar novamente o ChatGPT para obter um CSV limpo.

Pensamentos finais

ChatGPT faz muitas coisas, e web scraping básico é uma delas. Concordo, pode não ser adequado para alguém que está raspando centenas de páginas. Ainda assim, você começará na direção certa e é ideal para uma curta sessão de raspagem.

Neste guia, usamos um de seus plug-ins de scraping e o Code Interpreter. Embora os plug-ins funcionem em muitos sites padrão, o segundo método é para estruturas de páginas da web personalizadas ou se a página tiver elementos dinâmicos (rolagem infinita, leia mais, etc.).

E para reiterar, leia os termos do site em questão antes de fazer a raspagem.

PS: Confira essas soluções de raspagem de nuvem e nossa própria API de raspagem etechpt.com.