Treine seu Chatbot de IA com Dados Personalizados: Guia Completo com ChatGPT, LangChain e GPT Index

No nosso artigo anterior, exploramos como desenvolver um chatbot de IA utilizando a API do ChatGPT, personalizando-o com funções específicas. Mas, e se quisermos capacitar a IA com os nossos próprios dados? Imagine ter um livro, informações financeiras ou um extenso banco de dados, e desejar pesquisá-los com facilidade. Neste artigo, apresentamos um guia simples sobre como treinar um chatbot de IA com seu próprio acervo de conhecimento, empregando LangChain e a API do ChatGPT. Usaremos LangChain, GPT Index e outras bibliotecas avançadas para treinar o chatbot de IA com o Modelo de Linguagem Grande (LLM) da OpenAI. Assim, vamos descobrir como treinar e construir um chatbot de IA usando seu conjunto de dados.

Treinando um Chatbot de IA com Base de Conhecimento Personalizada usando a API do ChatGPT, LangChain e GPT Index (2023)

Neste artigo, detalhamos as etapas para instruir seu chatbot de IA com seus próprios dados. Desde a configuração das ferramentas e software até o treinamento do modelo, cobrimos todas as instruções de forma clara e concisa. Recomendamos seguir os passos em sequência para melhor aproveitamento.

Considerações Importantes Antes de Treinar a IA com Seus Próprios Dados

1. O treinamento do chatbot de IA pode ser realizado em diversas plataformas, como Windows, macOS, Linux ou ChromeOS. Este tutorial utiliza o Windows 11, mas as etapas são similares em outras plataformas.

2. Este guia é projetado para usuários de todos os níveis de habilidade, com instruções em linguagem acessível. Mesmo que você tenha apenas conhecimentos básicos de informática e não saiba programar, poderá criar um chatbot de perguntas e respostas em poucos minutos. Se você já acompanhou nosso artigo anterior sobre o bot ChatGPT, o processo será ainda mais fácil de entender.

3. Como treinaremos um chatbot de IA com base em seus dados, é recomendável um computador com bom processador e placa gráfica. No entanto, qualquer computador pode ser usado para fins de teste. Utilizamos um Chromebook para treinar o modelo com um livro de 100 páginas (~100MB). Para conjuntos de dados maiores, com milhares de páginas, um computador mais potente é altamente recomendado.

4. Para melhores resultados, o conjunto de dados deve estar em inglês, embora, de acordo com a OpenAI, também funcione com idiomas populares como francês, espanhol, alemão, entre outros.

Configuração do Ambiente de Software para Treinar um Chatbot de IA

Semelhante ao nosso artigo anterior, o Python e o Pip, juntamente com diversas bibliotecas, são necessários. Neste guia, vamos configurar tudo do zero para que todos possam acompanhar o processo. Instalaremos o Python e o Pip, e depois, as bibliotecas Python: OpenAI, GPT Index, Gradio e PyPDF2. No decorrer do processo, explicaremos a função de cada biblioteca. Não se preocupe com a instalação; é bem simples. Vamos começar.

Instalando o Python

1. Primeiro, instale o Python (e o Pip) no seu computador. Acesse este link e baixe o instalador adequado para sua plataforma.

2. Execute o instalador e marque a opção “Adicionar Python.exe ao PATH”. Esta etapa é crucial. Em seguida, clique em “Instalar agora” e siga as instruções padrão.

3. Para verificar se o Python foi instalado corretamente, abra o Terminal (ou Prompt de Comando no Windows) e digite o seguinte comando: `python –version`. Ele exibirá a versão do Python instalada. No Linux e macOS, você pode precisar usar `python3 –version`.

python --version

Atualizando o Pip

Ao instalar o Python, o Pip é instalado junto. Atualizaremos o Pip para a versão mais recente. O Pip é o gerenciador de pacotes do Python, que permite instalar bibliotecas Python através do Terminal. Com o Pip, instalaremos as bibliotecas OpenAI, gpt_index, gradio e PyPDF2. Veja os passos:

1. Abra o Terminal e digite o seguinte comando para atualizar o Pip: `python -m pip install -U pip`. Em Linux e macOS, pode ser necessário usar `python3` e `pip3`.

python -m pip install -U pip

2. Para verificar a instalação correta do Pip, execute `pip –version`. Ele mostrará a versão. Se ocorrer um erro, consulte nosso guia sobre como instalar o Pip no Windows para resolver problemas com o PATH.

pip --version

Instalando as Bibliotecas OpenAI, GPT Index, PyPDF2 e Gradio

Após configurar o Python e o Pip, instalaremos as bibliotecas essenciais para treinar o chatbot de IA com base no seu conhecimento. Siga os passos abaixo:

1. No Terminal, digite `pip install openai` para instalar a biblioteca OpenAI. Ela será usada como o Modelo de Linguagem Grande (LLM) para treinar e criar o chatbot. Também importaremos a estrutura LangChain da OpenAI. Em Linux e macOS, use `pip3`.

pip install openai

2. Em seguida, instale o GPT Index (ou LlamaIndex) com `pip install gpt_index`. Ele permitirá que o LLM se conecte a seus dados externos.

pip install gpt_index

3. Instale o PyPDF2 com `pip install PyPDF2` para analisar arquivos PDF, caso queira utilizar este formato.

pip install PyPDF2

4. Por último, instale o Gradio com `pip install gradio`, para criar uma interface para interagir com o chatbot. Terminamos de instalar as bibliotecas necessárias para treinar o chatbot de IA.

pip install gradio

Baixe um Editor de Código

Para editar o código, precisaremos de um editor de código. No Windows, recomendamos o Notepad++ (Download). Basta baixar e instalar o programa. Se você preferir, pode usar o VS Code em qualquer plataforma. Outra opção é o Sublime Text (Download), disponível para macOS e Linux.

Para ChromeOS, o aplicativo Caret (Download) é uma boa escolha. Estamos quase finalizando a configuração do ambiente e agora é hora de obter a chave da API da OpenAI.

Obtendo a Chave da API da OpenAI Gratuitamente

Para treinar e criar o chatbot de IA com base em conhecimento personalizado, precisamos de uma chave de API da OpenAI. Essa chave permitirá usar o modelo da OpenAI para estudar seus dados personalizados e fazer inferências. A OpenAI oferece chaves de API gratuitas com $5 de crédito nos primeiros três meses para novos usuários. Usuários antigos podem ter $18 de crédito. Após o crédito acabar, será necessário pagar pelo acesso à API, mas por enquanto, está disponível gratuitamente para todos.

1. Acesse platform.openai.com/signup e crie uma conta gratuita ou faça login se já tiver uma.

2. Clique em seu perfil e selecione “Exibir chaves de API” no menu suspenso.

3. Clique em “Criar nova chave secreta” e copie a chave de API. Guarde-a em um arquivo de texto, pois não será possível visualizá-la novamente.

4. Não compartilhe sua chave de API publicamente. É uma chave privada para acesso à sua conta. É possível criar até cinco chaves privadas.

Treinando e Criando um Chatbot de IA com Base de Conhecimento Personalizada

Com o ambiente configurado e a chave da API da OpenAI em mãos, podemos treinar o chatbot de IA. Usaremos o modelo “text-davinci-003”, que oferece melhor desempenho para completar textos, mas você pode usar o “gpt-3.5-turbo” para reduzir custos. Vamos às instruções:

Adicionando Seus Documentos para Treinar o Chatbot de IA

1. Crie uma nova pasta chamada “docs” em um local de fácil acesso, como a área de trabalho. Mantenha o nome da pasta como “docs”.

2. Adicione todos os documentos que deseja usar para treinar a IA na pasta “docs”. É possível adicionar vários arquivos de texto ou PDF. Se tiver tabelas no Excel, importe-as como CSV ou PDF. Você pode adicionar até arquivos SQL, conforme indicado neste Tweet da Langchain. Para este guia, usaremos um artigo sobre NFT em formato PDF.

Observação: Documentos maiores exigem mais tempo de processamento e consomem mais tokens gratuitos. Comece com documentos menores (30-50 páginas ou arquivos < 100 MB) para entender o processo.

Preparando o Código

1. Abra o Notepad++ (ou seu editor de código) e copie o código abaixo em um novo arquivo. Adaptamos este código de arrrs no Google Colab para torná-lo compatível com PDFs e criar uma interface com Gradio.

from gpt_index import SimpleDirectoryReader, GPTListIndex, GPTSimpleVectorIndex, LLMPredictor, PromptHelper
from langchain import OpenAI
import gradio as gr
import sys
import os

os.environ["OPENAI_API_KEY"] = 'Your API Key'

def construct_index(directory_path):
    max_input_size = 4096
    num_outputs = 512
    max_chunk_overlap = 20
    chunk_size_limit = 600

    prompt_helper = PromptHelper(max_input_size, num_outputs, max_chunk_overlap, chunk_size_limit=chunk_size_limit)

    llm_predictor = LLMPredictor(llm=OpenAI(temperature=0.7, model_name="text-davinci-003", max_tokens=num_outputs))

    documents = SimpleDirectoryReader(directory_path).load_data()

    index = GPTSimpleVectorIndex(documents, llm_predictor=llm_predictor, prompt_helper=prompt_helper)

    index.save_to_disk('index.json')

    return index

def chatbot(input_text):
    index = GPTSimpleVectorIndex.load_from_disk('index.json')
    response = index.query(input_text, response_mode="compact")
    return response.response

iface = gr.Interface(fn=chatbot,
                     inputs=gr.inputs.Textbox(lines=7, label="Enter your text"),
                     outputs="text",
                     title="Custom-trained AI Chatbot")

index = construct_index("docs")
iface.launch(share=True)

2. Assim é como o código aparece no editor.

3. Clique em “Arquivo” e depois em “Salvar como…”

4. Salve o arquivo como “app.py” e selecione “Todos os tipos”. Salve-o no mesmo local da pasta “docs”.

5. Verifique se a pasta “docs” e “app.py” estão no mesmo local, como mostrado na imagem abaixo. “app.py” deve estar fora da pasta “docs”.

6. No editor de código, substitua “Your API Key” pela sua chave de API da OpenAI.

7. Pressione “Ctrl + S” para salvar o código. Agora, você pode executar o código.

Criando o Bot de IA ChatGPT com Base de Conhecimento Personalizada

1. Abra o Terminal e use o comando `cd Desktop` para acessar a área de trabalho (ou o local onde você salvou “docs” e “app.py”).

cd Desktop

2. Execute o comando `python app.py`. Em Linux e macOS, use `python3`.

python app.py

3. O programa começará a analisar o documento, indexar as informações e criar o arquivo “index.json”. Isso pode demorar dependendo do tamanho do arquivo e da capacidade do computador. O Terminal pode não mostrar nenhuma saída durante o processamento. Para referência, um documento de 30 MB leva cerca de 10 segundos para processar.

4. Após o processamento, você verá alguns avisos que podem ser ignorados. No final, encontrará um URL local. Copie-o.

5. Cole o URL no navegador. Seu chatbot de IA personalizado com base no ChatGPT está pronto. Faça uma pergunta sobre o conteúdo do documento.

6. Faça perguntas ao chatbot. Ele responderá com base nos dados fornecidos. Assim, você pode criar um chatbot de IA personalizado com seus dados. As possibilidades são ilimitadas.

7. Compartilhe o URL público com amigos e familiares. Ele estará ativo por 72 horas. Mas, seu computador precisa estar ligado, pois o servidor está sendo executado nele.

8. Para interromper o chatbot, pressione “Ctrl + C” no Terminal. Repita se não funcionar.

9. Para reiniciar o chatbot, volte ao diretório e execute `python app.py`. O URL local será o mesmo, mas o público mudará.

python app.py

10. Para treinar o chatbot com novos dados, remova os arquivos da pasta “docs” e adicione novos. Recomenda-se adicionar informações sobre o mesmo assunto para respostas coerentes.

11. Execute o código novamente e um novo arquivo “index.json” será criado, substituindo o anterior.

python app.py

12. Para acompanhar o uso dos seus tokens, acesse o painel da OpenAI.

13. Não é necessário alterar o código, a menos que queira mudar a chave API ou o modelo da OpenAI.

Criando um Chatbot de IA Personalizado Usando Seus Próprios Dados

E assim você pode treinar um chatbot de IA com uma base de conhecimento personalizada. Utilizamos este código para treinar a IA com livros médicos, artigos, tabelas de dados e relatórios antigos, e funcionou perfeitamente. Então, crie seu próprio chatbot de IA utilizando o modelo de linguagem grande e o ChatGPT da OpenAI. Se busca alternativas ao ChatGPT, confira nosso artigo relacionado. Para usar o ChatGPT no Apple Watch, temos um tutorial detalhado. E, caso encontre algum problema, deixe um comentário que faremos o possível para ajudar.
























<img src=”https://wilku.top/wp-content/uploads/