Interessado em criar seus próprios aplicativos de IA generativa? Apresentamos uma seleção de modelos de IA para te auxiliar nesse processo.
Modelos de IA são arquiteturas de redes neurais otimizadas para tarefas específicas. Isso inclui redes convolucionais para análise de imagens, modelos de linguagem pré-treinados para texto, e modelos de difusão para criação de imagens.
Recentemente, modelos de IA para aplicações generativas, como imagem, fala e texto, ganharam grande popularidade. Este crescimento é resultado do avanço em pesquisas e do acesso a recursos computacionais de alta performance.
A seguir, um resumo conciso dos modelos de IA mais utilizados que abordaremos:
Capacidades | Modelo-Chave |
Modelo de linguagem avançado, aplicável na construção de apps baseados em LLM | GPT-4 |
Variedade de aplicações em PNL, desde chatbots até assistentes de código | LLaMA |
Modelo de linguagem de código aberto, adequado para apps baseados em LLM | Falcon |
Geração de imagem a partir de texto, edição de imagens e ampliação | Stable Diffusion |
Criação de imagens a partir de texto | DALL-E 2 |
Reconhecimento de fala, tradução e identificação de idioma | Whisper |
Modelo de linguagem leve e de código aberto | StableLM |
Diversas tarefas de PNL, como respostas a perguntas, resumos e geração de texto | CLIP |
Modelo de linguagem de código aberto para construir apps baseados em LLM | InternLM |
Segmentação de imagens com generalização zero-shot | Segment Anything Model |
Geração de áudio | WaveGAN |
Tradução de imagem para imagem | CycleGAN e pix2pix |
Geração e análise de texto biomédico | BioGPT |
Desde arte gerada por IA até assistentes de programação personalizados, você pode desenvolver uma vasta gama de aplicações de IA generativa. Aqui, apresentamos modelos de IA notáveis, juntamente com suas funcionalidades.
Vamos começar!
GPT-4
O ChatGPT se tornou parte de nossas atividades diárias, desde a elaboração de roteiros de viagem até a escrita de cartas de apresentação. GPT-4, seu sucessor, é um modelo de linguagem ainda mais poderoso.
É o sistema de IA mais avançado da OpenAI, com raciocínio e desempenho superiores ao ChatGPT.
Para entender melhor seu funcionamento, confira esta discussão técnica sobre o GPT-4 e como utilizá-lo para criar aplicativos.
Acesse a interface do ChatGPT com uma conta OpenAI gratuita. Para usar o GPT-4, é necessário uma assinatura do ChatGPT Plus.
Algumas aplicações que você pode criar com esses modelos de linguagem incluem:
- Chatbots personalizados
- Otimização de plataformas de CRM
- Respostas a perguntas em bases de conhecimento personalizadas
- Outras tarefas como resumos e geração de texto
A seguir, exploraremos alguns modelos de linguagem de código aberto.
LLaMA
A Meta AI lançou o LLaMA, um modelo de linguagem base com 65B de parâmetros, em fevereiro de 2023. Posteriormente, o LLaMA 2 foi lançado com melhorias significativas. Você pode acessar:
- Llama Chat: Versão aprimorada do Llama 2
- Código Llama: Construído sobre o Llama 2; treinado em mais de 500 bilhões de tokens de código; suporta geração de código nas linguagens de programação mais populares
Para baixar e usar os modelos Llama, solicite acesso. Veja um tutorial sobre como usar o Llama 2 em suas aplicações Python:
Falcon
Falcon é mais um modelo de linguagem de código aberto do Technology Innovation Institute (Emirados Árabes Unidos). Todos os modelos Falcon LLM são de código aberto, o que permite a criação de aplicações baseadas em LLM.
Atualmente, existem quatro tamanhos de modelo: 1.3B, 7.5B, 40B e 180B. O modelo de 180B, treinado em um conjunto de dados de 3.5T de tokens, apresenta desempenho superior em diversos benchmarks. O Falcon LLM tem desempenho comparável a outros LLMs de código aberto líderes.
O Falcon 180B apresenta um desempenho próximo ao do GPT-4. Confira este tutorial que aborda o Falcon 180B, como utilizá-lo, os requisitos de hardware e comparações com o GPT-4:
Stable Diffusion
Stable Diffusion é um modelo de texto para imagem para geração de imagens e outras aplicações criativas de IA. Pode também ser usado para aumento de escala e edição de imagens.
Stable Diffusion XL, lançado em julho de 2023, oferece diversas melhorias, incluindo:
- Criação de imagens descritivas a partir de prompts curtos
- Geração de texto em imagens
- Edição interna e externa de imagens
- Geração de variações de uma imagem base
Se quiser entender o funcionamento dos modelos de difusão, confira o curso gratuito da DeepLearning.AI: Como funcionam os modelos de difusão.
DALL-E 2
DALL-E 2 da Open AI é outro modelo popular para geração de imagem a partir de texto. Com ele, você pode criar imagens e arte realistas a partir de descrições em linguagem natural.
Ele pode ser utilizado para as seguintes tarefas:
- Geração de imagens a partir de textos
- Edição interna e externa de imagens
- Geração de variações de uma imagem
Você pode acessar o DALL-E 2 através da API OpenAI ou da interface web dos laboratórios OpenAI.
Whisper
O Whisper, da Open AI, é um modelo de reconhecimento de fala aplicável em diversas tarefas, incluindo:
- Identificação de idiomas
- Reconhecimento de fala, como transcrição de áudio
- Tradução de fala
Aqui está um tutorial sobre como converter fala em texto usando a API OpenAI Whisper:
Para testar o modelo, instale o Whisper (openai-whisper) via pip e use a API de um script Python para transcrever arquivos de áudio. Você pode combinar com outros modelos de linguagem para resumir transcrições e criar um pipeline de áudio para resumo.
StableLM
StableLM é um pacote LLM de código aberto da Stability AI. Os modelos de 3B e 7B de parâmetros estão disponíveis atualmente, e lançamentos futuros incluirão modelos maiores com 15B – 65B de parâmetros.
Se você quiser experimentar LLMs leves e de código aberto em seus aplicativos, explore o StableLM.
CLIP
CLIP significa Pré-treinamento de Linguagem-Imagem Contrastiva. É uma rede neural, um modelo multimodal, treinado em um grande conjunto de dados de pares (texto, imagem). O modelo aprende a semântica das imagens a partir de descrições em linguagem natural. Ele pode prever o texto mais relevante de uma imagem.
Com o CLIP, você pode realizar a classificação de imagens de disparo zero, sem pré-treinamento ou ajuste fino. Utilize seus recursos e bancos de dados vetoriais para criar aplicativos interessantes em:
- Pesquisa de texto para imagem e imagem para imagem
- Pesquisa reversa de imagens
Segment Anything Model
A segmentação de imagens identifica pixels de um objeto específico em uma imagem. A Meta AI lançou o Segment Anything Model (SAM), que pode ser usado para segmentar qualquer imagem e recortar objetos dela.
Fonte da imagem: Segment Anything
Você pode usar prompts para especificar o que segmentar. O SAM suporta caixas delimitadoras, máscaras e pontos de primeiro e segundo plano. O modelo tem excelente capacidade de generalização zero-shot em imagens nunca antes vistas. Portanto, nenhum treinamento específico é necessário.
Experimente o modelo SAM no seu navegador!
InternLM
InternLM é um modelo de linguagem de código aberto. Você pode experimentar o modelo base de 7B e o modelo de chat. Ele suporta uma janela de contexto de 8K e oferece intérpretes de código e chamadas de função.
O InternLM está disponível na biblioteca de transformadores HuggingFace. Aproveite a estrutura leve de pré-treinamento. Ele também suporta a construção e implantação de aplicativos usando LMDeploy. Assim, você pode criar aplicações de PNL generativas de ponta a ponta com o InternLM.
WaveGAN
WaveGAN é um modelo para geração de áudio. Ele ajuda a sintetizar áudio bruto a partir de dados de áudio reais.
Treine o WaveGAN em um conjunto de dados de arquivos de áudio e sintetize áudio sem pré-processamento extenso.
CycleGAN e Pix2Pix
Até agora, abordamos modelos para fala para texto, texto para imagem e outras tarefas de processamento de linguagem. Mas e se você quiser realizar a tradução de imagem para imagem? Você pode usar o CycleGAN para aprender um mapeamento do domínio de origem para o domínio de destino, realizando a tradução de imagem para imagem.
Por exemplo, ao ter uma imagem de um lago no inverno, você pode traduzi-la para uma imagem na estação do verão. Ou transformar um cavalo em uma zebra, mantendo o mesmo fundo. CycleGAN é adequado para essas tarefas.
O modelo pix2pix também pode ser usado para tradução de imagem para imagem, com recursos como:
- Reconstruir objetos a partir de mapas de bordas
- Colorir imagens
Você encontra implementações PyTorch do CycleGAN e pix2pix no GitHub.
BioGPT
BioGPT da Microsoft é um modelo transformer para aplicações de mineração de dados biomédicos e geração de texto. Ele usa implementações do modelo sequência a sequência fornecidas por fairseq.
Fairseq, da pesquisa do Facebook (agora Meta AI), é um kit de ferramentas que fornece implementações de modelos sequência a sequência para tarefas como:
- Modelagem de linguagem
- Tradução
- Resumo
Tanto os modelos pré-treinados quanto os checkpoints de modelos ajustados estão disponíveis. Você pode baixar o modelo via URL ou do hub HuggingFace.
Os modelos BioGPT também fazem parte da biblioteca de transformadores HuggingFace. Se você trabalha na área biomédica, pode usar o BioGPT para construir aplicativos específicos para seu domínio.
Concluindo
Esperamos que você tenha encontrado modelos úteis para criar aplicações de IA generativas. Esta lista não é exaustiva, mas aborda alguns dos modelos mais populares para geração de texto e áudio, transcrição de fala para texto, pesquisa de imagens e mais.
Ao criar aplicativos usando modelos de linguagem grandes, esteja atento a problemas comuns, como informações factualmente incorretas e alucinações. Ajustar modelos pode ser um processo com alto consumo de recursos.
Se você é um desenvolvedor, junte-se à revolução da IA e comece a criar aplicativos interessantes! Experimente esses modelos no Google Colab ou em outros notebooks colaborativos de ciência de dados.