Conclusões Principais
- A capacidade de generalização é fundamental no aprendizado profundo para assegurar previsões precisas com dados inéditos. O aprendizado zero-shot facilita isso, permitindo que a IA utilize o conhecimento prévio para efetuar previsões exatas sobre categorias novas, sem a necessidade de dados etiquetados.
- O aprendizado zero-shot espelha o método como os seres humanos aprendem e processam informações. Ao adicionar detalhes semânticos, um modelo pré-treinado pode identificar com precisão novas categorias, tal como um humano reconheceria uma guitarra de corpo oco através da compreensão das suas características.
- O aprendizado zero-shot aprimora a inteligência artificial, promovendo a generalização, a adaptabilidade, a diminuição do overfitting e a otimização de custos. Ele possibilita o treinamento de modelos em conjuntos de dados mais extensos, a aquisição de mais conhecimento por meio do aprendizado por transferência, uma melhor interpretação contextual e a redução da dependência de grandes volumes de dados rotulados. À medida que a IA evolui, o aprendizado zero-shot será cada vez mais relevante para lidar com desafios complexos em diversas áreas.
Um dos principais objetivos do aprendizado profundo é desenvolver modelos com um conhecimento generalizado. A generalização é vital, pois garante que o modelo aprendeu padrões relevantes e pode fazer previsões ou decisões corretas quando confrontado com informações novas. O treinamento desses modelos geralmente requer uma grande quantidade de dados rotulados, que podem ser caros, demorados e, por vezes, inacessíveis.
O aprendizado zero-shot surge como solução para essa limitação, permitindo que a IA use seu conhecimento existente para gerar previsões precisas, mesmo sem dados rotulados.
O que é Aprendizado Zero-Shot?
O aprendizado zero-shot é uma técnica específica de aprendizado por transferência. Ela se concentra em empregar um modelo pré-treinado para identificar categorias novas ou inéditas, simplesmente fornecendo informações adicionais que descrevem as peculiaridades da nova categoria.
Ao usar o conhecimento geral de um modelo sobre determinados temas e adicionar informações semânticas sobre o que procurar, ele deve ser capaz de identificar com precisão qual assunto deve reconhecer.
Imagine que precisamos identificar uma zebra, mas não temos um modelo para isso. Adquirimos um modelo pré-existente treinado para identificar cavalos e informamos que cavalos com listras pretas e brancas são zebras. Ao apresentar imagens de zebras e cavalos, o modelo provavelmente identificará cada animal corretamente.
Assim como muitas técnicas de aprendizado profundo, o aprendizado zero-shot simula o modo como os humanos aprendem e interpretam dados. Os humanos são aprendizes zero-shot por natureza. Se a tarefa fosse encontrar uma guitarra de corpo oco em uma loja de música, talvez houvesse dificuldade em localizá-la. No entanto, se você souber que uma guitarra de corpo oco possui um orifício em forma de F, a encontrará facilmente.
Para um exemplo prático, vamos usar o aplicativo de classificação zero-shot do site de hospedagem LLM de código aberto Hugging Face, usando o modelo clip-vit-large.
A imagem mostra um pão em uma sacola de compras amarrada em uma cadeira. Como o modelo foi treinado em um vasto conjunto de dados de imagens, ele provavelmente reconhecerá os itens da foto, como pão, mantimentos, cadeiras e cintos de segurança.
Agora, queremos que o modelo classifique a imagem usando categorias nunca vistas antes, que seriam “Pão Relaxado”, “Pão Seguro”, “Pão Sentado”, “Dirigir Mercearia” e “Mercearia Segura”.
Note que usamos classes e imagens incomuns para demonstrar a eficácia da classificação zero-shot.
Após a inferência, o modelo classificou a imagem como “Pão Seguro” com cerca de 80% de certeza. Isso provavelmente acontece porque o modelo associa uma cadeira alta mais à segurança do que a sentar, relaxar ou dirigir.
Incrível! Eu concordo com o resultado do modelo. Mas como ele chegou a esse resultado? Aqui está um resumo de como o aprendizado zero-shot funciona.
Como Funciona o Aprendizado Zero-Shot
O aprendizado zero-shot permite que um modelo pré-treinado identifique novas categorias sem dados rotulados. Simplificando, o processo envolve três etapas:
1. Preparação
O aprendizado zero-shot começa com a preparação de três tipos de dados:
- Classe vista: dados usados no treinamento do modelo pré-treinado. O modelo já conhece essas classes. Os melhores modelos para aprendizado zero-shot são aqueles treinados em classes relacionadas à nova categoria que se deseja que o modelo identifique.
- Classe invisível/nova: dados nunca usados durante o treinamento do modelo. É necessário selecionar esses dados, pois eles não fazem parte do modelo.
- Dados semânticos/auxiliares: informações adicionais que auxiliam o modelo a identificar a nova classe, como palavras, frases, incorporações de palavras ou nomes de classes.
2. Mapeamento Semântico
A próxima etapa é mapear os atributos da classe invisível, criando embeddings de palavras e um mapa semântico que conecta os atributos ou características da classe invisível aos dados auxiliares fornecidos. O aprendizado por transferência acelera o processo, pois muitos atributos já foram mapeados.
3. Inferência
Inferência é o uso do modelo para gerar previsões ou resultados. Na classificação de imagem zero-shot, os embeddings de palavras são gerados na entrada de imagem e comparados aos dados auxiliares. A precisão da previsão depende da semelhança entre os dados de entrada e os dados auxiliares.
Como o Aprendizado Zero-Shot Aprimora a IA
O aprendizado zero-shot melhora os modelos de IA ao lidar com vários desafios, como:
- Generalização aprimorada: A redução da dependência de dados rotulados permite treinar modelos em conjuntos de dados mais extensos, aumentando a generalização e a confiabilidade. Com modelos mais experientes e generalizados, pode ser possível que aprendam o bom senso, em vez de apenas analisar informações.
- Escalabilidade: Os modelos podem ser aprimorados continuamente e obter mais conhecimento através do aprendizado por transferência, permitindo que empresas e pesquisadores independentes melhorem seus modelos.
- Redução do overfitting: O overfitting acontece quando um modelo é treinado em um conjunto de dados pequeno, que não representa todas as possíveis entradas. O aprendizado zero-shot reduz o overfitting, treinando o modelo para ter uma melhor compreensão contextual.
- Otimização de custos: Fornecer grandes quantidades de dados rotulados é caro e demorado. Com o aprendizado zero-shot, o treinamento de um modelo robusto é mais rápido e requer menos dados rotulados.
À medida que a IA avança, técnicas como o aprendizado zero-shot serão ainda mais importantes.
O Futuro do Aprendizado Zero-Shot
O aprendizado zero-shot é essencial no aprendizado de máquina, permitindo que modelos reconheçam e classifiquem novas categorias sem treinamento explícito. Com a evolução das arquiteturas de modelos, abordagens baseadas em atributos e a integração multimodal, o aprendizado zero-shot tem o potencial de tornar os modelos mais adaptáveis para lidar com desafios complexos em áreas como robótica, saúde e visão computacional.