O que é Zero Shot Learning e como ele pode melhorar a IA

últimas postagens

Principais conclusões

A generalização é essencial no aprendizado profundo para garantir previsões precisas com novos dados. O aprendizado zero-shot ajuda a conseguir isso, permitindo que a IA use o conhecimento existente para fazer previsões precisas sobre classes novas ou inéditas, sem dados rotulados.
O aprendizado zero-shot imita como os humanos aprendem e processam dados. Ao fornecer informações semânticas adicionais, um modelo pré-treinado pode identificar com precisão novas classes, assim como um ser humano pode aprender a identificar uma guitarra de corpo oco ao compreender suas características.
O aprendizado zero shot melhora a IA, melhorando a generalização, a escalabilidade, reduzindo o overfitting e sendo econômico. Ele permite que os modelos sejam treinados em conjuntos de dados maiores, obtenham mais conhecimento por meio de aprendizagem por transferência, tenham uma melhor compreensão contextual e reduzam a necessidade de dados rotulados extensos. À medida que a IA avança, a aprendizagem imediata tornar-se-á ainda mais importante na abordagem de desafios complexos em vários campos.

Um dos maiores objetivos do aprendizado profundo é treinar modelos que adquiriram conhecimento generalizado. A generalização é essencial porque garante que o modelo aprendeu padrões significativos e pode fazer previsões ou decisões precisas quando confrontado com dados novos ou não vistos. O treinamento de tais modelos geralmente requer uma quantidade considerável de dados rotulados. No entanto, esses dados podem ser dispendiosos, trabalhosos e, por vezes, impossíveis.

O aprendizado zero-shot é implementado para preencher essa lacuna, permitindo que a IA use seu conhecimento existente para fazer previsões bastante precisas, apesar da falta de dados rotulados.

O que é aprendizagem Zero-Shot?

A aprendizagem zero-shot é um tipo específico de técnica de aprendizagem por transferência. Ele se concentra no uso de um modelo pré-treinado para identificar classes novas ou nunca antes vistas, simplesmente fornecendo informações extras que descrevem as particularidades da nova classe.

Como ativar a luz de notificação do Moto E4

Ao usar o conhecimento geral de um modelo sobre determinados tópicos e fornecer-lhe uma semântica extra sobre o que procurar, ele deverá ser capaz de identificar com bastante precisão qual assunto deve identificar.

Digamos que precisamos identificar uma zebra. No entanto, não temos um modelo que possa identificar esses animais. Assim, obtemos um modelo pré-existente treinado para identificar cavalos e dizer ao modelo que cavalos com listras pretas e brancas são zebras. Quando começamos a inferir o modelo fornecendo imagens de zebras e cavalos, há uma boa chance de que o modelo identifique cada animal corretamente.

Como muitas técnicas de aprendizagem profunda, a aprendizagem zero shot imita como os humanos aprendem e processam dados. Os humanos são conhecidos por serem aprendizes naturais de tiro zero. Se você recebeu a tarefa de encontrar uma guitarra de corpo oco em uma loja de música, poderá ter problemas para procurar uma. Mas assim que eu disser que um corpo oco é basicamente uma guitarra com um orifício em forma de F em um ou ambos os lados, você provavelmente encontrará um imediatamente.

Para um exemplo do mundo real, vamos usar o aplicativo de classificação zero-shot do site de hospedagem LLM de código aberto Hugging Face usando o modelo clip-vit-large.

Esta foto retrata a imagem de um pão em uma sacola de compras amarrada em uma cadeira alta. Como o modelo foi treinado em um grande conjunto de dados de imagens, o modelo provavelmente poderá identificar cada item da foto, como pão, mantimentos, cadeiras e cintos de segurança.

Agora, queremos que o modelo classifique a imagem usando classes nunca antes vistas. Nesse caso, as classes novas ou inéditas seriam “Pão Relaxado”, “Pão Seguro”, “Pão Sentado”, “Dirigir Mercearia” e “Mercearia Segura”.

Anotar, desfocar ou adicionar formas às capturas de tela do seu iPhone

Observe que usamos propositalmente classes e imagens incomuns e invisíveis para demonstrar a eficácia da classificação de disparo zero em uma imagem.

Após inferência do modelo, foi possível classificar com cerca de 80% de certeza que a classificação mais adequada para a imagem era “Pão Seguro”. Provavelmente, isso ocorre porque o modelo pensa que uma cadeira alta é mais para segurança do que sentar, relaxar ou dirigir.

Incrível! Eu pessoalmente concordaria com o resultado do modelo. Mas como exatamente o modelo chegou a esse resultado? Aqui está uma visão geral de como funciona o aprendizado zero-shot.

Como funciona o aprendizado Zero-Shot

O aprendizado zero-shot pode ajudar um modelo pré-treinado a identificar novas classes sem fornecer dados rotulados. Em sua forma mais simples, o aprendizado zero-shot é feito em três etapas:

1. Preparação

O aprendizado zero-shot começa com a preparação de três tipos de dados

Classe vista: dados usados no treinamento do modelo pré-treinado. O modelo já fornece classes vistas. Os melhores modelos para aprendizado zero-shot são modelos treinados em classes intimamente relacionadas à nova classe que você deseja que o modelo identifique.
Classe Invisível/Nova: Dados que nunca foram utilizados durante o treinamento do modelo. Você mesmo terá que selecionar esses dados, pois não pode obtê-los do modelo.
Dados semânticos/auxiliares: bits extras de dados que podem ajudar o modelo a identificar a nova classe. Isso pode ser em palavras, frases, incorporações de palavras ou nomes de classes.

2. Mapeamento Semântico

A próxima etapa é mapear os recursos da classe invisível. Isso é feito criando embeddings de palavras e fazendo um mapa semântico que liga os atributos ou características da classe invisível aos dados auxiliares fornecidos. O aprendizado por transferência de IA torna o processo muito mais rápido, pois muitos atributos relacionados à classe invisível já foram mapeados.

3. Inferência

Inferência é o uso do modelo para gerar previsões ou resultados. Na classificação de imagem zero-shot, os embeddings de palavras são gerados na entrada de imagem fornecida e são então plotados e comparados com os dados auxiliares. O nível de certeza dependerá da semelhança entre os dados de entrada e os dados auxiliares fornecidos.

Como proteger seu Synology NAS contra Ransomware

Como o Zero-Shot Learning melhora a IA

O aprendizado zero-shot melhora os modelos de IA ao abordar vários desafios no aprendizado de máquina, incluindo:

Generalização aprimorada: A redução da dependência de dados rotulados permite que os modelos sejam treinados em conjuntos de dados maiores, melhorando a generalização e tornando o modelo mais robusto e confiável. À medida que os modelos se tornam mais experientes e generalizados, pode até ser possível que os modelos aprendam o bom senso, em vez da forma típica de analisar informações.
Escalabilidade: Os modelos podem ser treinados continuamente e obter mais conhecimento por meio da aprendizagem por transferência. As empresas e os investigadores independentes podem melhorar continuamente os seus modelos para serem mais capazes no futuro.
Chance reduzida de overfitting: O overfitting pode acontecer devido ao modelo ser treinado em um pequeno conjunto de dados que não contém variedade suficiente para representar todas as entradas possíveis. Treinar o modelo por meio do aprendizado zero shot reduz as chances de overfitting ao treinar o modelo para ter uma melhor compreensão contextual dos assuntos.
Econômico: Fornecer uma grande quantidade de dados rotulados pode consumir tempo e recursos. Usando o aprendizado de transferência zero-shot, o treinamento de um modelo robusto pode ser feito com muito menos tempo e dados rotulados.

À medida que a IA avança, técnicas como o aprendizado zero-shot se tornarão ainda mais importantes.

O futuro da aprendizagem Zero-Shot

O aprendizado zero-shot se tornou uma parte essencial do aprendizado de máquina. Permite que os modelos reconheçam e classifiquem novas classes sem treinamento explícito. Com o avanço contínuo em arquiteturas de modelos, abordagens baseadas em atributos e integração multimodal, o aprendizado zero shot pode ajudar significativamente a tornar os modelos muito mais adaptáveis para enfrentar desafios complexos em robótica, saúde e visão computacional.