Por que o contexto de um milhão de tokens do Gemini 1.5 é uma virada de jogo

Principais conclusões

  • O Google Gemini 1.5 apresenta uma janela de contexto de um milhão de tokens, superando concorrentes como Claude e ChatGPT.
  • Uma janela de contexto maior melhora o desempenho de um modelo de IA e reduz erros, mas pode não garantir o sucesso geral.
  • A janela de contexto maior do Gemini 1.5 pode aumentar muito a precisão, reduzir erros e melhorar a compreensão.

O Google Gemini 1.5 agora vem com uma enorme janela de contexto de um milhão de tokens, superando sua concorrência direta no ChatGPT, Claude e outros chatbots de IA.

Parece uma grande atualização e pode diferenciar Gêmeos. É um pouco difícil compreender toda a sua extensão, mas a enorme janela de contexto do Gemini pode mudar o jogo.

O que é uma janela de contexto?

Ao responder às suas dúvidas, como explicar um conceito ou resumir um texto, os modelos de IA têm um limite na quantidade de dados que podem considerar para gerar uma resposta. O limite do tamanho do texto que ele pode considerar é chamado de janela de contexto.

Aqui está outra maneira de ver isso. Digamos que você vá a um supermercado para comprar mantimentos sem sua lista de compras. O limite de quantas compras você lembra ao fazer compras é a sua janela de contexto. Quanto mais compras você lembrar, maiores serão as chances de não atrapalhar seus planos de compras. Da mesma forma, quanto maior a janela de contexto de um modelo de IA, maiores serão as chances de o modelo se lembrar de tudo o que precisa para fornecer os melhores resultados.

  Como aprender GRATUITAMENTE em Harvard, Stanford, MIT, etc.

No momento em que este artigo foi escrito, a janela de contexto de 200k do Claude 2.1 da Anthropic é a maior janela de contexto de qualquer modelo de IA geralmente disponível. Isto é seguido pelo GPT-4 Turbo com uma janela de contexto de 128k. O Google Gemini 1.5 traz uma janela de contexto de um milhão, quatro vezes maior do que qualquer coisa no mercado. Isso leva à grande questão: qual é o problema de uma janela de contexto de um milhão de tokens?

Por que a janela de contexto do Gemini 1.5 é importante

Maquetes inteligentes

Para colocar isso em uma perspectiva mais clara, a janela de contexto de 200k de Claude AI significa que ele pode digerir um livro de cerca de 150.000 palavras e fornecer respostas para ele. Isso é enorme. Mas o Gemini 1.5 do Google seria capaz de digerir 700 mil palavras de uma só vez!

Quando você alimenta um grande bloco de texto em chatbots de IA como ChatGPT ou Gemini, ele tenta digerir o máximo de texto possível, mas o quanto pode digerir depende de sua janela de contexto. Então, se você tem uma conversa que envolve 100 mil palavras em um modelo que só pode lidar com 28 mil e então começa a fazer perguntas que exigem que ele tenha conhecimento completo de todas as 100 mil palavras da conversa, você está configurando-a para falhar.

  Como usar Desfazer no Vim

Imagine assistir apenas 20 minutos de um filme de uma hora, mas ser solicitado a explicar o filme inteiro. Quão bons seriam seus resultados? Você se recusa a responder ou simplesmente inventa coisas, que é exatamente o que um chatbot de IA faria, levando a alucinações de IA.

Agora, se você está pensando que nunca precisou inserir 100 mil palavras em um chatbot, essa não é toda a consideração. A janela de contexto transcende apenas o texto que você alimenta um modelo de IA em um único prompt. Os modelos de IA consideram toda a conversa que você teve durante uma sessão de chat para garantir que suas respostas sejam tão relevantes quanto possível.

Portanto, mesmo que você não esteja alimentando-o com um livro de 100 mil palavras, suas conversas de ida e volta e as respostas que ele fornece contribuem para o cálculo da janela de contexto. Quer saber por que o ChatGPT ou o Gemini do Google continuam esquecendo as coisas que você disse anteriormente em uma conversa? Provavelmente ficou sem espaço na janela de contexto e começou a esquecer coisas.

Uma janela de contexto maior é particularmente importante para tarefas que exigem uma compreensão profunda do contexto, como resumir artigos longos, responder a perguntas complexas ou manter uma narrativa coerente no texto gerado. Quer escrever um romance de 50 mil palavras que tenha uma narrativa consistente? Quer um modelo que possa “assistir” e responder perguntas em um arquivo de vídeo de uma hora? Você precisa de uma janela de contexto maior!

  5 ferramentas de IA para ajudá-lo a criar quadrinhos simples

Em suma, a janela de contexto maior do Gemini 1.5 pode melhorar significativamente o desempenho do seu modelo de IA, reduzindo a alucinação e aumentando significativamente a precisão e a capacidade de seguir melhor as instruções.

O Gemini 1.5 corresponderá às expectativas?

Se tudo correr como planejado, o Gemini 1.5 poderá superar os melhores modelos de IA do mercado. No entanto, considerando as muitas falhas do Google na construção de um modelo de IA estável, é importante agir com cautela. Aumentar apenas a janela de contexto de um modelo não torna o modelo automaticamente melhor.

Eu usei a janela de contexto de 200k do Claude 2.1 por meses desde seu lançamento, e uma coisa está clara para mim: uma janela de contexto maior pode de fato melhorar a sensibilidade ao contexto, mas problemas com o desempenho do modelo principal podem tornar o contexto maior um problema de sua natureza. ter.

O Google Gemini 1.5 nos proporcionará uma virada de jogo? Atualmente, a mídia social está repleta de críticas elogiosas do Gemini 1.5 de usuários com acesso antecipado. No entanto, a maioria das avaliações 5 estrelas resulta de casos de uso apressados ​​ou simplificados. Um bom lugar para verificar o desempenho do Gemini 1.5 em estado selvagem é dentro do Google Relatório técnico do Gemini 1.5 [PDF]. O relatório mostra que mesmo durante os “testes controlados”, o modelo não conseguiu recuperar todos os pequenos detalhes dos documentos dentro do tamanho da sua janela de contexto.

Uma janela de contexto de um milhão de tokens é de fato um feito técnico impressionante, mas sem ser capaz de recuperar os detalhes de um documento de forma confiável, uma janela de contexto maior tem pouco valor prático e pode até se tornar uma causa de declínio na precisão e alucinações.