Gemini 1.5: 1 Milhão de Tokens – Revolução na IA ou Hype?

Principais Pontos a Reter

  • O Google Gemini 1.5 introduz uma janela de contexto de um milhão de tokens, ultrapassando modelos concorrentes como Claude e ChatGPT.
  • Uma janela de contexto de maior dimensão tende a aprimorar a performance de um modelo de IA, diminuindo a ocorrência de erros, mas não assegura o sucesso de forma absoluta.
  • A expansão da janela de contexto no Gemini 1.5 tem o potencial de incrementar significativamente a precisão, atenuar falhas e otimizar a compreensão textual.

O Google Gemini 1.5 agora se destaca com uma janela de contexto robusta, atingindo um milhão de tokens, o que o posiciona à frente de seus principais adversários, como ChatGPT e Claude.

Esta atualização aparenta ser substancial e pode realmente diferenciar o Gemini. Embora a extensão completa dessa mudança seja complexa de se absorver, a vasta janela de contexto do Gemini tem o potencial de ser revolucionária.

O que Significa Janela de Contexto?

Quando modelos de inteligência artificial respondem a questionamentos, como explicar um conceito ou resumir um texto, eles operam dentro de um limite específico de dados que podem processar para formular uma resposta. Esse limite de texto que pode ser considerado é o que definimos como janela de contexto.

Para ilustrar, imagine ir ao supermercado sem uma lista de compras. A quantidade de itens que você consegue lembrar enquanto faz compras representa sua janela de contexto. Quanto mais itens você consegue memorizar, menor a chance de se desviar dos seus objetivos de compra. Analogamente, quanto maior a janela de contexto de um modelo de IA, maior a capacidade do modelo de lembrar tudo o que é necessário para entregar os melhores resultados.

Até a data desta análise, o Claude 2.1 da Anthropic liderava o mercado com a maior janela de contexto disponível, de 200 mil tokens. O GPT-4 Turbo o seguia, com 128 mil. O Google Gemini 1.5, ao apresentar uma janela de um milhão, supera em quatro vezes seus concorrentes. Surge então a questão: qual é a relevância de uma janela de contexto tão grande?

O Impacto da Janela de Contexto do Gemini 1.5

Maquetes inteligentes

Para tornar isso mais claro, a janela de contexto de 200 mil do Claude AI lhe permite absorver e responder sobre um livro de cerca de 150.000 palavras. Isso já é considerável, mas o Gemini 1.5 do Google pode processar 700 mil palavras de uma só vez!

Ao inserir grandes blocos de texto em chatbots como o ChatGPT ou Gemini, eles tentam processar o máximo possível dentro de sua capacidade, determinada pela janela de contexto. Se uma conversa envolve 100 mil palavras e o modelo só consegue processar 28 mil, ao fazer perguntas que exigem conhecimento de todas as 100 mil palavras, o modelo estará propenso a falhar.

Pense em assistir apenas 20 minutos de um filme de uma hora e ser solicitado a explicar a trama completa. Qual seria a qualidade da sua resposta? Ou você se recusaria a responder, ou inventaria detalhes, o que é exatamente o que um chatbot faria, levando a alucinações da IA.

E não se trata apenas de inserir 100 mil palavras de uma só vez. A janela de contexto influencia toda a interação com um modelo de IA. Os modelos de IA levam em conta toda a conversa para garantir que suas respostas sejam relevantes. As idas e vindas da sua conversa contribuem para o cálculo da janela de contexto. Se você já se perguntou por que o ChatGPT ou o Gemini do Google parecem esquecer o que foi discutido antes, provavelmente eles atingiram o limite da janela de contexto e começaram a descartar informações.

Uma janela de contexto maior é essencial para tarefas que exigem compreensão contextual profunda, como resumir artigos extensos, responder a questões complexas ou garantir uma narrativa coerente em textos gerados. Para escrever um romance de 50 mil palavras com narrativa consistente, ou para um modelo que possa analisar e responder perguntas sobre um arquivo de vídeo de uma hora, uma janela de contexto maior é indispensável!

Em resumo, a janela de contexto ampliada do Gemini 1.5 tem o potencial de melhorar o desempenho de modelos de IA, reduzindo alucinações e incrementando a precisão e a capacidade de seguir instruções com mais eficácia.

O Gemini 1.5 Cumprirá as Expectativas?

Se tudo ocorrer conforme o previsto, o Gemini 1.5 pode ultrapassar os modelos de IA de ponta disponíveis. No entanto, considerando os desafios já enfrentados pelo Google no desenvolvimento de modelos de IA estáveis, cautela é recomendada. A simples expansão da janela de contexto não garante automaticamente um modelo superior.

Utilizei a janela de contexto de 200k do Claude 2.1 durante meses desde o seu lançamento, e percebi que uma janela de contexto maior aprimora a sensibilidade contextual, mas os problemas com o desempenho geral do modelo podem tornar o contexto maior irrelevante.

Será que o Google Gemini 1.5 será um divisor de águas? As redes sociais estão repletas de avaliações positivas do Gemini 1.5 de usuários com acesso antecipado. Contudo, muitas dessas avaliações de 5 estrelas são baseadas em casos de uso apressados ou simplificados. Uma fonte confiável para avaliar o desempenho do Gemini 1.5 é o Relatório Técnico do Gemini 1.5 [PDF] do Google. O relatório indica que, mesmo em “testes controlados”, o modelo não conseguiu recuperar detalhes precisos de documentos dentro do limite da janela de contexto.

Uma janela de contexto de um milhão de tokens é um marco tecnológico impressionante, mas sem uma capacidade confiável de recuperar detalhes de documentos, uma janela de contexto maior tem pouco valor prático, podendo até mesmo levar à redução da precisão e ao aumento das alucinações.