Claude 3 x ChatGPT: O novo rival do GPT-4 chegou?

últimas postagens

Navegação Rápida

Explorando as Capacidades do Claude 3

Pontos Essenciais

O Claude 3, desenvolvido pela Anthropic, representa um avanço significativo em relação ao Claude 2, superando o GPT-4 em diversas áreas.
Com o Claude 3, é possível gerar respostas para uma ampla gama de perguntas em diferentes domínios, sem a necessidade de assinatura paga.
O Claude 3 se equipara ao GPT-4 do ChatGPT, destacando-se em tarefas como programação, escrita criativa e no tamanho da janela de contexto.

A Anthropic introduziu o Claude 3, uma família de modelos de inteligência artificial que possui o potencial de rivalizar com o GPT-4. Este lançamento suscita uma questão: será que o Claude 3 está pronto para desafiar o domínio do ChatGPT?

Entendendo o Claude 3

O Claude 3 é composto por três modelos multimodais de IA, criados pela Anthropic para substituir a série Claude 2. Pode-se dizer que o Claude 3 é a resposta da Anthropic ao Gemini, do Google, e ao GPT-4, da OpenAI. Disponível em três versões – Haiku, Sonnet e Opus – com níveis crescentes de capacidade, o Claude 3 marca a estreia da Anthropic no campo de modelos multimodais de IA, representando um salto considerável em comparação com a série Claude 2.

Se o chatbot Claude AI é novidade para você, isso é compreensível. O Claude e seus modelos não alcançaram o mesmo nível de popularidade do ChatGPT ou o reconhecimento de marca do Gemini do Google. No entanto, o Claude é indiscutivelmente um dos chatbots de IA mais avançados, superando o ChatGPT em vários aspectos críticos.

Para entender a magnitude do Claude 3, é importante relembrar as limitações de seus antecessores.

As versões anteriores do Claude eram conhecidas por sua abordagem excessivamente cautelosa em relação à segurança da IA. As medidas de segurança do Claude 2, por exemplo, eram tão rigorosas que o chatbot evitava muitos assuntos, mesmo aqueles sem riscos aparentes.
Outro problema era a janela de contexto do modelo. Imagine que, ao solicitar a um modelo de IA que explique ou resuma um artigo longo, ele consiga processar apenas alguns parágrafos por vez. Esse limite de texto que ele consegue analisar simultaneamente é conhecido como “janela de contexto”. As versões anteriores do Claude tinham uma janela de contexto de 200 mil tokens (equivalente a 150.000 palavras). No entanto, o modelo tinha dificuldades em lidar com tanto texto sem perder informações.
Havia também a questão da multimodalidade. A maioria dos modelos de IA se tornou multimodal, o que significa que podem processar outras formas de dados, como imagens, além de texto. O Claude não possuía essa capacidade.

Esses três problemas foram totalmente ou parcialmente resolvidos com o lançamento do Claude 3.

O que o Claude 3 Pode Fazer

Assim como outros modelos de IA generativa de ponta, o Claude 3 pode gerar respostas de alta qualidade para uma variedade de consultas em diferentes áreas. Seja resolvendo problemas de álgebra, compondo músicas originais, redigindo artigos detalhados, escrevendo códigos para software ou analisando grandes conjuntos de dados, o Claude 3 se mostra muito eficaz.

Mas, considerando que muitos modelos de IA já são proficientes nessas tarefas, por que escolher o Claude 3?

A resposta é simples: o Claude 3 não é apenas mais um modelo de IA competente nessas tarefas; ele é o modelo de IA multimodal mais avançado disponível gratuitamente na internet. Embora o Gemini, do Google, tenha recebido elogios por seu desempenho em testes de referência, a Anthropic afirma que o Claude 3 o supera em várias tarefas. Embora os resultados de referência devam ser analisados com cautela, os testes realizados demonstraram a superioridade do Claude 3 em diversos cenários de uso.

Portanto, o Claude 3 permite realizar a maioria das tarefas que você faria com o Gemini e o GPT-4 (exceto a geração de imagens) sem ter que pagar a assinatura premium do ChatGPT.

Claude 3 vs. ChatGPT

Uma maneira rápida de avaliar o desempenho de um modelo de IA é compará-lo com o líder de mercado: o GPT-4. Realizamos testes para verificar o quão bem o Claude 3 da Anthropic se equipara ao GPT-4.

Claude x ChatGPT: Habilidades de Programação

Em uma série de tarefas de programação, o Claude 3 igualou a capacidade do GPT-4 em todas as tarefas básicas e até o superou em algumas. Embora os testes tenham se concentrado no básico, a versão anterior do Claude era visivelmente menos competente nas mesmas tarefas em uma comparação realizada em setembro de 2023. Por exemplo, ao solicitar que ambos os modelos criassem uma lista de tarefas simples, o Claude falhou em todas as tentativas, enquanto o ChatGPT apresentou um desempenho excelente.

Com a versão mais recente, o Claude 3 produziu um aplicativo de lista de tarefas com melhor desempenho em todos os três testes. Abaixo está o resultado do GPT-4 ao ser solicitado a criar um aplicativo de lista de tarefas.

E aqui está o resultado do Claude 3 ao ser solicitado a fazer o mesmo.

Ambos os aplicativos eram funcionais, mas o Claude 3 claramente se saiu melhor.

Em testes de programação mais complexos, o Claude se destacou em vários casos, enquanto o GPT-4 também teve seus momentos de vitória. Embora não se possa afirmar que o Claude 3 é melhor em lógica de programação, a lacuna entre os dois modelos certamente diminuiu.

Claude x ChatGPT: Raciocínio de Senso Comum

Avaliamos ambos os modelos com base no raciocínio de senso comum. Trabalhar com chatbots de IA é um paradoxo interessante: eles podem lidar com tarefas complexas, mas muitas vezes têm dificuldades com problemas básicos que exigem senso comum ou lógica. Por isso, apresentamos a ambos os modelos uma série de perguntas aparentemente simples que exigiam bom senso para serem respondidas corretamente.

Em cinco dessas questões, ambos os modelos responderam logicamente a todas. Uma das perguntas feita aos dois chatbots era: se uma nave espacial de Marte se partisse em duas, com uma parte caindo no Oceano Atlântico, perto do Brasil, e a outra no Oceano Pacífico, perto do Japão, onde você enterraria os sobreviventes?

O ChatGPT respondeu corretamente, mesmo sem o GPT-4. A escolha da pergunta foi intencional, pois os chatbots têm um histórico de falhas nesse tipo de questionamento. Abaixo está a resposta do Claude.

A resposta do Claude não foi totalmente direta, mas ele foi capaz de identificar a informação essencial: sobreviventes não são enterrados. É importante notar que, quando a mesma pergunta foi feita ao Claude 2, ele não conseguiu perceber a armadilha do senso comum.

Claude x ChatGPT: Escrita Criativa

Um dos usos mais comuns de chatbots de IA é a geração de textos criativos: artigos, cartas, letras de músicas, etc. Avaliamos os dois modelos para determinar qual cria textos com melhor sonoridade humana.

A ideia é que os resultados não sejam apenas “corretos” ou criativos (de forma robótica), mas que soem como se tivessem sido escritos por um ser humano. Pedimos que ambos os modelos compusessem a letra de uma música rap sobre cultivar pepinos e se tornar um milionário com eles. Por que rap sobre pepinos? Essa é a ideia, algo desafiador!

Aqui está a resposta do ChatGPT:

E aqui está a resposta do Claude, usando a mesma solicitação.

A escolha pode ser subjetiva, mas o Claude parece se destacar nesse quesito. Ao solicitar que ambos os modelos redigissem três artigos sobre temas diferentes, o Claude produziu os melhores resultados em todos os casos. Ele gerou textos com tom mais humano, evitando padrões associados a textos gerados por IA, como exageros, uso de palavras complexas e uso inadequado de conectivos.

Claude vs. ChatGPT: Habilidades de Reconhecimento de Imagem

Para avaliar as capacidades de reconhecimento de imagem, fornecemos ao ChatGPT e ao Claude várias fotos de edifícios altos famosos ao redor do mundo. O ChatGPT identificou corretamente todos os 20 edifícios, enquanto o Claude 3 não conseguiu identificar alguns, incluindo o Marina 101, de Dubai, a Lotte World Tower, em Seul, e o Merdeka 118, em Kuala Lumpur, na Malásia.

Ao contrário do ChatGPT, o Claude teve dificuldades em identificar edifícios, principalmente se não estivessem localizados nos Estados Unidos ou na China. No entanto, ele não teve problemas em identificar versões ofuscadas da Torre Eiffel ou do Empire State Building.

O ChatGPT é claramente superior nesse aspecto, mas, considerando que o Claude 3 é a primeira tentativa da Anthropic de criar um modelo de IA multimodal, o resultado não é ruim.

Embora modelos como o Palm 2, do Google, e posteriormente o Gemini, sempre tenham sido apontados como potenciais concorrentes do GPT-4, defendemos que o menos conhecido Claude AI seria o mais provável a conquistar esse posto. Após alguns meses e diversas iterações, o Claude 3 se apresenta como o rival que esperávamos que ele fosse para o GPT-4. Se você é um usuário frequente de chatbots, mas ainda não experimentou o Claude AI, está perdendo uma ferramenta de IA extremamente eficaz que pode impulsionar sua produtividade.