Le Chat vs. ChatGPT: O novo chatbot da Mistral AI supera o gigante?

Principais Considerações

  • O Le Chat, um assistente de IA da Mistral AI, apresenta um desempenho promissor, mas ainda fica aquém do ChatGPT em termos de criatividade e habilidades de programação.
  • As capacidades de codificação do Le Chat são inferiores às do ChatGPT, demonstrando dificuldades em tarefas básicas, embora se destaque em raciocínio lógico e senso comum.
  • Embora o Le Chat demonstre potencial, necessita de mais desenvolvimento antes de poder competir com os principais chatbots de IA, como o ChatGPT.

O Le Chat, da Mistral, tem ganhado atenção no universo dos chatbots de IA, sendo apontado por alguns como um possível concorrente do ChatGPT.

No entanto, será que este novo chatbot de IA realmente merece tal reconhecimento? O Le Chat da Mistral é superior ao ChatGPT?

O que é o Le Chat da Mistral AI?

O Le Chat é um chatbot de IA desenvolvido pela startup francesa de IA, Mistral AI. Utiliza diversos modelos de linguagem de grande porte da Mistral, incluindo Mistral Large, Mistral Small e Mistral Next, que o utilizador pode selecionar ao interagir com o chatbot. Embora seja um participante recente no mercado de chatbots de IA, tem sido elogiado pelo desempenho dos seus modelos de IA, apesar do seu tamanho comparativamente menor quando confrontado com gigantes da indústria como o Gemini e o GPT-4.

Para compreender melhor, imagine que está a brincar com blocos de construção. Quanto mais blocos tiver, mais estruturas complexas e detalhadas pode construir, certo? Os modelos de linguagem de IA funcionam de forma semelhante. Variam em tamanho, geralmente expresso em número de parâmetros. Assim, é comum ouvir termos como “parâmetros 7B” ou “parâmetros 70B” quando se fala de modelos de IA. O número de parâmetros é semelhante ao número de blocos de construção que o modelo utiliza para compreender e gerar respostas. Portanto, um modelo de linguagem com mais parâmetros tem a capacidade de entender e gerar respostas mais complexas e de maior qualidade.

Enquanto o GPT-4 tem aproximadamente 1,76 triliões de parâmetros, estima-se que o Mistral AI tenha entre 7 e 56 mil milhões de parâmetros. A diferença de escala é notória, e a capacidade da Mistral AI de apresentar um desempenho considerável é um dos motivos do entusiasmo.

Embora o Le Chat não tenha a mesma notoriedade do ChatGPT ou o valor de marca de empresas como o Gemini, tem sido mencionado em debates sobre potenciais rivais do ChatGPT. Mas será que merece um lugar de destaque?

Eu tinha a mesma dúvida, e para descobrir, testei o Le Chat de forma abrangente para avaliar o seu desempenho em comparação com o ChatGPT.

Le Chat vs. ChatGPT: Criatividade

A criatividade é um dos critérios cruciais para avaliar o desempenho de um chatbot de IA conversacional. O objetivo de um chatbot de IA é replicar ou simular as habilidades de conversação e o talento criativo dos humanos em larga escala. Isso torna a criatividade um ponto forte fundamental para qualquer chatbot de IA. O ChatGPT tem sido usado mundialmente há mais de um ano, e suas habilidades criativas são indiscutíveis. Mas como é que o Le Chat se comporta? Submetemos os dois chatbots a uma série de testes de criatividade.

Comecei por perguntar aos dois chatbots: “Como se descreveria a um artista?” para avaliar a sua capacidade de usar palavras criativas e imaginativas para se apresentar.

Eis como o ChatGPT se descreveria a um artista:

E esta é a forma como o Le Chat se descreveria:

As duas respostas foram adequadas à sua maneira. O ChatGPT investiu mais na utilização de imagens e metáforas vívidas para se descrever, demonstrando talento criativo. Por outro lado, a resposta do Le Chat é mais informativa, focada em descrever a sua essência como um chatbot de IA. Alguns podem considerar que lhe falta o talento criativo e a abordagem artística que a resposta do ChatGPT apresenta. No entanto, arriscaria dizer que prefiro a resposta mais fácil de visualizar do Le Chat à descrição abstrata do ChatGPT.

A seguir, pedi ao ChatGPT e ao Le Chat para escreverem um rap sobre como enriquecer a cultivar pepinos – um pedido complexo que utilizamos para testar a criatividade de outros chatbots. Quantas músicas de rap sobre pepinos consegue encontrar na web?

Aqui está a resposta do ChatGPT:

E aqui está a resposta do Le Chat:

Pode ser uma questão de preferência, mas a resposta do ChatGPT pareceu a melhor opção aqui. As letras do Le Chat pareciam bastante prolixas e não pareciam algo que um rapper lançaria. Para avaliar o som das duas letras ao serem transformadas em música, usamos o gerador de música Suno AI para gerar música a partir das letras. Em três tentativas, as letras do ChatGPT soaram muito melhor. Abaixo estão dois exemplos de ambos os chatbots de IA, pode avaliar qual chatbot teve um desempenho superior.

Exemplos gerados a partir das letras do ChatGPT

Exemplo 1:

Exemplo 2:

Exemplos gerados a partir das letras do Mistral Le Chat

Exemplo 1:

Exemplo 2:

Tentei outras tarefas criativas, como poemas, escrita de artigos e redação de e-mails de trabalho complexos com os chatbots de IA. Apesar de mostrar-se bastante promissor, o Le Chat foi claramente superado pelo ChatGPT em todos os casos. É importante notar que uma área em que o Le Chat se destacou foi a elaboração de artigos, embora com algumas sugestões de estilos mais complexos. No entanto, em termos de criatividade abrangente, o ChatGPT leva a melhor.

Le Chat vs. ChatGPT: Habilidades de Programação

A proficiência em codificação tornou-se um requisito fundamental para os principais chatbots de IA. Escrever código razoável é uma habilidade básica, mas para se destacar entre a elite, um chatbot de IA deve demonstrar a sua capacidade de criar código que resolva eficazmente uma ampla gama de problemas complexos. Já construímos anteriormente uma aplicação web completa a partir do zero usando o ChatGPT, o que demonstra as suas notáveis habilidades como ferramenta de programação. Mas quão bom é o Le Chat a escrever código?

Incarreguei os dois chatbots de escrever uma aplicação simples de lista de tarefas usando CSS, HTML e JavaScript. O ChatGPT não teve problemas em produzir bons resultados. Copiei o código gerado e visualizei-o num navegador, e este é o resultado do ChatGPT:

De cada vez que repetimos o prompt, o ChatGPT criava uma aplicação de lista de tarefas funcional usando estilos diferentes. Em nenhuma situação o código gerado falhou.

Quando tentei o mesmo prompt com o Le Chat, ele gerou um código que parecia compreensível, mas quando tentamos executá-lo num navegador, não funcionou. Depois de repetir o prompt três vezes, nenhuma instância produziu código capaz de concluir a tarefa definida. Falhou numa das tarefas de codificação mais básicas – um sinal de alerta!

Claro que não vou julgar o Le Chat por um único teste em que falhou. De seguida, pedi aos dois chatbots para gerarem código JavaScript e PHP para encriptar e desencriptar texto. Neste segundo teste, tanto o ChatGPT como o Le Chat produziram código funcional que executava a tarefa definida. No entanto, a versão do Le Chat parecia algo que um programador iniciante e inexperiente escreveria. O código do ChatGPT, por outro lado, era mais completo e parecia ter sido escrito por um programador experiente.

Repeti mais alguns testes de programação envolvendo localização e correção de bugs, e o ChatGPT superou sistematicamente o Le Chat. Em algumas situações, o Le Chat nem sequer sabia o que tinha de fazer. É muito possível que o Le Chat possa atingir o nível do ChatGPT em certas áreas, mas as habilidades de codificação não parecem ser uma delas.

Le Chat vs. ChatGPT: Senso Comum e Raciocínio Lógico

Uma particularidade curiosa dos chatbots de IA é a sua capacidade de resolver tarefas complexas com facilidade, mas falham em tarefas simples que exigem senso comum básico para serem realizadas. Muitos chatbots, tanto os estabelecidos como o ChatGPT, como os novos concorrentes como o Le Chat, têm dificuldade em resolver tarefas que exigem bom senso e raciocínio lógico ao estilo humano. Então, como é que o Le Chat e o ChatGPT se comportam nesse aspeto?

Perguntei aos dois chatbots: “Se tiver um garrafão de 3 litros e um garrafão de 5 litros. Como é que pode medir 4 litros de água usando garrafões de 3 e 5 litros?”

O ChatGPT resolveu o problema com perícia:

O Le Chat tentou a mesma tarefa e conseguiu resolver o problema, embora usando uma abordagem diferente.

Os dois chatbots tiveram um desempenho equiparável neste teste.

A seguir, colocámos uma pergunta capciosa aos dois chatbots: “Se uma nave espacial de Marte se partir em duas, com uma parte a cair no Oceano Atlântico, perto do Brasil, e a outra no Oceano Pacífico, perto do Japão, onde é que enterra os sobreviventes?”

O ChatGPT detetou a armadilha e respondeu de acordo:

O Le Chat também foi capaz de perceber a armadilha e respondeu de acordo:

Tentei mais perguntas capciosas e parece que tanto o ChatGPT como o Le Chat são bastante hábeis a lidar com instruções de senso comum e raciocínio lógico. No entanto, em questões lógicas mais complexas, apenas o ChatGPT conseguiu apresentar as respostas corretas.

Embora o Le Chat tenha gerado algum entusiasmo como um possível “assassino do ChatGPT”, os nossos testes revelam que ainda precisa de se desenvolver mais antes de poder competir com os grandes do mundo dos chatbots de IA. Embora o Le Chat tenha demonstrado capacidades impressionantes em áreas como o raciocínio de bom senso, a sua produção criativa e habilidades de codificação ficaram claramente aquém das do ChatGPT. A nova startup francesa de IA certamente mostra promessa, mas a campanha de promoção pode estar a adiantar-se um pouco.

Como muitos aspirantes a concorrentes anteriores, o Le Chat necessita de aperfeiçoamento e formação contínua antes de estar preparado para as grandes ligas. Por agora, os chatbots de IA como o ChatGPT são claramente os reis incontestados do universo dos chatbots de IA. Mas o campo dos concorrentes está cada vez mais concorrido, pelo que os líderes não se podem dar ao luxo de descansar sobre os louros.