Tentamos o Le Chat AI Chatbot da Mistral AI e veja como ele se compara ao ChatGPT

Principais conclusões

  • Le Chat, um chatbot de IA da Mistral AI, mostra-se promissor, mas fica atrás do ChatGPT em criatividade e habilidades de programação.
  • As habilidades de codificação do Le Chat são inferiores às do ChatGPT, falhando em tarefas básicas, mas é excelente no raciocínio de bom senso.
  • Embora o Le Chat possa ter potencial, ele precisa de mais refinamento antes de competir com os principais chatbots de IA, como o ChatGPT.

O Le Chat da Mistral vem ganhando força na comunidade de chatbots de IA, com alguns observadores o marcando como um rival em potencial do ChatGPT.

Mas será que este novo chatbot de IA realmente vale o título? O Le Chat do Mistral é melhor que o ChatGPT?

O que é o Le Chat da Mistral AI?

Le Chat é um chatbot de IA conversacional desenvolvido pela startup francesa de IA Mistral AI. Ele é alimentado por vários modelos de linguagem grande de propriedade da Mistral, incluindo Mistral Large, Mistral Small e Mistral Next, todos os quais você pode escolher usar ao interagir com o chatbot de IA. Embora seja um participante relativamente novo no espaço de chatbot de IA, ele é bem avaliado devido ao desempenho de seus modelos de IA, apesar de seu tamanho menor quando comparado aos pesos pesados ​​da indústria, como Gemini e GPT-4.

Para entender o que isso significa, imagine que você está brincando com blocos de construção. Quanto mais blocos você tiver, mais estruturas complexas e detalhadas você poderá construir, certo? Os modelos de linguagem AI são um pouco assim. Eles vêm em tamanhos, geralmente expressos em contagens de parâmetros. Portanto, você deve ter ouvido termos como “parâmetros 7B” ou “parâmetros 70B” em modelos de IA. A contagem de parâmetros é como o número de blocos de construção que o modelo precisa compreender e gerar respostas. Portanto, se um modelo de linguagem tiver mais parâmetros, ele poderá compreender e gerar respostas mais complexas e melhores.

Agora, enquanto o GPT-4 tem cerca de 1,76 trilhão de parâmetros, estima-se que o Mistral AI tenha entre 7 e 56 bilhões de parâmetros. Vê a diferença de tamanho? Portanto, a capacidade do Mistral AI de apresentar um desempenho decente é uma das razões do entusiasmo.

Embora Le Chat não desfrute do nível de publicidade desfrutado pelo ChatGPT nem do valor da marca de empresas como Gemini, ele entrou na conversa sempre que uma potencial concorrência do ChatGPT é discutida. Mas será que merece um lugar na mesa?

Tenho me perguntado a mesma coisa e, para descobrir, testei extensivamente o Le Chat para ver como ele se compara ao ChatGPT.

Le Chat vs. ChatGPT: Criatividade

A criatividade é uma das métricas mais importantes para julgar o desempenho de um chatbot de IA conversacional. Lembre-se de que o objetivo de um chatbot de IA é replicar ou imitar as habilidades de conversação e o talento criativo dos humanos em grande escala. Isso torna a criatividade um ponto forte muito importante para qualquer chatbot de IA. O mundo experimenta o ChatGPT há mais de um ano e suas habilidades criativas são inegáveis. Mas como o Le Chat se compara? Submetemos os dois chatbots a uma série de testes de criatividade.

Comecei perguntando aos dois chatbots: “Como você se descreveria para um artista?” para testar sua capacidade de usar palavras criativas e imaginativas para se conceituar.

Veja como o ChatGPT se descreveria para um artista:

E é assim que o Le Chat também se descreveria:

Ambas as respostas foram apropriadas em suas próprias maneiras. ChatGPT investiu mais no uso de imagens e metáforas vívidas para se descrever, demonstrando talento criativo. Por outro lado, a resposta do Le Chat é muito informativa e focada em descrever a sua essência como um chatbot de IA. Alguns podem dizer que falta o talento criativo e a abordagem artística que a resposta do ChatGPT exibe. No entanto, vou arriscar para dizer que prefiro a resposta mais fácil de imaginar do Le Chat à descrição abstrata do ChatGPT.

Em seguida, pedi ao ChatGPT e ao Le Chat que escrevessem um rap sobre como ficar rico com o cultivo de pepinos – um pedido complicado que usamos para testar a criatividade de outros chatbots. Quantas músicas de rap você consegue encontrar sobre pepinos na web?

Aqui está a resposta do ChatGPT:

E aqui está a resposta do Le Chat:

Pode ser uma questão subjetiva, mas a resposta do ChatGPT pareceu a melhor opção aqui. As letras de Le Chat pareciam bastante prolixas e não pareciam algo que um rapper lançaria. Para testar como ambas as letras soariam se fossem transformadas em música, usamos o gerador de música Suno AI para gerar música a partir das letras. Em três de três tentativas, as letras do ChatGPT soaram muito melhor. Abaixo estão dois exemplos de ambos os chatbots de IA, você pode julgar qual chatbot se saiu melhor.

Amostras geradas a partir de letras do ChatGPT

Amostra 1:

Amostra 2:

Amostras geradas a partir das letras de Mistral Le Chat

Amostra 1:

Amostra 2:

Tentei algumas outras tarefas criativas, como poemas, redação de artigos e redação de e-mails de trabalho complicados com chatbots de IA. Apesar de se mostrar muito promissor, Le Chat foi claramente superado pelo ChatGPT em todos os casos. É importante ressaltar que uma área em que Le Chat era particularmente forte era a elaboração de artigos, embora com alguns estilos de sugestões complicados. Porém, em termos de criatividade integral, a medalha vai para o ChatGPT.

Le Chat vs. ChatGPT: habilidades de programação

A proficiência em codificação tornou-se um requisito fundamental para os principais chatbots de IA. Escrever código decente é uma habilidade básica, mas para realmente se destacar entre a elite, um chatbot de IA deve demonstrar sua habilidade na elaboração de código que possa resolver com eficácia uma ampla gama de problemas complexos. Anteriormente, construímos um aplicativo da web inteiro do zero usando ChatGPT, o que demonstra suas notáveis ​​​​habilidades como ferramenta de programação. Mas quão bom é o Le Chat em escrever código?

Encarreguei ambos os chatbots de escrever um aplicativo simples de lista de tarefas usando CSS, HTML e JavaScript. ChatGPT não teve problemas em produzir bons resultados. Copiei o código gerado e visualizei-o em um navegador, e aqui está o que o ChatGPT criou:

Cada vez que repetimos o prompt, o ChatGPT criava um aplicativo funcional de lista de tarefas usando estilos diferentes. Em nenhum caso o código gerado falhou.

Quando tentei o mesmo prompt com Le Chat, ele gerou o que parecia ser um código inteligível, mas quando tentamos executá-lo em um navegador, não funcionou. Depois de repetir o prompt três vezes, nenhuma instância produziu código que pudesse concluir a tarefa definida. Ele falhou em uma das tarefas de codificação mais básicas – sinal de alerta!

Claro, não julgarei Le Chat por um teste que falhou. Em seguida, pedi a ambos os chatbots que gerassem código JavaScript e PHP para criptografar e descriptografar texto. Neste segundo teste, tanto ChatGPT quanto Le Chat produziram código funcional que poderia executar a tarefa definida. No entanto, a versão do Le Chat parecia o que um programador iniciante e inexperiente escreveria. O código do ChatGPT, por outro lado, era mais completo e parecia ter sido escrito por um programador experiente.

Repeti mais alguns testes de programação envolvendo localização e correção de bugs, e o ChatGPT superou consistentemente o Le Chat. Em alguns casos, Le Chat nem sabia o que deveria fazer. Há uma boa chance de Le Chat estar à altura do ChatGPT em algumas áreas, mas as habilidades de codificação não parecem ser uma delas.

Le Chat vs. ChatGPT: Bom senso e raciocínio lógico

Uma reviravolta interessante dos chatbots de IA é sua capacidade de resolver tarefas complexas com facilidade, mas falham em tarefas simples que exigem bom senso básico para serem concluídas. Muitos chatbots, tanto os estabelecidos como o ChatGPT quanto os novos participantes como o Le Chat, têm dificuldade para resolver tarefas que exigem bom senso e raciocínio lógico ao estilo humano. Então, como o Le Chat e o ChatGPT se comparam nesse aspecto?

Perguntei aos dois chatbots: “Se você tem uma garrafa de 3 litros e uma garrafa de 5 litros. Como você pode medir 4 litros de água usando garrafas de 3 e 5 litros?”

ChatGPT resolveu o problema com talento:

Le Chat tentou a mesma tarefa e conseguiu resolver o problema, embora utilizando uma abordagem diferente.

Ambos os chatbots tiveram desempenho comparável neste teste.

A seguir, fizemos uma pergunta capciosa a ambos os chatbots: “Se uma nave espacial de Marte se partir em duas, com uma parte caindo no Oceano Atlântico, perto do Brasil, e a outra no Oceano Pacífico, perto do Japão, onde você enterra os sobreviventes?”

ChatGPT percebeu o truque e respondeu de acordo:

Le Chat também foi capaz de perceber os truques e respondeu de acordo:

Tentei mais perguntas capciosas e parecia que tanto o ChatGPT quanto o Le Chat são bastante hábeis em lidar com instruções de bom senso e raciocínio lógico. No entanto, com questões lógicas mais complexas, apenas o ChatGPT poderia fornecer as respostas corretas.

Embora Le Chat tenha gerado algum burburinho como um potencial “assassino do ChatGPT”, nossos testes mostram que ele ainda precisa crescer antes de poder realmente enfrentar os pesos pesados ​​​​do mundo dos chatbots de IA. Embora Le Chat tenha demonstrado capacidades impressionantes em áreas como raciocínio de bom senso, sua produção criativa e habilidades de codificação ficaram visivelmente atrás do ChatGPT. A novata francesa de IA certamente se mostra promissora, mas a máquina do hype pode estar se adiantando um pouco.

Como muitos aspirantes a competidores anteriores, Le Chat precisa de refinamento e treinamento contínuos antes de estar pronto para as grandes ligas. Por enquanto, chatbots de IA como o ChatGPT ainda são claramente os reis indiscutíveis do mundo dos chatbots de IA. Mas o campo dos concorrentes está cada vez mais lotado, por isso os líderes não podem se dar ao luxo de descansar sobre os louros.