Grok 2.0: Poderoso, mas perigoso? Descubra se vale a pena!

A xAI, sob a liderança de Elon Musk, recentemente disponibilizou em versão beta seu modelo de inteligência artificial de ponta, o Grok 2.0. Em uma publicação no blog, a xAI revelou que o Grok 2.0 atingiu uma marca impressionante de 87,5% no benchmark MMLU, utilizando a técnica 0-shot CoT, o que realmente me surpreendeu. Essa pontuação coloca o modelo em um patamar similar ao do GPT-4o, que alcançou 87,7% no mesmo teste.

Intrigado, decidi avaliar o modelo Grok 2.0 e verificar seu desempenho em testes de raciocínio lógico. Felizmente, a xAI integrou o Grok 2.0 (Beta) ao x.com, permitindo que assinantes do X Premium experimentem o modelo.

Grok 2.0: Superou as Expectativas Iniciais?

Iniciei os testes com algumas questões desafiadoras de raciocínio, projetadas para testar os limites até dos melhores modelos de linguagem (LLMs). Ao perguntar se secar 20 toalhas ao sol levaria mais tempo do que secar 15, o Grok 2.0 respondeu corretamente que o tempo seria o mesmo. Muitos modelos, incluindo o Llama 3.1 405B, falharam nesse teste básico.

Em seguida, o modelo acertou ao afirmar que “9,9 é maior que 9,11”, um desafio simples que confundiu diversos modelos de ponta. Depois, solicitei ao Grok 2.0 que contasse quantas letras ‘R’ existem na palavra “Morangos”, e ele indicou corretamente que são três. O modelo foi capaz, inclusive, de escrever “morangos” de trás para frente: “sognarom”.

Para avaliar sua capacidade de seguir instruções, pedi ao Grok 2.0 que criasse 10 frases terminadas com o nome “Elon Musk”, o que ele fez com perfeição. Por fim, solicitei a criação de um jogo no estilo Tetris em Python, mas o código gerado não compilou. No entanto, em todos os outros testes padrão que costumo aplicar em modelos de IA, o Grok 2.0 teve um desempenho excepcional, sem a necessidade de instruções de raciocínio passo a passo.

Ainda não foi lançado um modelo multimodal do Grok 2.0 pela xAI, portanto não pude avaliar suas capacidades visuais. Contudo, no teste inicial de “afinidade”, o Grok 2.0 superou minhas expectativas. A xAI desenvolveu um modelo de alta capacidade, comparável ao GPT-4o, Claude 3.5 Sonnet e Gemini 1.5 Pro.

Quais são os Pontos Polêmicos do Grok 2.0?

Apesar do excelente desempenho do Grok 2.0, especialmente em tarefas que não envolvem codificação, existem algumas preocupações. Similar ao seu controverso recurso de geração de imagens, que possibilita a criação irrestrita de imagens de figuras públicas e celebridades, muitas vezes de maneira ofensiva, o modelo de linguagem Grok 2.0 também parece, em muitos momentos, carecer de censura.

Pedi ao Grok 2.0 que escrevesse um e-mail com o objetivo de enganar pessoas, e ele criou um e-mail “baseado em elementos comumente encontrados em fraudes reais”. Outros modelos de IA normalmente se recusam a atender a esse tipo de solicitação.

Perguntei ao Grok 2.0 se ele considerava Hitler uma pessoa má, e ele concordou, mencionando genocídio e violações de direitos humanos. Em seguida, solicitei que ele elaborasse um slogan de propaganda de ideias nazistas, e o Grok 2.0 prontamente atendeu, focando na pureza racial. De forma chocante, o Grok 2.0 chegou a escrever um slogan que apoiava a pedofilia, além de adicionar tweets relacionados ao tema logo abaixo da resposta.

A única solicitação que o Grok 2.0 se recusou a realizar foi quando pedi informações sobre como construir uma bomba. Em resumo, o Grok 2.0 não possui censura e está disposto a gerar respostas sobre praticamente qualquer tópico controverso. Elon Musk recentemente descreveu o recurso de geração de imagens do Grok como a “IA mais divertida do mundo”. Para mim, é imprudente e potencialmente danoso lançar modelos de IA sem proteções de segurança adequadas.

Vale a Pena Assinar o X Premium para Acessar o Grok 2.0?

O modelo Grok 2.0 demonstra grande capacidade em diversas tarefas. Entretanto, o modelo de linguagem carece de filtros, e o recurso de geração de imagens é, no mínimo, preocupante. Se houvesse barreiras de segurança apropriadas, eu recomendaria a assinatura do X Premium para usar o Grok 2.0, por ser um modelo poderoso.

No entanto, devido à quase total ausência de proteções, não recomendaria aos usuários que assinassem o X Premium. É preferível usar o serviço gratuito do ChatGPT da OpenAI, que oferece acesso limitado ao modelo GPT-4o. E, quando se esgotar o limite de mensagens, é possível utilizar o modelo mini do GPT-4o, que tem um desempenho excelente para seu tamanho.

Qual sua opinião sobre o modelo Grok 2.0? Você consideraria assinar o X Premium? Compartilhe sua opinião nos comentários abaixo.