Veja Por Que Pequenos Modelos de Linguagem São o Futuro da IA

Principais Conclusões

  • Grandes empresas como Open AI, Google, Microsoft e Meta estão investindo em MSLs.
  • Os MSLs estão ganhando popularidade na indústria e estão melhor posicionados como o futuro da IA.
  • Exemplos de MSLs incluem Google Nano, Phi-3 da Microsoft e GPT-4o mini da Open AI.

Os modelos de linguagem de grande porte (MLPs) surgiram com o lançamento do ChatGPT da Open AI. Desde então, várias empresas também lançaram seus MLPs, mas agora mais empresas estão se voltando para os modelos de linguagem pequenos (MSLs). Nessa nova era digital, os MSLs estão se destacando, mas o que são eles e como se diferenciam dos MLPs?

Os MSLs estão ganhando força, mas o que são eles e como se diferenciam dos MLPs?

O Que É Um Modelo de Linguagem Pequeno?

Um modelo de linguagem pequeno (MSL) é um tipo de modelo de inteligência artificial com menos parâmetros (pense nisso como um valor no modelo aprendido durante o treinamento). Assim como seus irmãos maiores, os MSLs podem gerar texto e realizar outras tarefas. No entanto, os MSLs utilizam menos conjuntos de dados para treinamento, possuem menos parâmetros e requerem menos poder computacional para treinar e operar.

Os MSLs focam em funcionalidades-chave, e sua pequena pegada significa que podem ser implantados em diferentes dispositivos, incluindo aqueles que não possuem hardware avançado, como dispositivos móveis. Por exemplo, o Nano do Google é um MSL desenvolvido desde o início que funciona em dispositivos móveis. Devido ao seu pequeno tamanho, o Nano pode operar localmente com ou sem conectividade de rede, conforme afirmado pela empresa.

Google

Além do Nano, existem muitos outros MSLs de empresas líderes e emergentes no espaço da IA. Alguns MSLs populares incluem Phi-3 da Microsoft, GPT-4o mini da OpenAI, Claude 3 Haiku da Anthropic, Llama 3 da Meta e Mixtral 8x7B da Mistral AI.

Outras opções também estão disponíveis, que você pode pensar que são MLPs, mas na verdade são MSLs. Isso é especialmente relevante considerando que a maioria das empresas está adotando a abordagem multi-modelo de lançar mais de um modelo de linguagem em seu portfólio, oferecendo tanto MLPs quanto MSLs. Um exemplo é o GPT-4, que possui vários modelos, incluindo GPT-4, GPT-4o (Omni) e GPT-4o mini.

Modelos de Linguagem Pequenos vs. Modelos de Linguagem Grandes

Ao discutir MSLs, não podemos ignorar seus grandes contrapartes: MLPs. A principal diferença entre um MSL e um MLP é o tamanho do modelo, que é medido em termos de parâmetros.

Até o momento, não há um consenso na indústria de IA sobre o número máximo de parâmetros que um modelo não deve exceder para ser considerado um MSL ou o número mínimo necessário para ser considerado um MLP. No entanto, os MSLs geralmente possuem milhões a alguns bilhões de parâmetros, enquanto os MLPs têm mais, chegando a trilhões.

Por exemplo, o GPT-3, lançado em 2020, tem 175 bilhões de parâmetros (e o modelo GPT-4 é rumores que possui cerca de 1,76 trilhão), enquanto os MSLs Phi-3-mini, Phi-3-small e Phi-3-medium da Microsoft em 2024 possuem, respectivamente, 3,8, 7 e 14 bilhões de parâmetros.

Microsoft

Outro fator diferenciador entre MSLs e MLPs é a quantidade de dados utilizada para treinamento. Os MSLs são treinados em volumes menores de dados, enquanto os MLPs utilizam grandes conjuntos de dados. Essa diferença também afeta a capacidade do modelo de resolver tarefas complexas.

Devido aos grandes dados utilizados no treinamento, os MLPs são mais adequados para resolver diferentes tipos de tarefas complexas que requerem raciocínio avançado, enquanto os MSLs são mais adequados para tarefas mais simples. Ao contrário dos MLPs, os MSLs utilizam menos dados de treinamento, mas os dados utilizados devem ser de maior qualidade para alcançar muitas das capacidades encontradas nos MLPs em um pacote pequeno.

Por Que Modelos de Linguagem Pequenos São o Futuro

Para a maioria dos casos de uso, os MSLs estão melhor posicionados para se tornarem os modelos principais utilizados por empresas e consumidores para realizar uma ampla variedade de tarefas. Certamente, os MLPs têm suas vantagens e são mais adequados para certos casos de uso, como resolver tarefas complexas. No entanto, os MSLs representam o futuro para a maioria dos casos de uso devido às seguintes razões.

1. Custo Mais Baixo para Treinamento e Manutenção

Timofeev Vladimir/Shutterstock

Os MSLs precisam de menos dados para treinamento do que os MLPs, o que os torna a opção mais viável para indivíduos e pequenas a médias empresas com dados de treinamento limitados, recursos financeiros ou ambos. Os MLPs exigem grandes quantidades de dados de treinamento e, por extensão, precisam de enormes recursos computacionais para serem treinados e operados.

Para colocar isso em perspectiva, o CEO da OpenAI, Sam Altman, confirmou que levaram mais de 100 milhões de dólares para treinar o GPT-4, conforme mencionado em um evento no MIT (segundo Wired). Outro exemplo é o MLP OPT-175B da Meta. A Meta diz que foi treinada utilizando 992 GPUs NVIDIA A100 80GB, que custam aproximadamente 10.000 dólares por unidade, segundo CNBC. Isso coloca o custo em aproximadamente 9 milhões de dólares, sem incluir outras despesas como energia, salários, entre outros.

Com tais números, não é viável para pequenas e médias empresas treinar um MLP. Em contraste, os MSLs possuem uma barreira de entrada mais baixa em termos de recursos e custam menos para operar, e, portanto, mais empresas irão adotá-los.

2. Melhor Desempenho

GBJSTOCK / Shutterstock

O desempenho é outra área onde os MSLs superam os MLPs devido ao seu tamanho compacto. Os MSLs têm menos latência e são mais adequados para cenários onde respostas mais rápidas são necessárias, como em aplicações em tempo real. Por exemplo, uma resposta mais rápida é preferida em sistemas de resposta por voz, como assistentes digitais.

Executar localmente (mais sobre isso a seguir) também significa que sua solicitação não precisa fazer uma viagem até os servidores online e voltar para responder sua consulta, resultando em respostas mais rápidas.

3. Maior Precisão

ZinetroN / Shutterstock

Quando se trata de IA generativa, uma coisa permanece constante: lixo entra, lixo sai. Os MLPs atuais foram treinados usando grandes conjuntos de dados brutos da internet. Portanto, eles podem não ser precisos em todas as situações. Esse é um dos problemas com o ChatGPT e modelos semelhantes, e é por isso que você não deve confiar em tudo o que um chatbot de IA diz. Por outro lado, os MSLs são treinados com dados de qualidade superior aos MLPs e, portanto, têm maior precisão.

Os MSLs também podem ser ajustados ainda mais com treinamento focado em tarefas ou domínios específicos, resultando em maior precisão nessas áreas em comparação com modelos maiores e mais generalizados.

4. Podem Ser Executados no Dispositivo

Pete Hansen/Shutterstock

Os MSLs precisam de menos poder computacional do que os MLPs e, portanto, são ideais para casos de computação de borda. Eles podem ser implantados em dispositivos de borda como smartphones e veículos autônomos, que não possuem grande poder computacional ou recursos. O modelo Nano do Google pode funcionar localmente, permitindo que funcione mesmo quando você não tem uma conexão de internet ativa.

Essa capacidade representa uma situação vantajosa tanto para empresas quanto para consumidores. Primeiro, é uma vitória para a privacidade, já que os dados do usuário são processados localmente em vez de serem enviados para a nuvem, o que é importante à medida que mais IA é integrada aos nossos smartphones, contendo quase todos os detalhes sobre nós. Também é uma vitória para as empresas, pois não precisam implantar e operar grandes servidores para lidar com tarefas de IA.

Os MSLs estão ganhando força, com os maiores players do setor, como Open AI, Google, Microsoft, Anthropic e Meta, lançando tais modelos. Esses modelos são mais adequados para tarefas mais simples, que é o que a maioria de nós usa MLPs; portanto, eles representam o futuro.

Mas os MLPs não estão desaparecendo. Em vez disso, serão usados para aplicações avançadas que combinam informações de diferentes domínios para criar algo novo, como em pesquisas médicas.

Resumo: Os Modelos de Linguagem Pequena (MSLs) estão se destacando como a nova tendência na IA, superando os Modelos de Linguagem Grande (MLPs) em eficiência, desempenho e aplicabilidade em diversas situações. Com investimentos de gigantes como Open AI, Google e Microsoft, os MSLs prometem ser o futuro da inteligência artificial, oferecendo uma ampla gama de aplicações a um custo acessível.