O que é um NPU? Explicação

Explorando as Unidades de Processamento Neural (NPU): A Revolução da Inteligência Artificial

Nos últimos anos, o mundo da tecnologia tem testemunhado um avanço significativo na inteligência artificial, principalmente com a ascensão das Unidades de Processamento Neural (NPU). Depois das CPUs e GPUs, as NPUs se tornaram o novo “queridinho” do setor, com empresas de todos os tamanhos aproveitando seu poder para oferecer recursos e experiências inovadoras em IA generativa. Estas unidades especializadas têm mostrado seu valor em aplicações que vão desde laptops e smartphones até sistemas de inteligência artificial de grande escala. Assim, não é surpreendente que sistemas como os PCs Copilot+ venham equipados com os poderosos processadores Qualcomm Snapdragon X, que incluem NPUs capazes de realizar até 45 TOPS (trilhões de operações por segundo). Neste artigo, vamos explicar o que são as NPUs, como elas diferem das CPUs e GPUs, e quais são suas aplicações em dispositivos modernos.

O que é uma NPU?

Uma NPU, ou Unidade de Processamento Neural, é projetada especificamente para realizar tarefas relacionadas à inteligência artificial. Esse tipo de unidade é otimizado para processar redes neurais, tarefas de aprendizado de máquina e cargas de trabalho de IA.

As NPUs realizam cálculos matemáticos, sendo a multiplicação de matrizes (também conhecida como ‘matmul’) a mais comum. Elas são projetadas para executar essas operações de forma extremamente rápida.

Além disso, em qualquer tarefa de IA, o processamento paralelo é crucial, pois redes neurais processam muitas operações simultaneamente. As NPUs possuem aceleradores especializados que desbloqueiam o paralelismo em grande escala. Combinadas com memória de alta largura de banda, as NPUs podem realizar rapidamente operações de matmul paralelas em vários núcleos.

Resumindo, as NPUs são especificamente feitas para tarefas de IA, focando em desbloquear o paralelismo, executar operações matmul rapidamente e possibilitar a escalabilidade. Vale lembrar que diferentes empresas têm diferentes denominações para suas NPUs: o Google as chama de TPU (Unidade de Processamento Tensorial) e a Apple as chama de Neural Engine.

Como as NPUs Diferem das CPUs e GPUs?

Como mencionado anteriormente, as NPUs atendem especificamente a tarefas relacionadas à IA, tornando-se unidades de processamento de aplicação específica. Por outro lado, a CPU (Unidade Central de Processamento) é uma unidade de processamento de propósito geral, capaz de realizar uma vasta gama de tarefas.

Por exemplo, as CPUs gerenciam a operação dos sistemas operacionais e aplicações gerais. Sua versatilidade permite lidar com qualquer tipo de tarefa. Elas são muito boas em tarefas de thread única, mas não são tão eficientes em tarefas paralelas.

Os GPUs, por sua vez, foram construídas para renderizar gráficos, sendo muito eficazes em jogos e simulações. Os GPUs são os mais próximos das NPUs, pois também conseguem executar tarefas paralelamente e são amplamente usados para treinar modelos de IA. No entanto, como as NPUs são projetadas exclusivamente para operações relacionadas à IA, elas se destacam em velocidade e eficiência.

Vale lembrar que, nos primórdios da computação, quando não havia GPUs ou NPUs, as CPUs gerenciavam gráficos por meio de renderização de software. Com o avanço tecnológico na década de 1990, as GPUs foram introduzidas para cuidar dos gráficos por meio de hardware dedicado. Atualmente, estamos presenciando a era das NPUs.

Todos esses componentes computacionais foram desenvolvidos para tarefas especializadas, aliviando as CPUs de ter que lidar com tudo, resultando em melhor eficiência e desempenho. Embora as NPUs estejam se tornando populares, é importante notar que as GPUs ainda são amplamente utilizadas para o treinamento de modelos de IA, enquanto as NPUs têm ganhado destaque em inferência, com o Google tendo treinado seu modelo Gemini inteiramente em sua TPU.

Quais são as Aplicações das NPUs em Laptops?

Originalmente, as NPUs ou aceleradores de hardware especializado em IA eram utilizadas principalmente por grandes empresas para processamento paralelo. No entanto, hoje em dia, produtos de consumo, como laptops e smartphones, também possuem NPUs. Por exemplo, os novos PCs Copilot+ da Microsoft vêm equipados com uma NPU poderosa que pode ativar recursos como Recall, que foi adiado, mas chegará nos próximos meses.

O Recall captura capturas de tela, processa os dados no dispositivo usando a NPU e cria um índice vetorial. Se fosse a CPU ou GPU realizando esse processamento, haveria um grande impacto na duração da bateria. Mas, com uma NPU dedicada, esses processos podem ser realizados de maneira eficiente, sem afetar a vida útil da bateria ou sobrecarregar a CPU ou GPU.

Além disso, NPUs são responsáveis por impulsionar recursos como Cocreator no MS Paint, geração de imagens no aplicativo Fotos, remoção de fundos de vídeos, aplicação de efeitos visuais usando Magic Mask no DaVinci Resolve, redimensionamento de quadros em jogos, aplicação de efeitos do Windows Studio, geração de traduções e transcrições em tempo real, e muito mais.

Com o tempo, a aplicação das NPUs se expandirá ainda mais, liberando a CPU e GPU de tarefas que poderiam torná-las mais lentas ou menos eficientes em termos de bateria.

A Apple, por sua vez, utiliza seu Neural Engine, ou NPU, para alimentar muitos recursos de inteligência artificial no iOS, iPadOS e macOS. O modelo de IA em tempo real utiliza o Neural Engine para resumir e-mails, priorizar notificações, gerar resumos de gravações de chamadas, criar imagens e muito mais. O novo Siri também se beneficia do Neural Engine para realizar uma variedade de tarefas de IA.

Resumo

Em termos simples, a NPU representa um novo acelerador de hardware que pode desbloquear novas possibilidades na era da inteligência artificial. Este é apenas o começo, e novas aplicações e experiências baseadas na NPU se tornarão possíveis em um futuro próximo. À medida que a tecnologia continua a evoluir, a integração de NPUs nos dispositivos será uma mudança fundamental, oferecendo melhor desempenho e eficiência energética enquanto alimenta o crescimento da inteligência artificial em todas as suas formas.