Assistentes virtuais, como Alexa, Google Assistente e Siri, evoluíram consideravelmente nos últimos anos. Contudo, apesar de todos os avanços, há um obstáculo persistente: a dificuldade em compreender as nuances da linguagem humana. Estes sistemas dependem excessivamente de comandos vocais específicos e padronizados.
O Reconhecimento de Voz: Uma Ilusão
É fundamental entender que os assistentes de voz não interpretam as palavras como nós. Ao interagirmos com um Google Home ou Amazon Echo, o sistema converte nossa fala em texto e o coteja com uma lista de comandos pré-definidos. Se houver uma correspondência exata, ele executa as instruções associadas. Caso contrário, o sistema busca alternativas baseadas em seu conhecimento limitado e, se não encontrar uma solução, responde com uma mensagem de erro como “Não sei o que você quer dizer”. Na essência, é um truque engenhoso que nos faz acreditar que há compreensão, quando na verdade não há.
Esses assistentes não conseguem usar o contexto para fazer deduções lógicas ou aplicar conhecimentos similares para orientar suas ações. É fácil confundi-los com perguntas ligeiramente diferentes. Por exemplo, ao perguntar à Alexa “Você trabalha para a NSA?” ela pode responder, mas ao perguntar “Você secretamente faz parte da NSA?”, a resposta pode ser “Não sei o que é isso”.
Por outro lado, a compreensão humana da linguagem é muito mais sofisticada. Se perguntarmos a alguém: “O que é aquela coisa ‘klarvain’ no céu? Aquela arqueada e colorida com listras vermelhas, laranjas, amarelas e azuis”, mesmo que ‘klarvain’ seja uma palavra inventada, a pessoa provavelmente entenderá que estamos nos referindo a um arco-íris, devido ao contexto e à descrição.
Um humano, após converter a fala em ideias, pode utilizar seu conhecimento e compreensão para chegar a uma resposta. Se perguntarmos a alguém se trabalha secretamente para a NSA, a pessoa responderá sim ou não, mesmo que minta. Um humano não responderia “Não sei o que é isso” a uma pergunta desse tipo, pois a capacidade de mentir é intrínseca à compreensão real.
Limitações da Programação
Assistentes de voz são intrinsecamente limitados pelas instruções pré-programadas, e qualquer desvio desses parâmetros pode interromper seu funcionamento. Isso se torna evidente ao integrar dispositivos de terceiros. O comando para interação com esses dispositivos geralmente é complexo, como “Diga ao fabricante do dispositivo para executar o argumento opcional”. Um exemplo seria: “Diga à Whirlpool para pausar a secadora.” Ou, para controlar fornos GE usando a habilidade Alexa da Geneva, o usuário precisa se lembrar de dizer “diga à Geneva” em vez de “diga à GE” e então o restante do comando. Embora seja possível pedir para pré-aquecer o forno a 180 graus, não se pode solicitar o aumento da temperatura em mais 20 graus, algo que um humano facilmente faria.
Empresas como Amazon e Google têm investido esforços significativos para contornar essas dificuldades, com resultados visíveis. Se antes era preciso usar comandos complexos para trancar uma porta inteligente, hoje se pode dizer “trancar a porta da frente”. A Alexa, que antes se confundia com a pergunta “conte uma piada de cachorro”, agora a executa sem problemas. Apesar dessas melhorias, ainda é necessário conhecer o comando exato a ser usado, com a sintaxe correta e na ordem certa.
Essa estrutura de comandos se assemelha a uma linha de comando tradicional.
Assistentes de Voz como Linhas de Comando Sofisticadas
As linhas de comando são ferramentas para realizar tarefas específicas, desde que se conheça a sintaxe adequada. Um erro de digitação, como usar “dyr” em vez de “dir”, resulta em uma mensagem de erro. É possível criar apelidos para comandos, mas é essencial entender como os comandos originais funcionam. Sem um aprendizado aprofundado, a linha de comando é ineficiente.
O mesmo se aplica aos assistentes de voz. É preciso conhecer a maneira correta de expressar um comando ou pergunta, configurar grupos no Google e Alexa, entender a importância de agrupamento de dispositivos e como nomeá-los. Ignorar essas etapas pode levar à frustração, como ao pedir que o assistente desligue a luz do escritório e ele perguntar “qual escritório” deve ser desligado.
Mesmo seguindo a sintaxe correta, o processo pode falhar, gerar respostas inesperadas ou resultados surpreendentes. Dois Google Homes na mesma residência podem fornecer previsões do tempo para locais ligeiramente diferentes, apesar de acessarem as mesmas informações de conta e internet.
No exemplo acima, ao usar o comando “Definir um cronômetro para meia hora”, o Google Home criou um cronômetro chamado “Hora” e perguntou a duração. Repetir o mesmo comando três vezes funcionou e criou um cronômetro de 30 minutos. O comando “Definir um cronômetro para 30 minutos” funciona de maneira mais consistente. Embora a interação com um Google Home ou Echo pareça mais fluida, assistentes de voz e linhas de comando operam de maneira similar. Em vez de aprender uma nova língua, é preciso aprender um novo dialeto.
O Crescimento Limitado Pela Compreensão Restrita
Apesar dessas limitações, assistentes de voz como Google Assistant e Alexa funcionam bem o suficiente (ao contrário da história da Cortana). Eles realizam pesquisas online razoavelmente bem e o Google se destaca em responder perguntas básicas, como conversões de medidas e cálculos matemáticos. Com uma casa inteligente configurada corretamente e um usuário experiente, a maioria dos comandos de casa inteligente funciona como esperado. No entanto, esses resultados foram alcançados por meio de esforço e trabalho, não por compreensão intelectual genuína.
Cronômetros e alarmes começaram como ferramentas simples, evoluindo para a capacidade de nomeá-los e de adicionar tempo. Os assistentes de voz hoje respondem a mais perguntas e recebem novas habilidades e recursos diariamente. Mas esses avanços são resultado de programação e não de um aprendizado orgânico.
Além disso, esses sistemas não conseguem usar o que sabem para lidar com o desconhecido. Para cada comando e pergunta que funciona, haverá vários outros que falharão. Sem um avanço na Inteligência Artificial que lhes proporcione uma capacidade de compreensão similar à humana, assistentes de voz não são verdadeiros assistentes. Eles são apenas linhas de comando vocais, úteis em cenários específicos, mas limitados aos cenários para os quais foram programados. Em resumo, as máquinas estão aprendendo, mas ainda não compreendem.