Alexa, Siri e Google não entendem uma palavra que você diz

Assistentes de voz como Alexa, Google Assistant e Siri percorreram um longo caminho nos últimos anos. Mas, apesar de todas as melhorias, uma coisa os impede: eles não entendem você. Eles dependem muito de comandos de voz específicos.

O reconhecimento de voz é apenas um truque de mágica

Assistentes de voz não entendem você. Na verdade, não. Quando você fala com um Google Home ou Amazon Echo, ele essencialmente converte suas palavras em uma string de texto e a compara aos comandos esperados. Se encontrar uma correspondência exata, seguirá um conjunto de instruções. Se não funcionar, ele procura uma alternativa do que fazer com base nas informações que possui e, se isso não funcionar, você recebe uma mensagem de falha como “Sinto muito, mas não sei disso . ” É pouco mais do que um truque de mágica manual para levá-lo a pensar que ele entende.

Ele não pode usar pistas contextuais para fazer o melhor palpite, ou mesmo usar a compreensão de tópicos semelhantes para informar suas decisões. Não é difícil tropeçar em assistentes de voz também. Embora você possa perguntar a Alexa “Você trabalha para a NSA?” e obter uma resposta, se você perguntar “Você secretamente faz parte da NSA?” você recebe uma resposta “Não sei esse” (pelo menos no momento da redação deste artigo).

Os humanos, que realmente entendem a fala, não funcionam assim. Suponha que você pergunte a um humano: “O que é aquele klarvain no céu? Aquela que é arqueada e cheia de cores listradas como vermelho, laranja, amarelo e azul. ” Apesar de klarvain ser uma palavra inventada, a pessoa a quem você perguntou provavelmente poderia descobrir, pelo contexto, que você está descrevendo um arco-íris.

  Como instalar e atualizar o Flash em seu Mac

Embora você possa argumentar que um ser humano está convertendo a fala em ideias, ele pode então aplicar o conhecimento e a compreensão para concluir uma resposta. Se você perguntar a um humano se ele trabalha secretamente para a NSA, ele responderá sim ou não, mesmo que seja mentira. Um humano não diria “Eu não conheço esse” para uma pergunta como essa. Que os humanos podem mentir é algo que vem com uma compreensão real.

Assistentes de voz não podem ir além de sua programação

Assistentes de voz são, em última análise, limitados aos parâmetros esperados programados e sair deles interromperá o processo. Esse fato mostra quando dispositivos de terceiros entram para jogar. Normalmente, o comando para interagir com eles é muito pesado, chegando a “dizer ao fabricante do dispositivo para comandar o argumento opcional”. Um exemplo exato seria: “Diga à Whirlpool para pausar a secadora.” Para um exemplo ainda mais difícil de lembrar, o Habilidade Alexa em Genebra controla alguns fornos GE. Um usuário da habilidade precisa se lembrar de “dizer a Genebra” e não “dizer à GE”, então o resto do comando. E embora você possa pedir a ele para pré-aquecer o forno a 350 graus, não é possível prosseguir com um pedido para aumentar a temperatura em mais 50 graus. Porém, um humano poderia seguir esses pedidos.

A Amazon e o Google trabalharam muito para superar esses obstáculos, e isso fica evidente. Onde antes você tinha que seguir a sequência acima para controlar um smart lock, agora você pode dizer “tranque a porta da frente” em vez disso. Alexa costumava ficar confusa com “conte uma piada de cachorro”, mas peça uma hoje e dará certo. Eles adicionaram variações aos comandos que você usa, mas, no final das contas, você ainda precisa saber o comando certo a dizer. Você precisa usar a sintaxe correta, na ordem correta.

  Como definir uma data de expiração ao compartilhar arquivos no Google Drive

E se você acha que isso se parece muito com uma linha de comando, você não está errado.

Assistentes de voz são uma linha de comando sofisticada

Uma linha de comando é estritamente definida para realizar tarefas simples, mas apenas se você souber a sintaxe adequada. Se você escapar da sintaxe correta e digitar dyr em vez de dir, o prompt de comando exibirá uma mensagem de erro. Você pode usar apelidos para facilitar a memorização dos comandos, mas tem uma ideia de quais eram os comandos originais, como funcionam e como usar apelidos de forma eficiente. Se você não dedicar um tempo para aprender os detalhes da linha de comando, nunca vai tirar muito proveito dela.

Assistentes de voz não são diferentes. Você precisa saber a maneira correta de dizer um comando ou fazer uma pergunta. E você precisa saber como configurar grupos para o Google e Alexa, por que agrupar seus dispositivos é essencial e como nomear seus dispositivos inteligentes. Se você não seguir essas etapas necessárias, sentirá a frustração de pedir ao seu assistente de voz para desligar o estudo apenas para ser perguntado “qual estudo” deve ser desligado.

Mesmo quando você usa a sintaxe correta na ordem certa, o processo pode falhar. Ou com a resposta errada emitida ou um resultado surpreendente. Dois Google Homes na mesma casa podem fornecer previsão do tempo para locais ligeiramente diferentes, embora tenham acesso às mesmas informações de conta de usuário e conexão com a Internet.

No exemplo acima, o comando “Definir um cronômetro para meia hora” é fornecido. O hub do Google Home criou um cronômetro chamado “Hora” e perguntou quanto tempo o cronômetro deveria durar. E ainda repetir o mesmo comando três vezes funcionou corretamente e criou um cronômetro de 30 minutos. Usar o comando “Definir um cronômetro para 30 minutos” funciona corretamente em uma base mais consistente.

  Como redefinir o BIOS para as configurações padrão

Embora falar com um Google Home ou Echo possa ser mais fluido, os assistentes de voz e as linhas de comando funcionam da mesma maneira. Você pode não precisar aprender um novo idioma, mas precisa aprender um novo dialeto.

A compreensão restrita dos assistentes de voz limitará o crescimento

Nada disso impede que assistentes de voz como o Google Assistant e Alexa funcionem bem o suficiente (embora a história da Cortana seja diferente). Google Assistant e Alexa e pesquisam online por questões decentemente, embora não surpreendentemente o Google é melhor em pesquisa e pode responder a questões básicas como conversões de medição e matemática simples. Com uma casa inteligente configurada corretamente e um usuário bem treinado, a maioria dos comandos de casa inteligente funcionarão conforme o esperado. Mas isso veio por meio de trabalho e esforço, não compreensão intelectual.

Temporizadores e alarmes costumavam ser simplistas. Com o tempo, foi adicionada a nomenclatura e, em seguida, a capacidade de adicionar tempo a um cronômetro. Eles passaram de simplistas para mais complicados. Os assistentes de voz podem responder a mais perguntas e cada dia traz novas habilidades e recursos. Mas isso não é um produto do autocrescimento que vem do aprendizado e da compreensão.

E nada disso oferece a capacidade inerente de usar o que é conhecido para alcançar o desconhecido. Para cada comando e pergunta que funciona, sempre haverá três que não funcionam. Sem um avanço na IA que conceda uma capacidade de compreensão semelhante à humana, os assistentes de voz não são assistentes de forma alguma. Eles são apenas linhas de comando de voz – úteis no cenário certo, mas limitados aos cenários que foram programados para entender.

Em outras palavras: as máquinas estão aprendendo coisas, mas não conseguem entendê-las.