Alexa te escuta? A verdade sobre como funciona a detecção de voz!

Os dispositivos Alexa estão sempre ativos, mas não gravam o tempo todo. A gravação só se inicia quando a palavra de ativação (Alexa, Echo ou Computer) é detectada. Identificar estas palavras é um processo mais complexo do que se pode imaginar.

O hardware dos dispositivos Echo não possui inteligência própria. Sem acesso à internet, qualquer solicitação ou pergunta falha, pois os comandos são enviados para a nuvem para análise e processamento. A Amazon prioriza a privacidade, evitando a gravação de conversas cotidianas, concentrando-se apenas nos comandos direcionados ao dispositivo. Para isso, utiliza uma palavra de ativação, juntamente com microfones ajustados, uma memória temporária e redes neurais.

Microfones Ajustados para Detecção de Voz

O LED azul indica a direção da voz do usuário.

Dispositivos como o Echo e o Echo Dot possuem vários microfones, por exemplo, o Echo Dot possui sete. Esta configuração permite que os dispositivos ouçam comandos à distância e separem vozes de ruídos de fundo.

Esta capacidade é particularmente útil para detectar a palavra de ativação. Os múltiplos microfones permitem que o Echo identifique a localização do usuário e se concentre na sua voz, ignorando sons de outras direções.

Este processo é visível quando se utiliza a palavra de ativação. Ao falar a palavra, o anel do dispositivo acende em azul, indicando a direção da voz. Se o usuário se deslocar, as luzes o acompanham.

Esta capacidade de localização permite ao dispositivo focar na voz do utilizador e eliminar ruídos de fundo de forma mais eficaz.

Memória Temporária para Foco na Palavra de Ativação

Os dispositivos Echo possuem capacidade de armazenamento, mas utilizam apenas uma pequena parte. Segundo Rohit Prasad, vice-presidente e cientista-chefe da Alexa Artificial Intelligence, um dispositivo Echo armazena apenas alguns segundos de áudio.

Ao limitar esta capacidade, a Amazon aumenta a privacidade, reduzindo o tempo em que a voz é armazenada e restringindo o foco do dispositivo à identificação da palavra de ativação.

Imagine uma fita cassete de três segundos que grava continuamente, voltando ao início quando chega ao fim. Se uma conversa for gravada, tudo o que foi dito há quatro segundos é apagado. É assim que o Amazon Echo funciona.

O dispositivo grava continuamente, mas apaga o que gravou ao mesmo tempo. Este curto período de foco permite que o dispositivo apenas ouça a palavra de ativação. Três segundos são suficientes para registar, analisar e ativar o dispositivo.

Redes Neurais para Reconhecimento de Padrões

Uma representação das camadas usadas pelos algoritmos da Amazon.

A Amazon utiliza o treinamento de redes neurais para ensinar o Echo a reconhecer padrões. Este método de aprendizagem envolve fornecer ao algoritmo inúmeras instâncias das palavras de ativação, incluindo diferentes inflexões, sotaques e contextos.

O objetivo é que o Echo distinga entre uma conversa direcionada a ele, uma conversa sobre ele, ou até mesmo uma conversa sobre uma pessoa chamada Alexa. Os microfones direcionais também contribuem para este processo.

Cada áudio é processado através de várias camadas de algoritmos, que descartam falsos positivos, procurando por sons semelhantes ou pistas contextuais. Se uma camada for aprovada, o áudio avança para a próxima. Quando o dispositivo local identifica a palavra de ativação, inicia a gravação e envia o áudio para os servidores da Amazon. A Amazon utiliza quatro algoritmos: um para cada palavra de ativação (Alexa, Computer, Echo) e um para o Alexa Guard, que deteta sons específicos como o de vidro partido.

Mesmo após a deteção da palavra de ativação, a Amazon realiza mais verificações. Por exemplo, quando a palavra Alexa é mencionada em programas de TV ou anúncios, o dispositivo geralmente não responde porque a Amazon realiza uma verificação na nuvem.

Verificações na Nuvem para Eliminar Falsos Positivos

Este engraçado comercial da Alexa não acionará o seu dispositivo.

Empresas que utilizam a Alexa em anúncios podem enviar o áudio para a Amazon. O áudio é processado através dos mesmos algoritmos de reconhecimento de padrões e, quando catalogado, é adicionado a uma base de dados.

Ao aceder à nuvem, o dispositivo inclui informações sobre a palavra de ativação e verifica esta base de dados. Se houver uma correspondência, o dispositivo ignora a palavra de ativação e descarta o áudio gravado.

Além disso, a Amazon verifica a ocorrência simultânea da palavra de ativação. Nem todas as empresas enviam áudio, então a Amazon desenvolveu uma solução de backup. Ao detetar uma correspondência na base de dados, a empresa compara a impressão da palavra com qualquer outra instância que ocorra ao mesmo tempo. Como é improvável que duas pessoas digam “Alexa” exatamente da mesma forma, se houver uma correspondência, a Amazon conclui que é de um anúncio ou programa e ignora o pedido.

Apesar de todas as verificações, ainda ocorrem falsos positivos. O histórico do áudio gravado pelo dispositivo pode ser consultado no Centro de Privacidade da Amazon. A tecnologia está em constante evolução, com o objetivo de eliminar a necessidade da palavra de ativação no futuro.