Como Alexa escuta as palavras despertas

Alexa está sempre ouvindo, mas não gravando continuamente. Ele não envia nada para os servidores em nuvem até ouvir você dizer a palavra de ativação (Alexa, Echo ou Computer). Mas ouvir palavras para despertar é mais difícil do que você imagina.

O hardware do Echo não é tão inteligente. Sem a Internet, qualquer pedido ou pergunta que você fizer irá falhar. Isso ocorre porque seus comandos são enviados para a nuvem para interpretação e decisões. A Amazon não quer que todas as conversas que você tem na frente de um alto-falante inteligente sejam gravadas, mas apenas os comandos que você dá ao alto-falante inteligente. Por esse motivo, a empresa emprega uma palavra de alerta para chamar a atenção do palestrante inteligente. Para fazer isso, a Amazon usa uma combinação de microfones ajustados, um buffer de memória curto e treinamento de rede neural.

Microfones afinados identificam sua voz

O LED azul claro sempre estará voltado para a direção de sua voz.

Os alto-falantes do assistente de voz, como o Echo e o Echo Dot, costumam ter vários microfones embutidos. O Echo Dot, por exemplo, tem sete. Esse conjunto dá aos dispositivos várias habilidades, desde ouvir comandos falados à distância até separar o ruído de fundo das vozes.

O último é especialmente útil para detecção de wake word. Usando seus vários microfones, o Echo pode apontar sua localização em relação a onde está sentado e ouvir nessa direção enquanto ignora o resto da sala.

  Como corrigir o erro 0x97 em impressoras Epson

Você vê isso em ação sempre que usa a palavra de ativação. Fique ao lado de um eco ou ponto de eco e diga a palavra de despertar. Observe que o anel acende em azul escuro e, em seguida, em um azul mais claro circulando e “apontando” em sua direção. Agora, mova vários passos para o lado e diga a palavra de ativação mais uma vez. Observe que as luzes azuis o seguem.

Saber onde você está ajuda o dispositivo a se concentrar melhor em você e desligue os ruídos vindos de outros lugares.

A memória curta impede que o alto-falante segure muito

Os dispositivos Echo têm bastante armazenamento, mas não usam muito. De acordo com Rohit Prasad, o vice-presidente da Amazon e cientista-chefe da Alexa Artificial Intelligence, uma Echo só pode armazenar fisicamente alguns segundos de áudio.

Ao reduzir sua capacidade, a Amazon não só oferece mais privacidade (é um lugar a menos em que sua voz é armazenada), mas também evita que o Echo ouça conversas inteiras, limitando seu foco a encontrar a palavra de ativação.

Imagine que você tenha uma fita cassete de três segundos e um gravador. Suponha que, depois de chegar ao fim, a fita volte ao início indefinidamente. Se você começar a gravar uma conversa, tudo o que você disser quatro segundos atrás será apagado e imediatamente gravado. Isso é o que o Amazon Echo faz.

Ele grava continuamente, mas apaga tudo o que acabou de gravar ao mesmo tempo. Esse curto período de atenção significa que tudo o que pode ouvir é a palavra “Alexa” e nada mais. Três segundos, entretanto, é tempo suficiente para que essa palavra seja registrada, examinada e posta em prática de maneira apropriada.

  Como funciona o reconhecimento facial?

O treinamento da rede neural ajuda na correspondência de padrões

Uma representação das camadas usadas pelos algoritmos da Amazon.

Finalmente, a Amazon depende de treinamento de rede neural para ensinar ao Echo como combinar padrões. Assim como outras formas de aprendizado de máquina, a Amazon treina seus algoritmos alimentando-os instância após instância da palavra Alexa (ou computador ou eco, dependendo de qual wake word a empresa está treinando).

A ideia é abranger todas as inflexões e sotaques, mas também o contexto. A Amazon quer que o seu Echo reconheça a diferença quando você está falando com ele, quando está falando sobre ele ou, talvez, quando está falando com uma pessoa chamada Alexa. Os microfones direcionais também auxiliam nesse objetivo.

Com cada palavra que o Echo ouve, ele executa o áudio por meio de camadas de algoritmos. Cada camada é projetada para descartar falsos positivos, procurando sons semelhantes ou pistas de contexto. Se uma verificação de camada for aprovada, a palavra vai para a próxima. Finalmente, quando o dispositivo local decide que ouviu a palavra de ativação, ele começa a gravar e passar o áudio para os servidores em nuvem da Amazon. A Amazon emprega quatro algoritmos: um para cada wake word (Alexa, Computer, Echo) e um para Alexa Guard, que trata sons específicos, como vidro se estilhaçando, como uma wake word.

Mas mesmo quando ocorre uma correspondência, a Amazon ainda executa verificações mais complicadas. Você notou que quando alguém fala a palavra Alexa em um programa de TV ou comercial, isso geralmente não causa uma resposta do seu Echo? Isso porque a Amazon também faz uma verificação de nuvem.

  Você provavelmente não receberá US $ 25 do acordo de otimização do iPhone da Apple

As verificações de nuvem excluem alguns falsos positivos

Isto hilário comercial Alexa não vai acordar seu Echo.

Quando as empresas fazem comerciais com Alexa, podem envie o áudio para a Amazon. A empresa executa o áudio por meio de algoritmos de correspondência de padrões semelhantes usados ​​para identificar a palavra de ativação. Depois que essa instância exata estiver totalmente catalogada, ela será adicionada a um banco de dados.

Como parte do processo de acesso à nuvem, o Echo inclui informações sobre a palavra de ativação que ouviu e verifica esse banco de dados. Sempre que encontra uma correspondência, a Amazon instrui seu Echo a ignorar a palavra de ativação, desligar e descartar qualquer áudio gravado.

Além disso, a Amazon verifica se há instâncias da palavra de ativação falada simultaneamente. Nem toda empresa envia áudio para a Amazon, então a empresa surgiu com uma nova solução de backup. Depois de verificar se há uma correspondência no banco de dados, a empresa compara a impressão da palavra de ativação com qualquer outra instância que chegue ao mesmo tempo. É improvável que duas pessoas que digam Alexa simultaneamente soem exatamente iguais, então, se houver uma correspondência, a Amazon sabe que é provável que seja um comercial ou programa de TV e ignora o pedido.

Apesar de todas as verificações, ainda ocorrem falsos positivos. Você pode ouvir o que seu Echo gravou em Hub de privacidade da Amazon, e provavelmente você encontrará pelo menos um falso positivo no grupo. Mas a tecnologia está sendo aprimorada continuamente e, eventualmente, a Amazon gostaria que ela funcionasse sem qualquer wake word.