Como funcionam os aplicativos de identificação de música como o Shazam?

Aplicativos de identificação de música parecem mágica no início, mas por baixo do capô está um algoritmo sofisticado que pode encontrar músicas em um instante. Veja como eles funcionam.

A magia da identificação musical

Provavelmente aconteceu com todos nós. Você está jantando em um bom restaurante, em uma cafeteria ou andando em uma loja, quando de repente ouve uma ótima música tocando nos alto-falantes. Talvez seja uma música que você já ouviu antes ou uma faixa que nunca ouviu. Então, você pega seu telefone, abre o Shazam e levanta seu dispositivo contra o teto. Em apenas um flash, o aplicativo informa qual é a música, quem é o artista e onde reproduzi-la.

Eles são rápidos, extremamente precisos e podem identificar até as músicas mais obscuras. Em suma, eles trabalham isolando a música de uma gravação e pesquisando-a em um banco de dados extenso de faixas. Mas a tecnologia por trás de como eles fazem isso é bastante complexa e impressionante.

Você pode ficar chocado ao saber que o aplicativo Shazam que conhecemos hoje foi lançado em 2002, e o sistema era tão preciso e rápido como é agora. Tudo isso graças a um algoritmo único que revolucionaria o mundo da música.

Não é apenas a letra

À primeira vista, aplicativos de identificação de música como o Shazam podem parecer simples. Você pode pensar que eles apenas ouvem a letra, da mesma forma que qualquer assistente de voz, e pesquisam em um banco de dados de letras de músicas para saber o que é a música.

No entanto, a maioria dos aplicativos de identificação de música são capazes de dizer qual é o título de um instrumental, ou mesmo o cantor de uma música cover. Isso porque, ao invés de analisar a letra da faixa, eles estão procurando por “impressões digitais” que são únicas para cada música em seus extensos bancos de dados.

Tecnologia de impressão digital

Você provavelmente tem dispositivos que podem ser desbloqueados usando sua impressão digital, que é a disposição das pequenas linhas em seu dedo que são exclusivas para você. Da mesma forma, quando você segura seu microfone para gravar um breve clipe de uma música, esse clipe se transforma em padrões de dados que o Shazam ou outro aplicativo pode consultar em seu banco de dados.

À primeira vista, esse método parece sujeito a vários problemas. Na maioria das vezes que você ouve música em público, há ruído de fundo e distorção causados ​​pelos alto-falantes, o que pode tornar as músicas não identificáveis ​​ou resultar em correspondências imprecisas. Além disso, há muitos dados capturados até mesmo em um breve clipe de som, o que pode tornar lenta a busca por esses padrões em um banco de dados de milhões de músicas.

Em uma entrevista com Americano científico em 2003, Avery Li-Chun Wang, cientista-chefe de dados e cofundadora do Shazam, explica como seu algoritmo corrige esses problemas. As informações de um clipe de áudio podem ser visualizadas com um gráfico 3D conhecido como espectrograma, que representa uma mudança nas frequências ao longo de um período de tempo. Ele também leva em consideração a amplitude, que é o quão alto é o som. Isso é representado em um espectrograma usando a intensidade da cor.

Da mesma forma que os humanos não conseguem perceber o som, a menos que estejam em uma determinada frequência, em vez de levar em conta a totalidade de uma música ao realizar uma pesquisa, o Shazam só leva em “picos”, que é o conteúdo de maior energia em um clipe de áudio . As impressões digitais que ele captura apenas levam os pontos de frequência mais alta dentro de um determinado período de tempo e, em seguida, os pontos de amplitude de pico dentro dessas frequências.

Em um artigo de pesquisa para Universidade Columbia, Wang afirmou que o método permite remover a maioria das partes desnecessárias de um clipe de áudio, como ruído de fundo, e para limpar a distorção. Isso também torna o tamanho das impressões pequeno o suficiente para levar meros milissegundos para identificar uma música em seu vasto banco de dados.

Impacto do Shazam

Além de serem úteis para os ouvintes comuns que ouvem uma música de que gostam, os aplicativos de identificação de música também ajudam a moldar o mundo da música.

Estações de rádio e serviços de streaming geralmente usam os dados sobre o que as pessoas estão fazendo Shazam mais para descobrir quais faixas estão sendo ouvidas pelo público. Isso é útil porque indica o caráter cativante e a popularidade potencial de uma música, independentemente do artista. Ao identificar uma música com o aplicativo, você verá imediatamente quantas pessoas também tentaram identificá-la.

Desde a ascensão do Shazam, vários concorrentes também surgiram. O Soundhound afirma ser capaz de identificar uma música simplesmente por você cantá-la ou cantarolar, com resultados mistos. Há também um identificador de música integrado com aplicativos de voz, como o Google Assistant, que funcionam de forma muito semelhante ao sistema do Shazam.