Conclusões Essenciais
- Deepfakes representam riscos substanciais para a sociedade, abrangendo a propagação de informações errôneas, danos à imagem através da falsificação de identidade e a provocação de conflitos com implicações na segurança nacional.
- Apesar de a tecnologia de inteligência artificial oferecer instrumentos para identificar deepfakes, estas ferramentas não são infalíveis, e a capacidade de discernimento humana permanece fundamental na identificação de deepfakes.
- As ferramentas de identificação humanas e baseadas em IA possuem distintos pontos fortes e fracos na análise de deepfakes. A combinação destas habilidades pode aprimorar o sucesso na deteção e redução dos perigos associados à tecnologia deepfake.
Deepfakes colocam em risco vários aspectos da sociedade. A habilidade de identificar conteúdo falso é crucial para combater a desinformação. Contudo, com o avanço da tecnologia de IA, quem é mais confiável na deteção de deepfakes: pessoas ou máquinas?
Os Perigos dos Deepfakes
Com o progresso da IA, os riscos associados aos deepfakes representam uma ameaça crescente para todos. Segue um resumo de algumas das questões mais prementes que os deepfakes trazem:
- Desinformação: Vídeos e áudios deepfaked podem disseminar notícias falsas.
- Falsificação de Identidade: Ao assumirem a identidade de outras pessoas, os deepfakes podem lesar a reputação ou enganar pessoas próximas.
- Segurança Nacional: Um cenário alarmante envolve a criação de vídeos ou áudios falsos de líderes mundiais incitando conflitos.
- Agitação Social: Conteúdo manipulado pode ser utilizado para fomentar a raiva e a instabilidade social.
- Cibersegurança: Criminosos virtuais já utilizam ferramentas de clonagem de voz para ludibriar pessoas com mensagens convincentes de conhecidos.
- Privacidade e Consentimento: O uso ilícito de deepfakes ocorre com a representação de indivíduos sem a sua autorização.
- Confiança e Segurança: A dificuldade em distinguir a verdade da mentira torna até informações precisas suspeitas.
Deepfakes estão se tornando cada vez mais realistas. Portanto, precisamos de recursos e processos eficazes para identificá-los. A IA oferece uma dessas ferramentas através de modelos de deteção de deepfakes, mas, assim como os algoritmos para identificar textos gerados por IA, não são perfeitos.
Atualmente, o discernimento humano é o outro recurso disponível. Então, somos mais eficazes do que algoritmos na identificação de deepfakes?
Algoritmos Superam Humanos na Deteção de Deepfakes?
A gravidade da ameaça dos deepfakes levou grandes empresas de tecnologia e grupos de pesquisa a investir significativamente em investigação e desenvolvimento. Em 2019, empresas como Meta, Microsoft e Amazon ofereceram US$ 1.000.000 em prémios durante o Desafio de Deteção de Deepfake, procurando o modelo de deteção mais preciso.
O modelo mais eficiente alcançou 82,56% de precisão com base em vídeos acessíveis ao público. No entanto, quando os mesmos modelos foram testados num “conjunto de dados de caixa preta” com 10.000 vídeos desconhecidos, o modelo de melhor desempenho teve apenas 65,18% de precisão.
Diversos estudos comparam o desempenho das ferramentas de deteção de deepfakes de IA com as habilidades humanas. Os resultados variam, mas, em geral, os humanos igualam ou superam a taxa de sucesso das ferramentas de deteção de deepfakes.
Um estudo de 2021 publicado em PNAS revelou que “observadores humanos comuns” atingiram uma taxa de precisão ligeiramente superior às ferramentas de deteção de deepfakes. Contudo, o estudo também mostrou que tanto os humanos quanto os modelos de IA eram suscetíveis a erros distintos.
Uma pesquisa da Universidade de Sydney indicou que o cérebro humano é, inconscientemente, mais eficaz na deteção de deepfakes do que os nossos esforços conscientes.
Identificando Pistas Visuais em Deepfakes
A análise necessária para a deteção de deepfakes varia de acordo com a natureza do vídeo. Por exemplo, o conhecido vídeo deepfake do líder norte-coreano Kim Jong-un de 2020 é essencialmente um vídeo falante. Neste caso, a análise de visemas (movimentos da boca) e fonemas (sons) pode revelar inconsistências.
Especialistas, observadores comuns e algoritmos podem conduzir este tipo de análise, embora os resultados difiram. O MIT sugere oito questões para identificar vídeos deepfake:
- Observe o rosto. As manipulações deepfake concentram-se frequentemente em transformações faciais.
- Observe as bochechas e a testa. A pele parece demasiado lisa ou enrugada? O envelhecimento da pele corresponde ao dos cabelos e olhos? Deepfakes podem apresentar incongruências.
- Observe os olhos e sobrancelhas. As sombras aparecem onde esperado? Deepfakes podem falhar ao replicar a física natural da cena.
- Observe os óculos. Há reflexos? São muito intensos? O ângulo muda quando a pessoa se move? Deepfakes podem não conseguir replicar o comportamento natural da iluminação.
- Observe pelos faciais ou sua ausência. Parecem reais? Deepfakes podem adicionar ou remover barba. No entanto, podem não tornar essas transformações totalmente naturais.
- Observe marcas faciais. Uma verruga parece autêntica?
- Observe o piscar dos olhos. A pessoa pisca muito ou pouco?
- Observe os movimentos dos lábios. Alguns deepfakes são baseados na sincronização labial. Os movimentos parecem naturais?
As ferramentas de deteção de deepfakes baseadas em IA também analisam estes aspetos, com diferentes graus de sucesso. Cientistas de dados estão desenvolvendo métodos inovadores, como a deteção do fluxo sanguíneo natural em rostos. Novas abordagens e melhorias podem, no futuro, permitir que as ferramentas de IA superem consistentemente os humanos na deteção de deepfakes.
Identificando Pistas de Áudio em Deepfakes
A deteção de áudio deepfake é um desafio diferente. Sem as pistas visuais e a oportunidade de identificar inconsistências audiovisuais, a deteção depende da análise de áudio. (A verificação de metadados pode também ajudar, em certos casos).
Um estudo da University College London, de 2023, revelou que humanos identificam discurso deepfake em 73% das vezes (inglês e mandarim). Assim como com vídeos, os ouvintes frequentemente identificam padrões de fala não naturais na fala gerada por IA, mesmo sem conseguir especificar o que soa estranho.
Sinais comuns incluem:
- Falas imprecisas.
- Falta de expressividade.
- Ruído ou interferência de fundo.
- Inconsistências vocais ou de fala.
- Falta de “plenitude” nas vozes.
- Entoação excessivamente ensaiada.
- Ausência de falhas naturais (falsos inícios, correções, pigarros, etc.).
Algoritmos também podem analisar a fala em busca dos mesmos sinais deepfake, e novos métodos tornam as ferramentas mais eficientes. Pesquisas da USENIX identificaram padrões na reconstrução do trato vocal por IA que não conseguem imitar a fala natural. Geradores de voz de IA produzem tratos vocais estreitos (aproximadamente do tamanho de um canudo), sem os movimentos naturais da fala humana.
Pesquisas anteriores do Instituto Horst Görtz analisaram áudio genuíno e deepfake em inglês e japonês, revelando diferenças subtis nas altas frequências entre fala genuína e deepfakes.
Tanto as inconsistências do trato vocal quanto de altas frequências são perceptíveis para ouvintes e modelos de deteção de IA. No caso das diferenças de alta frequência, os modelos de IA podem, teoricamente, tornar-se mais precisos, embora o mesmo se aplique aos deepfakes de IA.
Humanos e Algoritmos são Enganados por Deepfakes, mas de Formas Distintas
Estudos indicam que humanos e ferramentas de deteção de IA são igualmente capazes de identificar deepfakes. As taxas de sucesso variam entre 50% e 90%, dependendo dos parâmetros do teste.
Em contrapartida, ambos são enganados por deepfakes em proporções semelhantes, mas de formas diferentes. A combinação dos pontos fortes de ambos pode mitigar as fraquezas individuais e melhorar o sucesso geral.
Por exemplo, pesquisas do MIT revelaram que humanos são mais aptos a detetar deepfakes de líderes mundiais e pessoas famosas do que modelos de IA. Modelos de IA também têm dificuldade com vídeos com múltiplas pessoas, o que pode resultar do treino em vídeos com oradores únicos.
Por outro lado, modelos de IA superaram humanos em imagens de baixa qualidade (desfocadas, granuladas, escuras), que podem ser usadas para enganar espectadores. Métodos de deteção recentes, como o monitoramento do fluxo sanguíneo em regiões faciais, incorporam análises que humanos não são capazes de realizar.
Com o desenvolvimento de mais métodos, a capacidade da IA para detetar sinais aumentará, assim como a sua capacidade de enganar. A questão é se a tecnologia de deteção de deepfakes continuará a superar os próprios deepfakes.
Perceção Diferente na Era dos Deepfakes
As ferramentas de deteção de deepfakes baseadas em IA continuarão a evoluir, assim como a qualidade dos deepfakes. Se a capacidade da IA para enganar ultrapassar a capacidade de detetar (como aconteceu com textos gerados por IA), o discernimento humano pode ser a única ferramenta eficaz para combater deepfakes.
Todos temos a responsabilidade de aprender os sinais dos deepfakes e como identificá-los. Além de nos protegermos de fraudes e ameaças à segurança, tudo o que discutimos e partilhamos online torna-se vulnerável à desinformação se perdermos a noção da realidade.