Redes Sociais Vendendo Seus Dados para IA: Como Proteger sua Privacidade?

Principais Descobertas

  • Empresas de redes sociais estão a comercializar informações de utilizadores para companhias de inteligência artificial, com o objetivo de treinar modelos generativos, levantando preocupações sobre a privacidade.
  • Plataformas como Meta, Reddit, Tumblr e WordPress.com estão ativamente envolvidas em acordos que licenciam dados para o desenvolvimento de IA.
  • Os utilizadores podem adotar algumas medidas preventivas para proteger as suas informações, ajustando configurações de privacidade, recusando o compartilhamento e sendo cautelosos com o que publicam na internet.

Uma das mais recentes estratégias das empresas de redes sociais para rentabilizar os dados dos seus utilizadores envolve parcerias com empresas de IA. Mas será que os utilizadores comuns têm alguma forma de salvaguardar os seus dados e conteúdos?

A utilização de dados de redes sociais para o treino de modelos generativos de IA tem gerado controvérsia, mas isso não parece impedir as empresas de redes sociais de partilhar os dados dos seus utilizadores.

A Meta já está a usar dados de redes sociais para treinar as funcionalidades de IA generativa apresentadas no Meta Connect em 2023. Isto inclui a Meta AI e recursos como a criação de autocolantes gerados por IA no WhatsApp.

Como Mike Clark, Diretor de Gestão de Produto da Meta, mencionou numa publicação no blog da Meta:

“Publicações partilhadas publicamente no Instagram e Facebook – incluindo fotos e texto – fizeram parte dos dados utilizados para treinar os modelos generativos de IA subjacentes aos recursos que anunciámos no Connect.”

Esta tendência parece continuar em 2024. Segundo a Reuters, o Reddit celebrou um acordo com o Google para disponibilizar o conteúdo da sua plataforma de redes sociais para o treino de modelos de IA.

O documento S-1 do Reddit para o seu IPO, apresentado em 22 de fevereiro de 2024, confirma que a empresa está a explorar acordos de licenciamento. O documento afirma:

“Os dados do Reddit são essenciais para o desenvolvimento da atual tecnologia de IA e de muitos LLMs. Acreditamos que o vasto volume de dados e conhecimento conversacional do Reddit continuará a desempenhar um papel no treino e melhoria dos LLMs.”

O documento especifica que o Reddit está “nas fases iniciais para permitir que terceiros licenciem o acesso para pesquisar, analisar e exibir dados históricos e em tempo real da nossa plataforma” para treinar LLMs.

E embora a Meta e o Reddit sejam alguns dos maiores nomes das redes sociais, eles não são as únicas plataformas envolvidas no uso de dados de redes sociais para treinar IA. De acordo com um relatório da 404 Media, o Tumblr e o WordPress.com estão a preparar-se para vender dados de utilizadores à Midjourney e à OpenAI.

Provavelmente, se utiliza o Facebook, Instagram, Reddit, Tumblr ou WordPress.com, o seu conteúdo público já terá sido usado no treino de LLMs.

Por exemplo, se usar a ferramenta de pesquisa do Washington Post para ver quais sites foram incluídos no conjunto de dados C4 do Google, que foi usado como parte do treino do Bard, irá verificar que o Reddit.com é responsável por 7,9 milhões de tokens.

O Tumblr.com é responsável por 1,6 milhões de tokens. O meu próprio pequeno site, que usa o WordPress.com, foi responsável por 14 mil tokens – portanto, pequenos blogs pessoais também podem ter sido incluídos no conjunto de dados.

Com os acordos em curso entre empresas de IA e empresas de redes sociais, os acordos de licenciamento irão significar que estes dados serão ativamente vendidos, em vez de apenas serem recolhidos da web.

Mas quando se trata do processamento futuro, o que pode fazer em relação a isso? A Meta introduziu um formulário para direitos do titular dos dados de IA generativa que permite que se oponha ou restrinja o processamento dos seus dados pessoais por terceiros para treinar os modelos de IA generativos da Meta.

É importante notar que esta opção não lhe permite opor-se ao processamento primário dos seus dados pela própria Meta para treinar IA generativa. Além disso, quando enviei um pedido para me opor à utilização dos meus dados pessoais através do formulário, o pedido de suporte exigia que eu provasse que as minhas informações pessoais já estavam a aparecer nos resultados de IA generativos da Meta.

O Tumblr também introduziu uma opção para cancelar o compartilhamento do conteúdo dos seus blogs públicos com terceiros, através das configurações do seu blog. Pode encontrá-la nas suas configurações, clicando no seu blog e rolando para baixo até às configurações de Visibilidade. Em seguida, escolha Impedir o compartilhamento com terceiros no seu blog.

Quando se trata de uma plataforma como o Instagram, pode tentar alterar a sua conta do Instagram para privada para impedir o uso dos seus dados. Isso não garante que os seus dados não serão usados, mas como a recolha de dados para LLMs parece concentrar-se em dados públicos, pode ser uma salvaguarda potencial.

Pode também tornar a sua conta X (Twitter) privada, mas, novamente, esta é apenas uma proteção potencial e não garante que os seus dados permaneçam privados.

A declaração conjunta de vários comissários nacionais de informação e especialistas em todo o mundo também sugeriu algumas ações para indivíduos que desejam minimizar o risco de privacidade da recolha de dados por empresas de IA. O conselho inclui:

  • Leia os termos e a política de privacidade de um site para verificar como este partilha as suas informações pessoais.
  • Limite as informações que publica online, especialmente informações confidenciais.
  • Gerencie as suas configurações de privacidade.
  • Pense a longo prazo nas informações que partilha online.
  • Contacte a empresa de redes sociais ou o site se achar que os seus dados foram copiados indevidamente. Se não estiver satisfeito com a resposta, apresente uma reclamação junto da autoridade de proteção de dados relevante.

Pode também eliminar determinadas informações online se não se sentir confortável com o acesso de terceiros a elas, embora as informações disponíveis publicamente nos seus perfis possam já ter sido recolhidas.

Infelizmente, nós, como utilizadores regulares, não temos muito poder para proteger os nossos dados das empresas de IA. O verdadeiro controlo sobre estas informações provavelmente só surgirá com a intervenção dos reguladores.