IA Generativa: Midjourney x Stable Diffusion x Bing Image Creator – Qual a Melhor?

Foto do autor

By luis

A inteligência artificial está revolucionando o universo da arte de maneiras surpreendentes. Uma das aplicações mais notáveis da IA nesse campo é o uso de geradores de arte descritiva. Essas ferramentas têm a capacidade de analisar e interpretar imagens, criando obras de arte totalmente novas com base em suas análises.

Neste artigo, exploraremos três desses geradores de arte de IA: MidJourney, Stable Diffusion e Microsoft Bing Image Creator, e avaliaremos qual deles se destaca ao produzir os melhores resultados a partir de comandos textuais.

MidJourney

O MidJourney, criado por David Holz, é um gerador de arte de IA que utiliza aprendizado de máquina para identificar padrões e características em obras de arte existentes, usando essas informações para criar novas peças artísticas.

O MidJourney entrou em fase beta aberta em 12 de julho de 2022. Antes de lançar o MidJourney, Holz foi cofundador da Leap Motion, uma startup que inovou as interfaces de usuário por meio da captura de vídeo e de gestos com as mãos. Em 2019, ele vendeu a Leap Motion para a Ultrahaptics.

Com a crescente popularidade do MidJourney, Holz tem compartilhado suas perspectivas sobre tecnologia e sua influência na arte e na sociedade. Ele vê os artistas como clientes do MidJourney, e não como concorrentes, e acredita que a plataforma pode promover maior criatividade e experimentação na fase de concepção.

No entanto, existem preocupações sobre a potencial violação de direitos autorais do conjunto de dados de treinamento do MidJourney, que pode incluir obras protegidas por direitos autorais de outros artistas.

Holz enfatiza que o MidJourney foi desenvolvido para aprimorar as capacidades humanas, e não para substituí-las. Ele compara essa tecnologia com os carros, explicando que o fato de os carros serem mais rápidos do que os humanos não significa que devemos cortar nossas pernas.

Ao utilizar a geração de imagens por IA do MidJourney, os artistas podem explorar novas possibilidades e gerar inúmeras ideias antes de criar suas próprias obras.

Stable Diffusion

Stable Diffusion é um modelo de aprendizado de máquina de código aberto capaz de gerar imagens a partir de texto, modificar imagens com base em texto, ou preencher detalhes em imagens de baixa resolução ou com poucos detalhes. Treinado com bilhões de imagens, ele consegue produzir resultados comparáveis aos obtidos com DALL-E 2 e MidJourney.

Emad Mostaque, fundador e CEO da Stability AI, é a empresa responsável pela Stable Diffusion. Stable Diffusion é um modelo de difusão latente desenvolvido pelo grupo CompVis da LMU Munich, projetado por Patrick Esser e Robin Rombach, que anteriormente criaram a arquitetura do modelo de difusão latente usada pelo Stable Diffusion.

A disponibilização do Stable Diffusion ao público foi resultado de uma colaboração entre Stability AI, CompVis LMU, Runway, EleutherAI e LAION.

O Stable Diffusion pode ser implementado em diversas plataformas, incluindo dispositivos Windows e Apple. A utilização da implantação no próprio dispositivo em um aplicativo pode proteger a privacidade do usuário, o que é preferível a uma abordagem baseada em servidor.

Microsoft Bing Image Creator

A Microsoft lançou uma nova ferramenta chamada Bing Image Creator, que permite que os usuários criem suas próprias imagens diretamente no Microsoft Edge. A empresa lançou um conjunto de ferramentas para criadores, projetadas para estimular a criatividade e a autoexpressão. A ferramenta permite que os usuários criem imagens personalizadas para compartilhar suas atualizações de vida ou para qualquer outra finalidade que necessitem.

Os usuários podem acessar facilmente o Image Creator na barra lateral do Microsoft Edge. A Microsoft tomou medidas proativas para garantir que a ferramenta seja usada com responsabilidade e não facilite a disseminação de conteúdo ofensivo.

A empresa estabeleceu uma política de conteúdo que proíbe o uso do Image Creator para certos casos, e os usuários podem denunciar qualquer violação dessa política. Além disso, a Microsoft implementou tecnologia para lidar com possíveis vieses que podem surgir na tecnologia de imagem generativa.

Neste artigo, embarcaremos em uma análise para avaliar os resultados de cada gerador de imagem de IA descritiva, utilizando os mesmos prompts textuais.

Prompt 1: Papai Noel moderno em um trenó sendo puxado por renas em um dia quente e ensolarado em uma rodovia

Prompt 2: Um close-up de um animal com olhos grandes, capturando sua inocência e fofura

Prompt 3: Um astronauta humano brincando de pousar em um novo planeta é recebido por criaturas alienígenas hostis que sacam suas armas

Prompt 4: Arte abstrata moderna de uma capa de livro de um romance ambientado na cidade de Nova York, em cores fortes e vibrantes

Prompt 5: Um homem decidindo entre dois pratos – um com pizza e outro com cheeseburguer

Prompt 6: Um guerreiro ferido cavalgando em uma montanha nevada com uma espada na mão

Prompt 7: Uma imagem abstrata usando diferentes tons que mostra o movimento e o fluxo da água

Prompt 8: Salmão em um rio com árvores verdes exuberantes ao fundo

Prompt 9: Um copo de água sobre uma mesa com um limão sendo espremido por uma mão

Prompt 10: Visão do horizonte em um deserto do ponto de vista de pessoas montando um elefante nele

Prompt 11: Uma floresta onde o papel-moeda cresce em árvores e os pássaros são feitos de moedas

Prompt 12: Tigela de ramen, cel shading, iluminação noturna, fotorrealista

Prompt 13: Elon Musk é pobre e desempregado

Veredicto

Ao analisar os resultados de MidJourney, Stable Diffusion e Bing Image Creator, fica claro que não há um vencedor definitivo.

Cada gerador interpreta os prompts de maneira distinta, com semelhanças encontradas nas saídas do Bing Image Creator e do MidJourney. A Stable Diffusion se mostra eficiente quando os prompts possuem descrições claras, mas frequentemente interpreta as palavras de forma literal demais. Embora o MidJourney e o Bing Image Creator sejam geralmente bem-sucedidos, eles ocasionalmente produzem resultados que não correspondem aos prompts.

É notável que o Bing Image Creator demonstra cautela ao gerar quaisquer resultados abusivos ou incitativos, emitindo uma mensagem de aviso quando solicitado a criar uma imagem de um Elon Musk pobre e desempregado. A adoção dessas medidas de proteção pela Microsoft é admirável.

Enquanto isso, a expertise em redes neurais do MidJourney gerou a imagem de um Elon Musk desamparado e em situação de rua. Assim, podemos concluir que cada gerador atenderá à sua respectiva base de usuários.