Um milhão de ursos andando pelas ruas de Hong Kong. Um sapo de morango. Um gato feito de espaguete e almôndegas.
Estas são apenas algumas das descrições de texto que as pessoas forneceram aos sistemas de inteligência artificial de ponta nas últimas semanas.
Esses sistemas —principalmente o DALL-E 2 da OpenAI e o Imagen do Google Research— podem produzir imagens detalhadas e realistas. Elas podem ser bobas, estranhas ou até lembrarem arte clássica, e estão sendo amplamente compartilhadas nas mídias sociais, inclusive por figuras influentes da comunidade de tecnologia.
Assim, não é difícil imaginar essa geração de imagens sob demanda eventualmente servindo como uma ferramenta poderosa para fazer todo tipo de conteúdo criativo, seja de arte ou anúncios.
DALL-E 2 e um sistema semelhante, o Midjourney, por exemplo, já foram usados para ajudar a criar capas de revistas. A OpenAI e o Google apontaram algumas maneiras pelas quais a tecnologia pode ser comercializada, como editar imagens ou criar banco de imagens.
Nem a DALL-E 2 nem a Imagen estão atualmente disponíveis ao público. No entanto, eles compartilham um problema com muitos outros que já são: eles também podem produzir resultados que refletem os preconceitos culturais e de gênero dos dados sobre os quais foram treinados.
O viés nesses sistemas de IA apresenta um problema sério, disseram especialistas à CNN Business.
Para eles, a tecnologia pode perpetuar preconceitos e estereótipos. Eles estão preocupados que a natureza aberta desses sistemas —o que os torna hábeis em gerar todos os tipos de imagens a partir de palavras— e sua capacidade de automatizar a criação de imagens signifique que eles podem automatizar esse viés preconceituoso em grande escala.
Eles também têm o potencial de serem usados para espalhar desinformação.
“Até que esses danos possam ser evitados, não estamos realmente falando de sistemas que podem ser usados abertamente, no mundo real”, disse Arthur Holland Michel, membro sênior do Carnegie Council for Ethics in International Affairs que pesquisa a IA e tecnologias de vigilância.
Documentando o preconceito
A inteligência artificial tornou-se comum na vida cotidiana nos últimos anos, mas só recentemente o público tomou conhecimento de quantos preconceitos podem se infiltrar na tecnologia.
Os sistemas de reconhecimento facial, em particular, têm sido cada vez mais examinados por preocupações sobre sua precisão e preconceito racial.
A OpenAI e o Google Research reconheceram muitos dos problemas e riscos relacionados aos seus sistemas de IA em documentação e pesquisa, ambos dizendo que os sistemas são propensos a preconceitos de gênero e raça e a retratar estereótipos culturais ocidentais.
OpenAI, cuja missão é construir a chamada inteligência artificial geral que beneficie todas as pessoas, incluiu em um documento online intitulado “riscos e limitações” imagens que ilustram como esses problemas podem acontecer: Uma busca por “enfermeira”, por exemplo, resultou em imagens que pareciam mostrar mulheres usando estetoscópios, enquanto uma para “CEO” mostrava imagens que pareciam ser homens e quase todos eram brancos.
Lama Ahmad, gerente do programa de pesquisa de políticas da OpenAI, disse que os pesquisadores ainda estão aprendendo a medir o viés na IA e que a OpenAI pode usar o que aprende para ajustar sua IA ao longo do tempo.
Ahmad liderou os esforços da OpenAI para trabalhar com um grupo de especialistas externos no início deste ano para entender melhor os problemas do DALL-E 2 e oferecer feedback para que possa ser melhorado.
O Google recusou um pedido de entrevista da CNN Business.
Em seu trabalho de pesquisa apresentando o Imagen, os membros da equipe do Google Brain escreveram que o Imagen parece codificar “vários preconceitos e estereótipos sociais, incluindo um viés geral para gerar imagens de pessoas com tons de pele mais claros e uma tendência para imagens que retratam diferentes profissões para alinhar com os estereótipos de gênero ocidentais.”
O contraste entre as imagens que esses sistemas criam e as espinhosas questões éticas é gritante para Julie Carpenter, pesquisadora e pesquisadora do Grupo de Ética e Ciências Emergentes da California Polytechnic State University, San Luis Obispo.
“Uma das coisas que temos que fazer é entender que a IA é muito legal e pode fazer algumas coisas muito bem. E devemos trabalhar com ela como um parceiro”, disse Carpenter. “Mas é uma coisa imperfeita. Tem suas limitações. Temos que ajustar nossas expectativas. Não é o que vemos nos filmes.”
Holland Michel também está preocupado com o fato de que nenhuma quantidade de salvaguardas possa impedir que esses sistemas sejam usados de forma maliciosa, observando que os deepfakes —um aplicativo de ponta de IA para criar vídeos que pretendem mostrar alguém fazendo ou dizendo algo que na verdade não fez ou disse— foram inicialmente aproveitados para criar pornografia falsa.
“De certa forma, um sistema que é ordens de magnitude mais poderoso do que os primeiros sistemas pode ser ordens de magnitude mais perigoso”, disse ele.
Preconceito velado
O Imagen e o DALL-E 2 tiveram que ser treinados com dois tipos de dados: pares de imagens e legendas de texto relacionadas.
O Google Research e a OpenAI filtraram imagens prejudiciais, como pornografia, de seus conjuntos de dados antes de treinar seus modelos de IA, mas, devido ao grande tamanho de seus conjuntos de dados, é improvável que esses esforços capturem todos esses conteúdos, nem tornem os sistemas de IA incapazes de produzir resultados prejudiciais.
Em seu artigo, pesquisadores do Google apontaram que, apesar de filtrarem alguns dados, eles também usam um enorme conjunto de dados que inclui pornografia, insultos racistas e “estereótipos sociais prejudiciais”.
Realmente filtrar esses conjuntos de dados para conteúdo ruim é impossível, disse Carpenter, já que as pessoas estão envolvidas nas decisões sobre como rotular e excluir conteúdo – e pessoas diferentes têm crenças culturais diferentes.
“A IA não entende isso”, disse.
Alguns pesquisadores estão pensando em como pode ser possível reduzir o viés nesses tipos de sistemas de IA, mas ainda os usam para criar imagens impressionantes.
Uma possibilidade é usar menos dados, em vez de mais.
Alex Dimakis, professor da Universidade do Texas em Austin, disse que um método envolve começar com uma pequena quantidade de dados – por exemplo, uma foto de um gato —e cortá-lo, girá-lo, criar uma imagem espelhada dele e assim por diante— ligado, para transformar efetivamente uma imagem em muitas imagens diferentes.
“Isso resolve alguns dos problemas, mas não resolve outros problemas”, disse Dimakis.
O truque por si só não tornará um conjunto de dados mais diversificado, mas a escala menor pode permitir que as pessoas que trabalham com ele sejam mais intencionais sobre as imagens que estão incluindo.
Foco em fotos “fofas”
Por enquanto, OpenAI e Google Research estão tentando manter o foco em fotos fofas e longe de imagens que possam ser perturbadoras ou mostrar humanos.
Não há imagens de aparência realista de pessoas nas imagens de amostra vibrantes na página do projeto on-line do Imagen nem do DALL-E 2, e a OpenAI diz em sua página que usou “técnicas avançadas para evitar gerações fotorrealistas de rostos de indivíduos reais, incluindo aqueles de figuras públicas.”
Essa proteção pode impedir que os usuários obtenham resultados de imagem para, digamos, tentar mostrar um político específico realizando algum tipo de atividade ilícita.
A OpenAI forneceu acesso ao DALL-E 2 a milhares de pessoas que se inscreveram em uma lista de espera desde abril.
Os participantes devem concordar com uma extensa política de conteúdo, que diz aos usuários para não tentarem fazer, carregar ou compartilhar fotos “que possam causar danos”.
O DALL-E 2 também usa filtros para evitar que se gere uma imagem se um upload de imagem violar as políticas do OpenAI, e os usuários podem sinalizar resultados problemáticos.
No final de junho, o OpenAI começou a permitir que os usuários postassem rostos humanos fotorrealistas criados com o DALL-E 2 nas mídias sociais, mas somente depois de adicionar alguns recursos de segurança, como impedir que os usuários gerassem imagens contendo figuras públicas.
“Pesquisadores, especificamente, acho muito importante dar acesso a eles”, disse Ahmad. Isso ocorre, em parte, porque a OpenAI quer sua ajuda para estudar áreas como desinformação e preconceito.
Enquanto isso, o Google Research não está permitindo que pesquisadores de fora da empresa acessem o Imagen.
Ele recebeu pedidos nas mídias sociais para solicitações que as pessoas gostariam de ver o Imagen interpretar, mas como Mohammad Norouzi, coautor do jornal Imagen, twittou em maio, ele não mostrará imagens “incluindo pessoas, conteúdo gráfico e material sensível.”
Ainda assim, como o Google Research observou em seu artigo sobre o Imagen, “mesmo quando focamos gerações longe das pessoas, nossa análise preliminar indica que o Imagen codifica uma série de preconceitos sociais e culturais ao gerar imagens de atividades, eventos e objetos”.
Uma dica desse viés é evidente em uma das imagens que o Google postou em sua página da Web Imagen, criada a partir de um prompt que diz: “Uma parede em um castelo real. Há duas pinturas na parede. A da esquerda, um óleo detalhado pintura do rei guaxinim real. O da direita uma pintura a óleo detalhada da rainha guaxinim real.”
A imagem é exatamente isso, com pinturas de dois guaxinins coroados – um usando o que parece ser um vestido amarelo, o outro com uma jaqueta azul e dourada – em molduras douradas ornamentadas.
Mas, como Holland Michel observou, os guaxinins estão vestindo roupas reais de estilo ocidental, embora o prompt não especifique nada sobre como eles devem aparecer além de parecerem da “realeza”.
Mesmo essas manifestações “sutis” de preconceito são perigosas, disse Holland Michel.
“Por não serem flagrantes, eles são realmente difíceis de pegar”, disse ele.
Compartilhe: