Inteligência artificial em sintonia com humanos para criar imagens

Em artigo publicado na revista Significação, pesquisadores investigam formas de geração de sentidos a partir da comunicação humana com a IA generativa 

Vida acadêmica

Com o objetivo de investigar a criação de sentidos na interação entre usuários humanos e a Inteligência Artificial (IA), os pesquisadores Ana Silvia Lopes Davi Médola, livre docente da Universidade Estadual Paulista (Unesp), e Henrique da Silva Pereira, docente do Centro Universitário Nossa Senhora do Patrocínio (Ceunsp), desenvolveram a pesquisa que resultou no artigo Interações discursivas em Dall-e 2, publicada na última edição da Significação: Revista de Cultura Audiovisual. 

No texto, os autores trabalham conceitos da semiótica discursiva, como as relações intransitivas, onde o sentido é criado pelo enunciador (quem emite a mensagem), sem a participação do enunciatário (quem a recebe), e transitivas, onde o sentido surge da negociação, reciprocidade ou reflexão entre as partes. A partir disso, o artigo busca entender como se dá o “diálogo” entre humano e algoritmo, bem como quais são os seus problemas e como eles resultam em novas possibilidades discursivas e criativas. 

 

O que é a IA Generativa para textos e imagens?

Desde os antigos robôs jogadores de xadrez, até as os chatbots modernos, que criam textos e respondem perguntas quase instantaneamente, a inteligência artificial vem ganhando um espaço cada vez maior nas atividades humanas, sobretudo na comunicação. Da mesma forma, também cresce o seu impacto nas demais atividades que, antes, só poderiam ser feitas por humanos. 

 

Foto de um homem branco com cabelos curtos e brancos, barba branca e longa e óculos que joga xadrez contra um robô. O homem está de terno cinza e camisa branca, à direita da imagem, e move uma peça clara.O robô é preto e prateado e está do lado esquerdo, sobre a mesa. Entre os dois, há o tabuleiro de xadrez. O fundo é escuro.
A IA começou com scripts focados em aprender tarefas simples, que foram se sofisticando com o avanço da tecnologia. Foto: Pavel Danilyuk/ Pexels
​​​​

Os autores explicam que isso acontece em virtude de processos como o machine learning (aprendizado de máquina) e deep learning (aprendizagem profunda), que permitem que os novos algoritmos aprendam com dados e modelos disponíveis em bancos de dados massivos, os chamados Big Data, que capacitam essas máquinas para tarefas cada vez mais complexas. 

Em virtude desse avanço, e, graças ao trabalho de Processamento de Linguagem Natural (PLN), que é responsável por ensinar modelos de linguagem humana para sistemas computacionais, surgiu um novo tipo de inteligência artificial, com algoritmos organizados em redes neurais profundas, inspirados no sistema nervoso humano, e assim, capaz de aprender com e reagir às interações humanas, criando conteúdos para a sua fruição. 

Essas são as chamadas inteligências artificiais generativas (GEN-AI), como o ChatGPT, que cria textos a partir de instruções dadas em texto, e o Dall-E, que parte de instruções em texto para gerar imagens, o que é o foco da pesquisa. 

 


Como a IA interpreta nossa linguagem e como nos adaptamos a essa interpretação?

 

“Do ponto de vista da enunciação, apresentamos como hipótese a ocorrência de uma troca de posições na relação enunciador-enunciatário”.

Ana Silvia Lopes Davi Médola, livre docente da Universidade Estadual Paulista
Henrique da Silva Pereira, docente do Centro Universitário Nossa Senhora do Patrocínio

 

Pintura de árvores retorcidas e sem folhas ao longo de uma estrada. Nas árvores, predominam as cores preto, marrom e vermelho, enquanto a estrada é ladeada por terrenos na cor verde. Entre as árvores, formas indefinidas sugerem pássaros. O fundo é branco e o traçado e preenchimento dos elementos é repleto de riscos e variações de direção e intensidade.
Imagem feita por inteligência artificial a partir do texto “Uma pintura de árvores altas caminhando ao longo de uma estrada, com pássaros trêmulos e cantando na frente de um céu branco, no estilo do expressionista austríaco Egon Schiele.” Foto: Stefan Kutzenberger/ Dall-e.

 

Para os autores, destaca-se, no caso do Dall-e uma dinâmica única de comunicação entre humano e máquina. Afinal, na página inicial do site, o usuário é apresentado a um menu onde há, além de imagens e opções de geração, uma caixa de texto, na qual já é sugerido um enunciado “modelo”, ou seja, o próprio site atua como um intermediário na interação entre o emissário e o destinatário dos comandos. 

Uma vez dado o comando, há uma etapa de comunicação intransitiva, ou unidirecional. Nessa etapa, o enunciador emite um enunciado, no qual o seu destinatário não tem participação, e cuja única resposta é executar a “ordem” do emissário. Uma vez criada a imagem, a partir de textos como “uma pintura renascentista de alguém usando um computador”, cabe ao enunciador responder à imagem criada, e isso desencadeia uma alternância nos papéis enunciativos em uma interação bilateral, ou transitiva.

 

“O algoritmo parte de uma descrição realizada por um enunciador que posteriormente desempenhará o papel actancial de enunciatário do texto enunciado pelo algoritmo”.

Ana Silvia Lopes Davi Médola, livre docente da Universidade Estadual Paulista
Henrique da Silva Pereira, docente do Centro Universitário Nossa Senhora do Patrocínio

 

Fadados a se adaptar um ao discurso do outro, um enunciador emite uma mensagem que recebe uma resposta, então, reage à essa resposta como o enunciatário de uma nova mensagem, tudo isso com uma interface lógica entre os falantes, a do próprio site, além de uma terceira linguagem, informacional, que opera entre a emissão de um texto e a “interpretação” do algoritmo que cria as imagens.

A saber, essa terceira linguagem é a responsável por transformar os dados, que foram emitidos em texto, em um conjunto de bits compreensível pelo algoritmo, e, então, comparar essas informações com imagens disponíveis em seus bancos de dados até encontrar as correspondências mais adequadas a uma solicitação.

 

Conclusões

 

“A artificialidade da matriz imagética apoiada não apenas na digitalização do suporte mas, agora também, na autonomia da máquina capaz de ‘criar’, requer um saber-fazer dos humanos para ler o conteúdo apresentado.”

Ana Silvia Lopes Davi Médola, livre docente da Universidade Estadual Paulista
Henrique da Silva Pereira, docente do Centro Universitário Nossa Senhora do Patrocínio

 

Captura de tela da página do instagram do Dall-E 2. Nela, há a pintura, em estilo óleo sobre tela, de um homem branco, calvo e ruivo que digita em um computador.. Suas vestimentas são da era vitoriana, com gola alta branca e mangas brancas sobre um colete escuro com botões claros, e o homem está sentado à frente de uma mesa, com as mãos sobre o teclado. O fundo é claro. Na porção direita da imagem, a legenda da postagem em inglês feita pela OpenAi, “Pintura renascentista de uma pessoa sentada em uma baia de escritório, digitando estressada em um teclado de computador”, e comentários de seguidores.
Os algoritmos de criação de imagem podem recriar estilos de arte ou de artistas e, a partir disso, trazer à tona imagens inusitadas. Imagem: Instagram @OpenAI 

 

Entre as informações mais destacadas pelos pesquisadores no artigo, está a capacidade interpretativa da ferramenta. 

Por exemplo, em resposta a um comando como “saída de crianças da escola em Singapura”, o Dall-e gerou imagens que satisfazem as informações explícitas no texto, como o ato de sair como um evento onde, estando em um local, parte-se para outro, além de dados implícitos, como as crianças estudarem na escola e não apenas estarem passando.

Além disso, nota-se um caráter reflexivo nas interações humano-máquina, o que levou os autores à conclusão de que não há um “contrato” entre os falantes, mas sim uma sintonia onde uma parte colabora para modificar os sentidos emitidos pela outra. Essa sintonia parte de um comando, que prescreve alteração de seu sentido, e se concretiza pela ação do algoritmo, programado para satisfazer uma demanda, em conjunto com a ação humana, que se adapta ao conteúdo gerado. 

Por fim, os pesquisadores chamam a atenção para as oportunidades e dificuldades que surgem nesse novo tipo de interação. Afinal, as IA são capazes de criar imagens a partir de texto, mas ao mesmo tempo, dependem de uma linguagem externa para estabelecer essa comunicação. 

Tendo em vista essa necessidade, é inevitável que surjam ambiguidades, com as quais o enunciador humano deve lidar para extrair os conteúdos desejados. Sendo assim, novas competências devem ser desenvolvidas para atingir novos resultados, o que dá margem para entender e criar novas formas de figurativização, além de ajustar a atenção do enunciador em relação ao enunciado. Afinal, para se fazer entender um texto pela máquina é preciso, primeiro, lê-lo.

 

Revista Significação

Em 2023, a Significação: Revista de Cultura Audiovisual completou 50 anos e, desde então, adota um sistema de publicação contínua. Nessa trajetória de meio século, já foram publicados mais de 500 artigos focados em estudos sobre a cultura audiovisual e em semiótica. 

Além disso, a revista está com duas novas seções, uma dedicada a resenhas e críticas de livros e objetos audiovisuais e outra dedicada a entrevistas com pessoas atuantes no universo audiovisual. 

Em sua 51ª edição, o foco é o impacto das tecnologias de comunicação em nossa rotina diária, com textos que vão desde a influência da TV na organização das casas, até o impacto da inteligência artificial nas formas de criar e se comunicar dos humanos.

 

 

 

Imagem da Capa: This is Engineering/ Pexels
 
Notícias do