O futuro da descrição de imagens por inteligência artificial

Na verdade o título desse post deveria ser “o presente da descrição de imagens por IA”, já que tudo o que menciono por aqui já está disponível, mas é uma ótima reflexão sobre o que podemos esperar dessa tecnologia para a descrição de imagens.

Sou um grande entusiasta sobre o uso de tecnologias emergentes, porém, quando falamos de acessibilidade ainda há uma certa resistência em diversos aspectos, principalmente quando algo é feito de forma automática. Essa resistência se justifica por diversos motivos e em cenários amplos mas nada é tão delicado quanto a descrição de imagens. Nesse contexto, dois tweets de pessoas que sigo e que usam esse recurso foram a inspiração para escrever esse post.

O uso de inteligência artificial para descrição de imagens já faz parte da nossa realidade. Facebook já faz isso desde 2016 com as imagens do feed, mas foi a partir do enorme avanço da inteligência artificial nos últimos anos que pudemos acompanhar um real avanço nessa área.

O avanço da inteligência artificial na Web é inegável em diversas áreas. É incrível perceber como essa evolução é rápida. Nesse post estamos discutindo o uso de inteligência artificial para descrever fotos, mas já existe tecnologia para gerar vídeos com áudio em outro idioma como se fosse falado de forma nativa. Isso vai além da dublagem, pois a IA modifica até os movimentos labiais. Esse vídeo do Linus Ekenstam é um ótimo exemplo disso.

Full video in Portuguese

To all my Portuguese friends, rate it below pic.twitter.com/8tu8UXJlwC

— Linus (●ᴗ●) (@LinusEkenstam) September 25, 2023

Estamos presenciando o surgimento de recursos tecnológicos que vão mudar a forma como lidamos com interfaces digitais e também com a acessibilidade. Esse recurso de tradução e manipulação de imagens pode ser um ótimo aliado para a acessibilidade em vídeo, inclusive com o uso de Libras. Voltemos ao uso de IA para a descrição de imagens.

O aplicativo Be My Eyes incorporou recursos de IA nas descrições de imagens, que antes eram feitas somente por voluntários. O resultado foi uma maior precisão em descrições de imagens. Podemos perceber isso pelo tweet do Lucas Radaelli, que nos mostra uma descrição da foto com um nível de detalhes impressionante.

Estou sentado em um hotel tomando café da manhã. Resolvi tirar uma foto da janela e pedi pra uma Ai descrever a foto pra mim. Ficou sensacional a quantidade de detalhe. O futuro da acessibilidade é promissor demais. A descrição está no alt da imagem. pic.twitter.com/d1mvutAzht

— Lucas Radaelli (@lucasradaelli) September 22, 2023

Descrição da imagem (em inglês): The picture you’ve shared is of a cityscape viewed from a window. The sky is clear and blue with no clouds. There are a few white spots in the sky which could be reflections. The window has a dark curtain on the right side. Below, there are several buildings. The building on the left is a tall, glass building reflecting the sky. The building on the right is shorter with a rooftop garden. In the distance, there are more buildings, including one with a unique spiral structure. There is also a green area with trees among the buildings. It looks like a beautiful day in the city.

Não tenho informações se a pesquisa da ferramenta faz uso exclusivamente de inteligência artificial ou se há alguma validação por voluntários humanos. O fato é que o resultado dessa descrição é bem detalhada.

É impressionante a evolução tecnológica que permite esse tipo de descrição. Antes era necessário fazer o upload no aplicativo e aguardar a descrição de voluntários. Hoje em tempo real temos a descrição de um cenário de forma detalhada e que ainda deve evoluir para deixar a descrição mais precisa e detalhada.

Por outro lado, as ferramentas de inteligência artificial ainda sofrem para nos dar resultados que envolvem principalmente reações humanas. O Diogo Cortiz, que é um dos maiores especialistas em IA do Brasil, vem estudando esse fenômeno de computação afetiva há anos. As ferramentas ainda tem muita dificuldade em interpretar o sentimento humano. Destaco abaixo um trecho de um post incrível do seu blog:

“Estudo há alguns anos o uso potencial e os riscos da Computação Afetiva, uma área que usa IA para aprender sobre as emoções humanas. Um tipo de aplicação comercial popular é a de detecção de emoções por meio do reconhecimento facial. Com uma câmera simples, o sistema passa a indicar as emoções de todas as pessoas presentes na imagem.”

“É uma experiência fascinante, como se um agente inteligente pudesse conhecer a natureza humana melhor do que nós mesmos. E, para uma pessoa não especialista, fica muito difícil questionar a decisão da máquina. No entanto, há controvérsias, porque na ciência ainda não há consenso de que seja possível identificar emoções de alguém com base nas suas expressões faciais – na verdade, as abordagens mais recentes dizem que isso é totalmente falho.”

Um bom exemplo desse uso está no segundo tweet que gerou esse post. O Gustavo Torniero utilizou um recurso de inteligência artificial em seu smartphone para descrever uma imagem. A descrição parece simples, porém quando a IA tentou explicar o sentimento das pessoas na foto ela traz o resultado diferente do que todo o Brasil acompanhou nos últimos tempos.

Um grande sinal de que a descrição de imagens por inteligência artificial claramente não está pronta para alguns contextos. Nessa imagem, a IA disse: “Ambos parecem estar em um momento feliz e afetuoso“… https://t.co/wqvJXNq65O

— Gustavo (@torniero) October 2, 2023

Para quem não consegue ver a foto, é uma imagem da Sandy e Lucas abraçados durante um programa de TV quando falavam sobre a separação do casal. Eles não estão com uma fisionomia feliz.

Podemos elencar uma série de suposições para essa resposta equivocada, de que falta contexto na imagem, que a IA não consegue reconhecer as pessoas na foto e que ela ainda foi cuidadosa ao dizer que “parecem estar em um momento feliz”.

As ferramentas de inteligência artificial tem um enorme potencial para a descrição de cenários, identificação de texto e até para a leitura de metadados nas fotos. Porém ainda temos uma enorme dificuldade em descrever contextos e sentimentos nas imagens. A descrição de uma camiseta em um e-commerce vai ser muito mais simples e precisa do que a de um quadro do Van Gogh em uma galeria virtual. Será apenas questão de tempo ou devemos considerar a dificuldade de IA em descrever sentimentos?

O que deve vir por ai

Hoje as ferramentas de IA estão disponíveis em várias aplicações e ficarão cada vez mais comuns e imperceptíveis. Estarão presentes na rede social, nas ferramentas de busca e até nos sistemas operacionais de smartphones. A IA chega em um ótimo momento como uma ferramenta para o usuário que precisa da descrição de uma foto que acabou de tirar ou de uma imagem na Web. Mais especificamente na Web, ela vem fazer o trabalho que não fizemos no passado (e ainda não fazemos) de descrever nossas imagens. Usando com cuidado, ela será uma excelente ferramenta e vai beneficiar muito as pessoas com deficiência.

Acredito que essas ferramentas vão evoluir. No exemplo da imagem publicada pelo Gustavo, acho que as ferramentas de descrição conseguirão pesquisar em tempo real quem são as pessoas da foto e o contexto que ela foi tirada, podendo apresentar uma descrição mais adequada. Será um enorme ganho para os usuários.

Em breve teremos IA ajudando no desenvolvimento com acessibilidade e descrevendo imagens que publicamos em sites e aplicativos. Mesmo assim, ainda acho que vai demorar para que possamos confiar que uma ferramenta dessas seja capaz de descrever detalhes de sentimentos humanos como fazemos ao ver uma foto. Ainda acho que vamos precisar de profissionais de acessibilidade para revisar esse conteúdo e códigos gerados por inteligência artificial (já falei sobre isso por aqui em outro post).

Pensando no cenário do Be My Eyes, um aplicativo permitir a descrição por meio de IA é uma grande conquista para pessoas com deficiência. E se puder contar com a validação humana dos voluntários mais apurada ainda será a descrição. Que apareçam mais aplicativos e recursos como esse! Já no caso do desenvolvimento de aplicações Web, ainda acho arriscado delegar para IA a acessibilidade sem intervenção humana.

O caminho é promissor para a inteligência artificial e acessibilidade, mas a participação do ser humano é fundamental.

Crédito da imagem: Freepik.com

O que deve vir por ai

A difícil arte de dar significado ao conteúdo na Web