Tecnologia

Sistema de IA descreve imagens melhor que humanos

Algoritmo da Microsoft já está disponível no Azure Cognitive Services Computer Vision e chega aos aplicativos da empresa até o fim do ano

Os pesquisadores da Microsoft construíram um sistema de Inteligência Artificial (IA) que pode gerar legendas mais rápidas para imagens que são, em muitos casos, mais precisas e com mais detalhes do que as descrições feitas por humanos. A informação foi publicada na quarta-feira (14/10) no blog da empresa. “A legendagem de imagens é um dos principais recursos de visão computacional que pode habilitar uma ampla gama de serviços”, disse Xuedong Huang, diretor de Tecnologia dos Serviços Cognitivos de IA do Azure, em Redmond (EUA).

O novo modelo agora já está disponível para clientes por meio da oferta do Azure Cognitive Services Computer Vision, que faz parte do Azure AI, permitindo que os desenvolvedores usem esse recurso para melhorar a acessibilidade em seus próprios serviços. Ele também está sendo incorporado ao Seeing AI e será lançado ainda este ano no Microsoft Word e Outlook, para Windows e Mac, e PowerPoint para Windows, Mac e web.

A legendagem de imagens é um dos principais recursos de visão computacional que pode habilitar uma ampla gama de serviços  

A legendagem automática de imagens ajuda todos os usuários a acessar o conteúdo importante de qualquer imagem, desde uma foto retornada como resultado de pesquisa até uma imagem incluída em uma apresentação. Um avanço de pesquisa como este pode melhorar esses resultados, embora não signifique que o sistema retornará resultados perfeitos sempre.

O uso de legendas de imagem para gerar uma descrição de foto, conhecido como texto alternativo, em uma página da web ou documento é especialmente importante para pessoas cegas ou com baixa visão, observou Saqib Shaikh, gerente de Engenharia de Software do grupo de plataforma de IA da Microsoft em Redmond. “O ideal é que todos incluam texto alternativo para todas as imagens em documentos na web e nas redes sociais, pois isso permite que pessoas cegas acessem o conteúdo e participem da conversa. Mas, infelizmente, as pessoas não gostam de ter esse trabalho, mas existem vários aplicativos que usam legendas de imagens como forma de preencher o texto alternativo quando ele está faltando”, comentou.

Benchmark de legenda
A legendagem de imagens é um desafio central na disciplina de visão computacional, que requer um sistema de IA para compreender e descrever o conteúdo saliente, ou ação, em uma imagem, explicou Lijuan Wang, gerente do Laboratório de Pesquisa da Microsoft em Redmond. “Você realmente precisa entender o que está acontecendo, precisa saber a relação entre objetos e ações e precisa resumir e descrever em uma frase de linguagem natural”, disse ela, que liderou a equipe de pesquisa que desenvolveu o algoritmo, que alcançou o topo da tabela de classificação no nocaps, um benchmark de legendas de imagens. Ele avalia os sistemas de IA sobre como eles geram legendas para objetos em imagens que não estão no conjunto de dados usado para treiná-los.

Os sistemas de legendagem de imagens são normalmente treinados com conjuntos de dados que contêm imagens emparelhadas com frases que descrevem as imagens, essencialmente um conjunto de dados de imagens legendadas. “O desafio dos nocaps é como descrever novos objetos que você não viu em seus dados de treinamento”, disse Wang. Para enfrentar o desafio, a equipe da Microsoft pré-treinou um grande modelo de IA com um rico conjunto de imagens emparelhadas com marcas de palavras, com cada marca mapeada para um objeto específico em uma imagem.

Conjuntos de dados de imagens com marcas de palavras em vez de legendas completas são mais eficientes de criar, o que permitiu à equipe de Wang inserir muitos dados em seu modelo. A abordagem imbuiu o modelo com o que a equipe chama de vocabulário visual. A abordagem de pré-treinamento de vocabulário visual, explicou Huang, é semelhante a preparar as crianças para lerem usando primeiro um livro de imagens que associa palavras individuais a imagens, como a imagem de uma maçã com a palavra maçã abaixo dela e uma imagem de um gato com a palavra gato.

O modelo pré-treinado é então ajustado para legendagem no conjunto de dados de imagens legendadas. Nessa etapa, o modelo aprende a compor uma frase. Quando apresentado com uma imagem contendo novos objetos, o sistema de IA aproveita o vocabulário visual para gerar uma legenda precisa. “Ele combina o que é aprendido no pré-treinamento e no ajuste fino para lidar com objetos novos nos testes”, disse Wang.

Quando avaliado em nocaps, o sistema de IA criou legendas mais descritivas e precisas do que as legendas para as mesmas imagens que foram escritas por pessoas. O novo sistema de legendagem de imagens também é duas vezes melhor do que o modelo usado em produtos e serviços da Microsoft desde 2015, de acordo com uma comparação em outro benchmark da indústria.

Serviço
blogs.microsoft.com

 

Comentar

Clique aqui para comentar

As opiniões dos artigos/colunistas aqui publicados refletem exclusivamente a posição de seu autor, não caracterizando endosso, recomendação ou favorecimento por parte da Infor Channel ou quaisquer outros envolvidos na publicação. Todos os direitos reservados. É proibida qualquer forma de reutilização, distribuição, reprodução ou publicação parcial ou total deste conteúdo sem prévia autorização da Infor Channel.

Assine a nossa Newsletter

e receba informações relevantes do mercado TIC

Seu e-mail foi cadastrado com sucesso!
Captcha obrigatório

Agenda & Eventos