book_icon

Muito mais do que a IA aparenta: Como a pesquisa com GANs está mudando as videochamadas

SDK de streaming de vídeo Nvidia Maxine com IA na Nuvem é baseado na pesquisa com GANs apresentada no CVPR 2021

Muito mais do que a IA aparenta: Como a pesquisa com GANs está mudando as videochamadas

Já pensou em levantar-se da cama, ligar o notebook, abrir a câmera e estar pronto para todas as videochamadas? Com a ajuda da Inteligência Artificial (IA) desenvolvida pelos pesquisadores da Nvidia, isso já é possível.

O Vid2Vid Cameo, um dos modelos de Deep Learning por trás do SDK Nvidia Maxine para videochamadas, usa redes generativas adversariais, conhecidas como GANs, para sintetizar vídeos realistas com avatares usando apenas a imagem 2D de uma pessoa.

Para usá-lo, os participantes enviam uma imagem de referência – que pode ser uma foto real de si mesmos ou um avatar de desenho animado – antes de entrar em uma videochamada. Durante a reunião, o modelo de IA irá capturar o movimento em tempo real de cada indivíduo e aplicá-lo à imagem estática enviada anteriormente.

Para usá-lo, os participantes enviam uma imagem de referência – que pode ser uma foto real de si mesmos ou um avatar de desenho animado – antes de entrar em uma videochamada  

Isso significa que, ao enviar uma foto de si mesmos em trajes formais, os participantes da reunião, com cabelo despenteado e pijama, podem aparecer em uma chamada em trajes adequados para o trabalho, com IA mapeando os movimentos faciais do usuário para a foto de referência. Se a pessoa virar o rosto para a esquerda, a tecnologia pode ajustar o ponto de vista para que o participante pareça estar fazendo contato visual com a câmera.

Além de ajudar os participantes a melhorar sua aparência, essa técnica de IA também diminui em até 10 vezes a largura de banda necessária para videochamadas, evitando travamentos e atrasos. Em breve, ela estará disponível no SDK Nvidia Video Codec sob o nome de AI Face Codec.

“A largura de banda da internet de muitas pessoas é limitada, mas elas ainda querem fazer videochamadas fluídas com a família e os amigos. Além de ajudá-los, essa tecnologia também pode ser usada para auxiliar o trabalho de animadores, editores de fotos e desenvolvedores de games”, afirma Ming-Yu Liu, Pesquisador da Nvidia Enterprise e coautor do projeto.

O Vid2Vid Cameo foi apresentado nesta semana na famosa Conference on Computer Vision and Pattern Recognition como um dos 28 trabalhos da Nvidia no evento virtual.

IA rouba a cena
Em uma homenagem aos filmes clássicos de assalto (e a ‘La Casa de Papel’, série de sucesso da Netflix), os pesquisadores da Nvidia Enterprise testaram o modelo representativo com GANs em uma reunião virtual. A demonstração destaca os principais recursos do Vid2Vid Cameo, como redirecionamento facial, avatares animados e compactação de dados.

Em breve, os recursos serão disponibilizados no SDK Nvidia Maxine, que oferece aos desenvolvedores modelos pré-treinados otimizados para efeitos de vídeo, áudio e realidade aumentada em videochamadas e livestreams.

Os desenvolvedores já podem adotar os efeitos de IA do Maxine, como remoção inteligente de ruído, redimensionamento de vídeo e estimativa de pose corporal. O SDK gratuito também pode ser usado com a plataforma Nvidia Jarvis para aplicações de IA de conversação, como transcrição e tradução.

Olá, da IA
O Vid2Vid Cameo precisa de apenas dois elementos para criar uma representação realista com IA para videochamadas: uma foto da pessoa e um stream de vídeo que define como a imagem deve ser animada.

Desenvolvido em um sistema Nvidia DGX, o modelo foi treinado usando um conjunto de dados de 180 mil vídeos de alta qualidade de representações. A rede aprendeu a identificar 20 pontos principais que podem ser usados para modelar o movimento facial sem intervenção humana. Os pontos codificam a localização de características como olhos, boca e nariz.

Depois, o modelo extrai os pontos principais da imagem de referência da pessoa que está ligando, que pode ser enviada para outros participantes da videochamada com antecedência ou reutilizada de reuniões anteriores. Assim, em vez de enviar streams pesados de vídeo de um participante para o outro em tempo real, as plataformas de videochamadas podem enviar apenas dados do movimento dos principais pontos faciais da pessoa que está ligando.

No lado da pessoa que está recebendo a chamada, o modelo com GANs usa as informações para sintetizar um vídeo que imita a aparência da imagem de referência.

Ao compactar e enviar pela rede apenas a posição e os pontos principais da cabeça em vez de streams completos de vídeo, a técnica reduz em 10 vezes a largura de banda necessária para videoconferências, proporcionando ao usuário uma experiência mais fluida. É possível ajustar o modelo para que ele transmita um número maior ou menor de pontos principais e se adapte a diferentes níveis de largura de banda sem afetar a qualidade visual.

O ponto de vista do vídeo gerado com a representação também pode ser ajustado à vontade para mostrar o perfil ou o ângulo frontal do usuário, além de um ponto mais baixo ou mais alto da câmera. Este recurso também pode ser aplicado por editores de fotos que trabalham com imagens estáticas.

Os pesquisadores da Nvidia Enterprise descobriram que o Vid2Vid Cameo supera os modelos de última geração, produzindo resultados mais realistas e mais nítidos. Isso vale tanto para a imagem de referência e o vídeo da mesma pessoa quanto para a transferência do movimento de uma pessoa para a imagem de referência de outra com o auxílio da IA.

É possível usar esse último recurso para aplicar os movimentos faciais da pessoa que está falando e animar um avatar digital, conferindo expressões e movimentos realistas a uma figura de desenho animado.

O artigo sobre o Vid2Vid Cameo foi escrito pelos pesquisadores Ting-Chun Wang, Arun Mallya e Ming-Yu Liu da Nvidia Enterprise. A equipe da Nvidia Research é formada por mais de 200 cientistas de todo o mundo, especializados em áreas como IA, visão computacional, automóveis autônomos, robótica e gráficos.

A Nvidia gostaria de agradecer e dar os créditos ao ator Edan Moses (dublador do Professor na versão em inglês de “La Casa De Papel”, da Netflix) por sua contribuição para o vídeo da pesquisa mais atual em IA.

Serviço
nvidianews.nvidia.com
www.nvidia.com/pt-br

GANs

Ming-Yu Liu

Nvidia Jarvis

SDK Nvidia Maxine

Vid2Vid Cameo

videochamadas

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *


As opiniões dos artigos/colunistas aqui publicados refletem exclusivamente a posição de seu autor, não caracterizando endosso, recomendação ou favorecimento por parte da Infor Channel ou qualquer outros envolvidos na publicação. Todos os direitos reservados. É proibida qualquer forma de reutilização, distribuição, reprodução ou publicação parcial ou total deste conteúdo sem prévia autorização da Infor Channel.
Revista Digital
Edição do mês

Leia nesta edição:

Leia nessa edição sobre tecnologia

CAPA | TENDÊNCIAS

Tecnologias imersivas ganham impulso nos negócios

Leia nessa edição sobre carreira

INDÚSTRIA 4.0

Fábrica conectada

Leia nessa edição sobre setorial | saúde

SERVIÇOS

Trunfos dos menores

Esta é para você leitor da Revista Digital:

Leia nessa edição sobre sustentabilidade

TENDÊNCIAS

A casa também foi para a Nuvem

Julho| 2021 | #48 - Acesse:

Infor Channel Digital

Baixe o nosso aplicativo

Google Play
Apple Store

Agenda & Eventos

Cadastre seu Evento