book_icon

Nova tecnologia da Intel Labs cria conteúdos visuais 3D realistas

O LDM3D é o primeiro modelo a gerar um mapa de profundidade usando o processo de difusão para criar imagens 3D com visualizações de 360 ​​graus vívidas e imersivas

Nova tecnologia da Intel Labs cria conteúdos visuais 3D realistas

A Intel Labs, em colaboração com o Blockade Labs, apresentou o Latent Diffusion Model for 3D (LDM3D), um novo modelo de difusão que usa IA generativa para criar conteúdo visual 3D realista. O LDM3D é o primeiro modelo do setor a gerar um mapa de profundidade usando o processo de difusão para criar imagens 3D com visualizações de 360 ​​graus vívidas e imersivas. O LDM3D tem o potencial de revolucionar a criação de conteúdo, aplicativos para Metaversos e experiências digitais, transformando uma ampla gama de setores, desde entretenimento e jogos até arquitetura e design.

“A tecnologia de IA generativa visa aumentar e aprimorar ainda mais a criatividade humana e economizar tempo. No entanto, a maioria dos modelos atuais de IA generativa limita-se a gerar imagens 2D e apenas alguns poucos podem gerar imagens 3D a partir de prompts de texto. Ao contrário dos modelos de difusão latentes estáveis ​​existentes, o LDM3D permite aos usuários gerar uma imagem e um mapa de profundidade a partir de um determinado prompt de texto usando quase o mesmo número de parâmetros. Ele fornece profundidade relativa mais precisa para cada pixel em uma imagem em comparação com métodos de pós-processamento padrão para estimativa de profundidade e economiza tempo significativo dos desenvolvedores para desenvolver cenas”, explicou Vasudev Lal, cientista de Pesquisa IA/ML da Intel Labs.

A Intel continuará explorando o uso de IA generativa para aumentar as capacidades humanas e construir um forte ecossistema de pesquisa e desenvolvimento de IA de código aberto que democratiza o acesso a essa tecnologia

Segundo a empresa, ecossistemas fechados limitam a escala. E o compromisso da Intel com a verdadeira democratização da IA ​​permitirá um acesso mais amplo aos benefícios da IA ​​por meio de um ecossistema aberto. Uma área que teve avanços significativos nos últimos anos é o campo da visão computacional, particularmente na IA generativa. No entanto, muitos dos modelos avançados de IA generativa de hoje estão limitados a gerar apenas imagens 2D. Ao contrário dos modelos de difusão existentes, que geralmente geram apenas imagens RGB 2D a partir de prompts de texto, o LDM3D permite que os usuários gerem uma imagem e um mapa de profundidade a partir de um determinado prompt de texto. Usando quase o mesmo número de parâmetros que a difusão latente estável, o LDM3D fornece uma profundidade relativa mais precisa para cada pixel em uma imagem em comparação com os métodos de pós-processamento padrão para estimativa de profundidade.

Esta pesquisa pode revolucionar a forma como interagimos com o conteúdo digital, permitindo que os usuários experimentem seus prompts de texto de maneiras anteriormente inconcebíveis. As imagens e os mapas de profundidade gerados pelo LDM3D permitem que os usuários transformem a descrição de texto de uma praia tropical serena, um arranha-céu moderno ou um universo de ficção científica em um panorama detalhado de 360 ​​graus. Essa capacidade de capturar informações detalhadas pode aumentar instantaneamente o realismo geral e a imersão, permitindo aplicativos inovadores para setores que variam de entretenimento e jogos a design de interiores e listas de imóveis, bem como museus virtuais e experiências imersivas de Realidade Virtual (VR).

O LDM3D foi treinado em um conjunto de dados construído a partir de um subconjunto de 10 mil amostras do banco de dados LAION-400M, que contém mais de 400 milhões de pares de imagens e legendas. A equipe usou o modelo de estimativa de grande profundidade do Dense Prediction Transformer (DPT) (desenvolvido anteriormente no Intel Labs) para anotar o corpus de treinamento. O modelo DPT-grande fornece profundidade relativa altamente precisa para cada pixel em uma imagem. O conjunto de dados LAION-400M foi construído para fins de pesquisa para permitir o teste de treinamento de modelos em larga escala para pesquisadores amplos e outras comunidades interessadas.

O modelo LDM3D é treinado em um supercomputador Intel AI equipado com processadores Intel Xeon e aceleradores Intel Habana Gaudi AI. O modelo e o pipeline resultantes combinam a imagem RGB gerada e o mapa de profundidade para gerar visualizações de 360 ​​graus para experiências imersivas.

Para demonstrar o potencial do LDM3D, os pesquisadores da Intel e da Blockade desenvolveram o DepthFusion, um aplicativo que aproveita fotos 2D RGB padrão e mapas de profundidade para criar experiências de visualização imersivas e interativas em 360 graus. O DepthFusion utiliza o TouchDesigner, uma linguagem de programação visual baseada em nó para conteúdo multimídia interativo em tempo real, para transformar prompts de texto em experiências digitais interativas e imersivas. O modelo LDM3D é um modelo único para criar uma imagem RGB e seu mapa de profundidade, levando a economia no consumo de memória e melhorias de latência.

A introdução do LDM3D e do DepthFusion abre caminho para novos avanços em IA generativa multivisualização e visão computacional. A Intel continuará explorando o uso de IA generativa para aumentar as capacidades humanas e construir um forte ecossistema de pesquisa e desenvolvimento de IA de código aberto que democratiza o acesso a essa tecnologia. Continuando o forte suporte da Intel para o ecossistema aberto em IA, o LDM3D está sendo de código aberto por meio do HuggingFace. Isso permitirá que pesquisadores e profissionais de IA melhorem ainda mais esse sistema e o ajustem para aplicativos personalizados.

Serviço
www.intel.com

Últimas Notícias
Você também pode gostar
As opiniões dos artigos/colunistas aqui publicados refletem exclusivamente a posição de seu autor, não caracterizando endosso, recomendação ou favorecimento por parte da Infor Channel ou qualquer outros envolvidos na publicação. Todos os direitos reservados. É proibida qualquer forma de reutilização, distribuição, reprodução ou publicação parcial ou total deste conteúdo sem prévia autorização da Infor Channel.