A Intel Labs, em colaboração com o Blockade Labs, apresentou o Latent Diffusion Model for 3D (LDM3D), um novo modelo de difusão que usa IA generativa para criar conteúdo visual 3D realista. O LDM3D é o primeiro modelo do setor a gerar um mapa de profundidade usando o processo de difusão para criar imagens 3D com visualizações de 360 graus vívidas e imersivas. O LDM3D tem o potencial de revolucionar a criação de conteúdo, aplicativos para Metaversos e experiências digitais, transformando uma ampla gama de setores, desde entretenimento e jogos até arquitetura e design.
“A tecnologia de IA generativa visa aumentar e aprimorar ainda mais a criatividade humana e economizar tempo. No entanto, a maioria dos modelos atuais de IA generativa limita-se a gerar imagens 2D e apenas alguns poucos podem gerar imagens 3D a partir de prompts de texto. Ao contrário dos modelos de difusão latentes estáveis existentes, o LDM3D permite aos usuários gerar uma imagem e um mapa de profundidade a partir de um determinado prompt de texto usando quase o mesmo número de parâmetros. Ele fornece profundidade relativa mais precisa para cada pixel em uma imagem em comparação com métodos de pós-processamento padrão para estimativa de profundidade e economiza tempo significativo dos desenvolvedores para desenvolver cenas”, explicou Vasudev Lal, cientista de Pesquisa IA/ML da Intel Labs.
Segundo a empresa, ecossistemas fechados limitam a escala. E o compromisso da Intel com a verdadeira democratização da IA permitirá um acesso mais amplo aos benefícios da IA por meio de um ecossistema aberto. Uma área que teve avanços significativos nos últimos anos é o campo da visão computacional, particularmente na IA generativa. No entanto, muitos dos modelos avançados de IA generativa de hoje estão limitados a gerar apenas imagens 2D. Ao contrário dos modelos de difusão existentes, que geralmente geram apenas imagens RGB 2D a partir de prompts de texto, o LDM3D permite que os usuários gerem uma imagem e um mapa de profundidade a partir de um determinado prompt de texto. Usando quase o mesmo número de parâmetros que a difusão latente estável, o LDM3D fornece uma profundidade relativa mais precisa para cada pixel em uma imagem em comparação com os métodos de pós-processamento padrão para estimativa de profundidade.
Esta pesquisa pode revolucionar a forma como interagimos com o conteúdo digital, permitindo que os usuários experimentem seus prompts de texto de maneiras anteriormente inconcebíveis. As imagens e os mapas de profundidade gerados pelo LDM3D permitem que os usuários transformem a descrição de texto de uma praia tropical serena, um arranha-céu moderno ou um universo de ficção científica em um panorama detalhado de 360 graus. Essa capacidade de capturar informações detalhadas pode aumentar instantaneamente o realismo geral e a imersão, permitindo aplicativos inovadores para setores que variam de entretenimento e jogos a design de interiores e listas de imóveis, bem como museus virtuais e experiências imersivas de Realidade Virtual (VR).
O LDM3D foi treinado em um conjunto de dados construído a partir de um subconjunto de 10 mil amostras do banco de dados LAION-400M, que contém mais de 400 milhões de pares de imagens e legendas. A equipe usou o modelo de estimativa de grande profundidade do Dense Prediction Transformer (DPT) (desenvolvido anteriormente no Intel Labs) para anotar o corpus de treinamento. O modelo DPT-grande fornece profundidade relativa altamente precisa para cada pixel em uma imagem. O conjunto de dados LAION-400M foi construído para fins de pesquisa para permitir o teste de treinamento de modelos em larga escala para pesquisadores amplos e outras comunidades interessadas.
O modelo LDM3D é treinado em um supercomputador Intel AI equipado com processadores Intel Xeon e aceleradores Intel Habana Gaudi AI. O modelo e o pipeline resultantes combinam a imagem RGB gerada e o mapa de profundidade para gerar visualizações de 360 graus para experiências imersivas.
Para demonstrar o potencial do LDM3D, os pesquisadores da Intel e da Blockade desenvolveram o DepthFusion, um aplicativo que aproveita fotos 2D RGB padrão e mapas de profundidade para criar experiências de visualização imersivas e interativas em 360 graus. O DepthFusion utiliza o TouchDesigner, uma linguagem de programação visual baseada em nó para conteúdo multimídia interativo em tempo real, para transformar prompts de texto em experiências digitais interativas e imersivas. O modelo LDM3D é um modelo único para criar uma imagem RGB e seu mapa de profundidade, levando a economia no consumo de memória e melhorias de latência.
A introdução do LDM3D e do DepthFusion abre caminho para novos avanços em IA generativa multivisualização e visão computacional. A Intel continuará explorando o uso de IA generativa para aumentar as capacidades humanas e construir um forte ecossistema de pesquisa e desenvolvimento de IA de código aberto que democratiza o acesso a essa tecnologia. Continuando o forte suporte da Intel para o ecossistema aberto em IA, o LDM3D está sendo de código aberto por meio do HuggingFace. Isso permitirá que pesquisadores e profissionais de IA melhorem ainda mais esse sistema e o ajustem para aplicativos personalizados.
Serviço
www.intel.com
Leia nesta edição:
CAPA | TECNOLOGIA
Centros de Dados privados ainda geram bons negócios
TENDÊNCIA
Processadores ganham centralidade com IA
TIC APLICADA
Digitalização do canteiro de obras
Esta você só vai ler na versão digital
TECNOLOGIA
A tecnologia RFID está madura, mas há espaço para crescimento
Baixe o nosso aplicativo