Nova tecnologia da Intel Labs cria conteúdos visuais 3D realistas

A Intel Labs, em colaboração com o Blockade Labs, apresentou o Latent Diffusion Model for 3D (LDM3D), um novo modelo de difusão que usa IA generativa para criar conteúdo visual 3D realista. O LDM3D é o primeiro modelo do setor a gerar um mapa de profundidade usando o processo de difusão para criar imagens 3D com visualizações de 360 graus vívidas e imersivas. O LDM3D tem o potencial de revolucionar a criação de conteúdo, aplicativos para Metaversos e experiências digitais, transformando uma ampla gama de setores, desde entretenimento e jogos até arquitetura e design.

“A tecnologia de IA generativa visa aumentar e aprimorar ainda mais a criatividade humana e economizar tempo. No entanto, a maioria dos modelos atuais de IA generativa limita-se a gerar imagens 2D e apenas alguns poucos podem gerar imagens 3D a partir de prompts de texto. Ao contrário dos modelos de difusão latentes estáveis existentes, o LDM3D permite aos usuários gerar uma imagem e um mapa de profundidade a partir de um determinado prompt de texto usando quase o mesmo número de parâmetros. Ele fornece profundidade relativa mais precisa para cada pixel em uma imagem em comparação com métodos de pós-processamento padrão para estimativa de profundidade e economiza tempo significativo dos desenvolvedores para desenvolver cenas”, explicou Vasudev Lal, cientista de Pesquisa IA/ML da Intel Labs.

A Intel continuará explorando o uso de IA generativa para aumentar as capacidades humanas e construir um forte ecossistema de pesquisa e desenvolvimento de IA de código aberto que democratiza o acesso a essa tecnologia

Segundo a empresa, ecossistemas fechados limitam a escala. E o compromisso da Intel com a verdadeira democratização da IA permitirá um acesso mais amplo aos benefícios da IA por meio de um ecossistema aberto. Uma área que teve avanços significativos nos últimos anos é o campo da visão computacional, particularmente na IA generativa. No entanto, muitos dos modelos avançados de IA generativa de hoje estão limitados a gerar apenas imagens 2D. Ao contrário dos modelos de difusão existentes, que geralmente geram apenas imagens RGB 2D a partir de prompts de texto, o LDM3D permite que os usuários gerem uma imagem e um mapa de profundidade a partir de um determinado prompt de texto. Usando quase o mesmo número de parâmetros que a difusão latente estável, o LDM3D fornece uma profundidade relativa mais precisa para cada pixel em uma imagem em comparação com os métodos de pós-processamento padrão para estimativa de profundidade.

Esta pesquisa pode revolucionar a forma como interagimos com o conteúdo digital, permitindo que os usuários experimentem seus prompts de texto de maneiras anteriormente inconcebíveis. As imagens e os mapas de profundidade gerados pelo LDM3D permitem que os usuários transformem a descrição de texto de uma praia tropical serena, um arranha-céu moderno ou um universo de ficção científica em um panorama detalhado de 360 graus. Essa capacidade de capturar informações detalhadas pode aumentar instantaneamente o realismo geral e a imersão, permitindo aplicativos inovadores para setores que variam de entretenimento e jogos a design de interiores e listas de imóveis, bem como museus virtuais e experiências imersivas de Realidade Virtual (VR).

O LDM3D foi treinado em um conjunto de dados construído a partir de um subconjunto de 10 mil amostras do banco de dados LAION-400M, que contém mais de 400 milhões de pares de imagens e legendas. A equipe usou o modelo de estimativa de grande profundidade do Dense Prediction Transformer (DPT) (desenvolvido anteriormente no Intel Labs) para anotar o corpus de treinamento. O modelo DPT-grande fornece profundidade relativa altamente precisa para cada pixel em uma imagem. O conjunto de dados LAION-400M foi construído para fins de pesquisa para permitir o teste de treinamento de modelos em larga escala para pesquisadores amplos e outras comunidades interessadas.

O modelo LDM3D é treinado em um supercomputador Intel AI equipado com processadores Intel Xeon e aceleradores Intel Habana Gaudi AI. O modelo e o pipeline resultantes combinam a imagem RGB gerada e o mapa de profundidade para gerar visualizações de 360 graus para experiências imersivas.

Para demonstrar o potencial do LDM3D, os pesquisadores da Intel e da Blockade desenvolveram o DepthFusion, um aplicativo que aproveita fotos 2D RGB padrão e mapas de profundidade para criar experiências de visualização imersivas e interativas em 360 graus. O DepthFusion utiliza o TouchDesigner, uma linguagem de programação visual baseada em nó para conteúdo multimídia interativo em tempo real, para transformar prompts de texto em experiências digitais interativas e imersivas. O modelo LDM3D é um modelo único para criar uma imagem RGB e seu mapa de profundidade, levando a economia no consumo de memória e melhorias de latência.

A introdução do LDM3D e do DepthFusion abre caminho para novos avanços em IA generativa multivisualização e visão computacional. A Intel continuará explorando o uso de IA generativa para aumentar as capacidades humanas e construir um forte ecossistema de pesquisa e desenvolvimento de IA de código aberto que democratiza o acesso a essa tecnologia. Continuando o forte suporte da Intel para o ecossistema aberto em IA, o LDM3D está sendo de código aberto por meio do HuggingFace. Isso permitirá que pesquisadores e profissionais de IA melhorem ainda mais esse sistema e o ajustem para aplicativos personalizados.

Serviço
www.intel.com

3D Blockade Labs IA generativa Intel Labs Latent Diffusion Model for 3D LDM3D Metaverso

As opiniões dos artigos/colunistas aqui publicados refletem exclusivamente a posição de seu autor, não caracterizando endosso, recomendação ou favorecimento por parte da Infor Channel ou qualquer outros envolvidos na publicação. Todos os direitos reservados. É proibida qualquer forma de reutilização, distribuição, reprodução ou publicação parcial ou total deste conteúdo sem prévia autorização da Infor Channel.

Nova tecnologia da Intel Labs cria conteúdos visuais 3D realistas

Instituto Atlântico abre inscrições para a 2ª Formação Estratégica em Design de F...

Observatório brasileiro de Inteligência Artificial terá site no ar em maio

Manhattan Associates escolhe TeamViewer como parceiro para Warehouse Vision Picking

Instituto Atlântico abre inscrições para a 2ª Formação Estratégica em Design de Futuro...

Instituto Atlântico abre inscrições para a 2ª Formação Estratégica em Design de Futuros

Observatório brasileiro de Inteligência Artificial terá site no ar em maio

Observatório brasileiro de Inteligência Artificial terá site no ar em maio

Manhattan Associates escolhe TeamViewer como parceiro para Warehouse Vision Picking

Manhattan Associates escolhe TeamViewer como parceiro para Warehouse Vision Picking

Digitate lança solução para produtividade do service desk

Red Hat reduz as barreiras para a adoção da Nuvem híbrida

Pesquisa revela que 80% das empresas ainda não se adequaram à LGPD

Digitate lança solução para produtividade do service desk

Digitate lança solução para produtividade do service desk

Red Hat reduz as barreiras para a adoção da Nuvem híbrida

Red Hat reduz as barreiras para a adoção da Nuvem híbrida

Pesquisa revela que 80% das empresas ainda não se adequaram à LGPD

Pesquisa revela que 80% das empresas ainda não se adequaram à LGPD

Agenda & Eventos

Compartilhar:

Instituto Atlântico abre inscrições para a 2ª Formação Estratégica em Design de F...

Observatório brasileiro de Inteligência Artificial terá site no ar em maio

Manhattan Associates escolhe TeamViewer como parceiro para Warehouse Vision Picking

Instituto Atlântico abre inscrições para a 2ª Formação Estratégica em Design de Futuro...

Instituto Atlântico abre inscrições para a 2ª Formação Estratégica em Design de Futuros

Observatório brasileiro de Inteligência Artificial terá site no ar em maio

Observatório brasileiro de Inteligência Artificial terá site no ar em maio

Manhattan Associates escolhe TeamViewer como parceiro para Warehouse Vision Picking

Manhattan Associates escolhe TeamViewer como parceiro para Warehouse Vision Picking

Digitate lança solução para produtividade do service desk

Red Hat reduz as barreiras para a adoção da Nuvem híbrida

Pesquisa revela que 80% das empresas ainda não se adequaram à LGPD

Digitate lança solução para produtividade do service desk

Digitate lança solução para produtividade do service desk

Red Hat reduz as barreiras para a adoção da Nuvem híbrida

Red Hat reduz as barreiras para a adoção da Nuvem híbrida

Pesquisa revela que 80% das empresas ainda não se adequaram à LGPD

Pesquisa revela que 80% das empresas ainda não se adequaram à LGPD

Agenda & Eventos

Informe seu e-mail para receber os destaques da semana.