book_icon

Intel Labs avança em visão computacional com novos modelos de IA

Os modelos de IA de código aberto VI-Depth 1.0 e MiDaS 3.1 melhoram a estimativa de profundidade para visão computacional e agora estão disponíveis no GitHub

Intel Labs avança em visão computacional com novos modelos de IA

A estimativa de profundidade é uma tarefa desafiadora de visão computacional, necessária para criar uma ampla gama de aplicações em robótica, Realidade Aumentada (AR) e Realidade Virtual (VR). As soluções existentes muitas vezes lutam para estimar corretamente as distâncias, o que é um aspecto crucial para ajudar a planejar o movimento e evitar obstáculos quando se trata de navegação visual. Pesquisadores do Intel Labs estão abordando esse problema lançando dois modelos de IA para estimativa de profundidade monocular: um para estimativa de profundidade visual inercial e outro para estimativa robusta de profundidade relativa (RDE).

A combinação de fontes de dados permite que o VI-Depth gere profundidade métrica densa mais confiável para cada pixel em uma imagem

O modelo RDE mais recente, o MiDaS versão 3.1, prevê uma profundidade relativa robusta usando apenas uma única imagem como entrada. Devido ao seu treinamento em um conjunto de dados grande e diversificado, ele pode executar com eficiência uma ampla gama de tarefas e ambientes. A versão mais recente do MiDaS melhora a precisão do modelo para RDE em cerca de 30% com seu conjunto de treinamento maior e backbones de codificador atualizados.

O MiDaS foi incorporado a muitos projetos, principalmente o Stable Diffusion 2.0, em que permite o recurso de profundidade para imagem que infere a profundidade de uma imagem de entrada e, em seguida, gera novas imagens usando o texto e as informações de profundidade. Por exemplo, o criador digital Scottie Fox usou uma combinação de Stable Diffusion e MiDaS para criar um ambiente VR de 360 ​​graus. Essa tecnologia pode levar a novos aplicativos virtuais, incluindo a reconstrução da cena do crime para processos judiciais, ambientes terapêuticos para cuidados com a saúde e experiências de jogos imersivas.

Embora o RDE tenha boa capacidade de generalização e seja útil, a falta de escala diminui sua utilidade para tarefas posteriores que exigem profundidade métrica, como mapeamento, planejamento, navegação, reconhecimento de objetos, reconstrução 3D e edição de imagens. Pesquisadores do Intel Labs estão abordando esse problema lançando o VI-Depth, outro modelo de IA que fornece estimativa de profundidade precisa.

O VI-Depth é um pipeline de estimativa de profundidade visual inercial que integra estimativa de profundidade monocular e odometria visual inercial (VIO) para produzir estimativas de profundidade densa com uma escala métrica. Essa abordagem fornece estimativa de profundidade precisa, o que pode ajudar na reconstrução da cena, mapeamento e manipulação de objetos.

A incorporação de dados inerciais pode ajudar a resolver a ambiguidade da escala. A maioria dos dispositivos móveis já contém unidades de medida inercial (IMUs). O alinhamento global determina a escala global apropriada, enquanto o alinhamento de escala densa (SML) opera localmente e empurra ou puxa regiões para a profundidade métrica correta. A rede SML aproveita o MiDaS como um backbone de codificador. No pipeline modular, o VI-Depth combina a estimativa de profundidade baseada em dados com o modelo de previsão de profundidade relativa MiDaS, juntamente com a unidade de medição do sensor IMU. A combinação de fontes de dados permite que o VI-Depth gere profundidade métrica densa mais confiável para cada pixel em uma imagem.

MiDaS 3.1 e VI-Depth 1.0 estão disponíveis sob uma licença MIT de código aberto no GitHub.

Serviço
www.intel.com

Últimas Notícias
Você também pode gostar
As opiniões dos artigos/colunistas aqui publicados refletem exclusivamente a posição de seu autor, não caracterizando endosso, recomendação ou favorecimento por parte da Infor Channel ou qualquer outros envolvidos na publicação. Todos os direitos reservados. É proibida qualquer forma de reutilização, distribuição, reprodução ou publicação parcial ou total deste conteúdo sem prévia autorização da Infor Channel.