A estimativa de profundidade é uma tarefa desafiadora de visão computacional, necessária para criar uma ampla gama de aplicações em robótica, Realidade Aumentada (AR) e Realidade Virtual (VR). As soluções existentes muitas vezes lutam para estimar corretamente as distâncias, o que é um aspecto crucial para ajudar a planejar o movimento e evitar obstáculos quando se trata de navegação visual. Pesquisadores do Intel Labs estão abordando esse problema lançando dois modelos de IA para estimativa de profundidade monocular: um para estimativa de profundidade visual inercial e outro para estimativa robusta de profundidade relativa (RDE).
O modelo RDE mais recente, o MiDaS versão 3.1, prevê uma profundidade relativa robusta usando apenas uma única imagem como entrada. Devido ao seu treinamento em um conjunto de dados grande e diversificado, ele pode executar com eficiência uma ampla gama de tarefas e ambientes. A versão mais recente do MiDaS melhora a precisão do modelo para RDE em cerca de 30% com seu conjunto de treinamento maior e backbones de codificador atualizados.
O MiDaS foi incorporado a muitos projetos, principalmente o Stable Diffusion 2.0, em que permite o recurso de profundidade para imagem que infere a profundidade de uma imagem de entrada e, em seguida, gera novas imagens usando o texto e as informações de profundidade. Por exemplo, o criador digital Scottie Fox usou uma combinação de Stable Diffusion e MiDaS para criar um ambiente VR de 360 graus. Essa tecnologia pode levar a novos aplicativos virtuais, incluindo a reconstrução da cena do crime para processos judiciais, ambientes terapêuticos para cuidados com a saúde e experiências de jogos imersivas.
Embora o RDE tenha boa capacidade de generalização e seja útil, a falta de escala diminui sua utilidade para tarefas posteriores que exigem profundidade métrica, como mapeamento, planejamento, navegação, reconhecimento de objetos, reconstrução 3D e edição de imagens. Pesquisadores do Intel Labs estão abordando esse problema lançando o VI-Depth, outro modelo de IA que fornece estimativa de profundidade precisa.
O VI-Depth é um pipeline de estimativa de profundidade visual inercial que integra estimativa de profundidade monocular e odometria visual inercial (VIO) para produzir estimativas de profundidade densa com uma escala métrica. Essa abordagem fornece estimativa de profundidade precisa, o que pode ajudar na reconstrução da cena, mapeamento e manipulação de objetos.
A incorporação de dados inerciais pode ajudar a resolver a ambiguidade da escala. A maioria dos dispositivos móveis já contém unidades de medida inercial (IMUs). O alinhamento global determina a escala global apropriada, enquanto o alinhamento de escala densa (SML) opera localmente e empurra ou puxa regiões para a profundidade métrica correta. A rede SML aproveita o MiDaS como um backbone de codificador. No pipeline modular, o VI-Depth combina a estimativa de profundidade baseada em dados com o modelo de previsão de profundidade relativa MiDaS, juntamente com a unidade de medição do sensor IMU. A combinação de fontes de dados permite que o VI-Depth gere profundidade métrica densa mais confiável para cada pixel em uma imagem.
MiDaS 3.1 e VI-Depth 1.0 estão disponíveis sob uma licença MIT de código aberto no GitHub.
Serviço
www.intel.com
Leia nesta edição:
CAPA | TECNOLOGIA
Centros de Dados privados ainda geram bons negócios
TENDÊNCIA
Processadores ganham centralidade com IA
TIC APLICADA
Digitalização do canteiro de obras
Esta você só vai ler na versão digital
TECNOLOGIA
A tecnologia RFID está madura, mas há espaço para crescimento
Baixe o nosso aplicativo