
A NEC Corporation anunciou que desenvolveu uma tecnologia de IA capaz de reconhecer e digitalizar as tarefas dos trabalhadores sem pré-treinamento ao utilizar vídeo em locais de trabalho de área ampla por meio de várias câmeras, incluindo armazéns de distribuição, fábricas e canteiros de obras.
Como essa tecnologia pode ser instalada imediatamente em locais de trabalho industriais, ela contribuirá para a visualização de trabalho inteiros, o que antes não era possível, melhorando assim a produtividade, otimizando a alocação de recursos humanos e agilizando os fluxos de trabalho. A NEC pretende comercializar essa tecnologia até o ano fiscal de 2026.
Embora a escassez de mão de obra esteja se intensificando em armazéns de distribuição, fábricas, canteiros de obras e outros locais de trabalho industriais, muitos processos dependentes do trabalho manual permanecem. Como tal, há uma demanda crescente para otimizar a alocação de pessoal e processos de trabalho, visualizando as condições de trabalho para utilizar a força de trabalho limitada de forma mais eficaz. Embora já exista tecnologia para reconhecer tarefas de trabalho a partir de vídeo, a fim de reconhecer tarefas específicas nos locais de trabalho, muito tempo e esforço foram necessários para os preparativos, incluindo a coleta de dados de vídeo e o treinamento de modelos de IA.
Além disso, para digitalizar tarefas de trabalho em um local de trabalho de área ampla inteira usando várias câmeras, os trabalhadores devem ser identificados em vídeo de todas as câmeras e os resultados do reconhecimento de tarefas de trabalho devem ser consolidados para cada trabalhador. Com a tecnologia convencional, no entanto, tem sido um desafio distinguir com precisão os trabalhadores que usam uniformes idênticos e continuar identificando a mesma pessoa sem erros em várias câmeras.
As características da tecnologia recém desenvolvida da NEC são as seguintes:
1. Pode ser instalado imediatamente, pois é capaz de reconhecer tarefas de trabalho em vídeo apenas a partir da entrada de texto
Utilizando um modelo de linguagem de visão (VLM), a NEC desenvolveu uma tecnologia de IA capaz de reconhecer uma ampla variedade de tarefas de trabalho sem a necessidade de pré-treinamento e uso de dados de vídeo. O reconhecimento requer simplesmente a entrada de texto explicando tarefas de trabalho individuais, como “recuperar pacotes de uma prateleira” para tarefas de separação ou “empurrar um carrinho para transportar itens” para tarefas de transporte de carrinho.
No passado, o reconhecimento de tarefas de trabalho exigia a coleta e anotação de dados de vídeo e a realização de treinamento de modelos de IA, que podiam levar várias semanas para serem concluídos. Além disso, identificar objetos relevantes com os quais os trabalhadores interagem ou operam tem se mostrado convencionalmente difícil, portanto, reconhecer tarefas de vídeo em locais industriais onde vários objetos estão misturados tem sido um desafio.
Essa tecnologia primeiro (A) utiliza o VLM com antecedência para analisar e extrair recursos da entrada de texto que descrevem tarefas de trabalho individuais. Ao analisar o vídeo, essa tecnologia (B) identifica os objetos relevantes com os quais um trabalhador interage ou opera usando um modelo de IA proprietário para capturar relacionamentos entre pessoas e objetos e, em seguida, utiliza o VLM para extrair recursos de imagens contendo o trabalhador e os objetos identificados. Ao comparar e combinar os recursos extraídos em (A) e (B), as tarefas de trabalho podem ser reconhecidas apenas pela entrada de texto.
2. Contribui para a otimização de locais de trabalho de área ampla por meio da digitalização do movimento do trabalhador e das tarefas de trabalho
A utilização de várias câmeras contribui para a otimização do trabalho no local, identificando os trabalhadores que se deslocam por todo o local sem depender de roupas ou outras características visuais e digitalizando as tarefas de trabalho de cada trabalhador por um longo período de tempo em todo o local de trabalho.
Ao estimar a localização de trabalhadores individuais em um espaço de gêmeo digital (coordenadas tridimensionais), referenciando as localizações dos trabalhadores visíveis em cada imagem da câmera (coordenadas bidimensionais) e medindo a proximidade de suas localizações e padrões de movimento em um gêmeo digital, essa tecnologia possibilita identificar a mesma pessoa em várias câmeras com um alto grau de precisão. Além disso, como os parâmetros da câmera (ou seja, posição e orientação da câmera) necessários para estimar a localização dos trabalhadores são estimados automaticamente, o tempo e o esforço necessários para a instalação no local podem ser minimizados.

Leia nesta edição:

CAPA - TECNOLOGIA
Arquitetura neuromórfica, a plataforma inspirada no cérebro humano

MERCADO
O bom negócio da locação de equipamentos de TI

SEGURANÇA DIGITAL
Dilemas e oportunidades de blockchain para identidade
EXCLUSIVA DIGITAL

VERSÃO LATAM
Agora a versão digital também é LATAM
Baixe o nosso aplicativo














