book_icon

GenAI multimodal fornece interação aprimorada entre humanos e IA, diz Gartner

Quarenta por cento das soluções de IA generativa serão multimodais, combinando texto, imagem, áudio e vídeo, até 2027, acima dos 1% em 2023, revela estudo

GenAI multimodal fornece interação aprimorada entre humanos e IA, diz Gartner

Quarenta por cento das soluções de IA generativa (GenAI) serão multimodais (texto, imagem, áudio e vídeo) até 2027, acima dos 1% em 2023, de acordo com o Gartner. Essa mudança de modelos individuais para multimodais fornece uma interação aprimorada entre humanos e IA e uma oportunidade para que as ofertas habilitadas para GenAI sejam diferenciadas.

“À medida que o mercado GenAI evolui para modelos treinados nativamente em mais de uma modalidade, isso ajuda a capturar relacionamentos entre diferentes fluxos de dados e tem o potencial de dimensionar os benefícios do GenAI em todos os tipos de dados e aplicações. Também permite que a IA apoie os humanos na execução de mais tarefas, independentemente do ambiente”, disse Erick Brethenoux, Distinguished VP Analyst do Gartner.

Agentes autônomos são sistemas combinados que atingem objetivos definidos sem intervenção humana. Eles usam uma variedade de técnicas de IA para identificar padrões em seu ambiente, tomar decisões, invocar uma sequência de ações e gerar saídas

A GenAI multimodal é uma das duas tecnologias identificadas no Gartner Hype Cycle for Generative AI de 2024, onde a adoção antecipada tem potencial para levar a uma vantagem competitiva notável e benefícios de tempo de lançamento no mercado. Juntamente com os modelos de linguagem grande (LLMs) de código aberto, ambas as tecnologias têm alto potencial de impacto nas organizações nos próximos cinco anos.

Entre as inovações GenAI que o Gartner espera que alcancem a adoção geral dentro de 10 anos, duas tecnologias foram identificadas como oferecendo o maior potencial – modelos GenAI específicos de domínio e agentes autônomos.

“Navegar no ecossistema GenAI continuará a ser esmagador para as empresas devido a um ecossistema caótico e rápido de tecnologias e fornecedores”, disse Arun Chandrasekaran, Distinguished VP Analyst do Gartner. “A GenAI está no vale da desilusão com o início da consolidação da indústria. Benefícios reais surgirão assim que o hype diminuir, com avanços nas capacidades que provavelmente virão em ritmo acelerado nos próximos anos”, completou.

A GenAI multimodal terá um impacto transformacional nos aplicativos corporativos, permitindo a adição de novos recursos e funcionalidades que, de outra forma, seriam inatingíveis. O impacto não se limita a setores ou casos de uso específicos e pode ser aplicado em qualquer ponto de contato entre IA e humanos. Hoje, muitos modelos multimodais estão limitados a duas ou três modalidades, embora isso aumente nos próximos anos para incluir mais.

“No mundo real, as pessoas encontram e compreendem informações por meio de uma combinação de diferentes modalidades, como áudio, visual e detecção”, disse Brethenoux. “A GenAI multimodal é importante porque os dados são tipicamente multimodais. Quando modelos de modalidade única são combinados ou montados para oferecer suporte a aplicativos GenAI multimodais, isso geralmente leva à latência e resultados menos precisos, resultando em uma experiência de qualidade inferior”, completou.

LLMs de código aberto

Os LLMs de código aberto são modelos básicos de aprendizado profundo que aceleram o valor da empresa a partir da implementação do GenAI, democratizando o acesso comercial e permitindo que os desenvolvedores otimizem modelos para tarefas e casos de uso específicos. Além disso, eles fornecem acesso a comunidades de desenvolvedores em empresas, academia e outras funções de pesquisa que estão trabalhando em direção a objetivos comuns para melhorar e tornar os modelos mais valiosos.

“Os LLMs de código aberto aumentam o potencial de inovação por meio da personalização, melhor controle sobre privacidade e segurança, transparência do modelo, capacidade de alavancar o desenvolvimento colaborativo e potencial para reduzir o aprisionamento do fornecedor”, disse Chandrasekaran. “Em última análise, eles oferecem às empresas modelos menores que são mais fáceis e menos dispendiosos de treinar e permitem aplicativos de negócios e processos de negócios principais”, comentou.

Modelos GenAI específicos de domínio

Os modelos GenAI específicos de domínio são otimizados para as necessidades de setores, funções de negócios ou tarefas específicas. Eles podem melhorar o alinhamento de casos de uso dentro da empresa, ao mesmo tempo em que oferecem maior precisão, segurança e privacidade, bem como respostas mais bem contextualizadas. Isso reduz a necessidade de engenharia avançada em comparação com modelos de uso geral e pode reduzir os riscos de alucinação por meio de treinamento direcionado.

“Os modelos específicos de domínio podem alcançar um tempo de retorno mais rápido, desempenho aprimorado e segurança aprimorada para projetos de IA, fornecendo um ponto de partida mais avançado para tarefas específicas do setor”, disse Chandrasekaran. “Isso incentivará uma adoção mais ampla do GenAI porque as organizações poderão aplicá-los a casos de uso em que os modelos de uso geral não têm desempenho suficiente.”

Agentes autônomos

Agentes autônomos são sistemas combinados que atingem objetivos definidos sem intervenção humana. Eles usam uma variedade de técnicas de IA para identificar padrões em seu ambiente, tomar decisões, invocar uma sequência de ações e gerar saídas. Esses agentes têm o potencial de aprender com seu ambiente e melhorar com o tempo, permitindo que lidem com tarefas complexas.

“Os agentes autônomos representam uma mudança significativa nas capacidades de IA”, disse Brethenoux. “Suas capacidades independentes de operação e decisão permitem que eles melhorem as operações de negócios, aprimorem as experiências do cliente e habilitem novos produtos e serviços. Isso provavelmente proporcionará economia de custos, garantindo uma vantagem competitiva. Também representa uma mudança da força de trabalho organizacional da entrega para a supervisão”, finalizou.

 

Últimas Notícias
Você também pode gostar
As opiniões dos artigos/colunistas aqui publicados refletem exclusivamente a posição de seu autor, não caracterizando endosso, recomendação ou favorecimento por parte da Infor Channel ou qualquer outros envolvidos na publicação. Todos os direitos reservados. É proibida qualquer forma de reutilização, distribuição, reprodução ou publicação parcial ou total deste conteúdo sem prévia autorização da Infor Channel.