A Nvidia lançou o framework Jarvis, que oferece a desenvolvedores modelos pré-treinados de Deep Learning e ferramentas de software de última geração para criar serviços interativos de IA de conversação que podem ser adaptados a todos os setores e domínios com facilidade. Com bilhões de horas de chamadas telefônicas, reuniões virtuais e broadcast de conteúdo em vídeo gerado diariamente, os modelos do Jarvis oferecem reconhecimento automático de fala extremamente preciso, compreensão de linguagem humana, tradução para vários idiomas em tempo real e novos recursos de conversão de texto em fala para criar agentes expressivos de IA de conversação.
Utilizando a aceleração da GPU, o pipeline completo de voz pode ser executado em menos de 100 milissegundos – ouvindo, compreendendo e gerando uma resposta mais rápida do que o piscar de um olho humano – e pode ser implementada em Cloud, Data Center ou Edge, escalando instantaneamente para milhões de usuários.
“A IA de conversação é, de várias formas, a melhor IA. Com os avanços de Deep Learning no reconhecimento de fala, na compreensão de linguagem e na síntese de fala, é possível oferecer serviços atrativos em cloud. O Jarvis tira essa IA de conversação de última geração do Cloud para que os clientes hospedem serviços de IA em qualquer lugar”, afirma Jensen Huang, fundador e CEO da Nvidia.
Segundo a empresa, o Jarvis possibilitará uma nova geração de aplicações baseadas em linguagem que antes eram impossíveis, melhorando as interações com humanos e máquinas. Ele abre as portas para a criação de serviços como enfermeiros digitais para ajudar a monitorar pacientes 24 horas por dia, aliviando a sobrecarga da equipe médica; assistentes online para identificar o que os consumidores estão procurando e recomendar os melhores produtos; e traduções em tempo real para aumentar a colaboração entre equipes de trabalho de locais diferentes e oferecer a espectadores conteúdo ao vivo no idioma deles.
“Já estamos vivendo a era da Inteligência Artificial. A IA de conversação é um dos principais tópicos do momento, que deve crescer ainda mais nos próximos anos. Já estamos em contato com empresas e startups brasileiras para aprimorar ainda mais essa tecnologia no idioma local”, conta Marcio Aguiar, diretor da Nvidia Enterprise para América Latina.
O Jarvis foi criado usando modelos treinados por GPUs durante milhões de horas com mais de 1 bilhão de páginas de texto, 60 mil horas de dados de fala e em diferentes idiomas, sotaques, ambientes e dialetos para garantir máxima precisão. Pela primeira vez, os desenvolvedores podem usar o framework Nvidia TAO para treinar, adaptar e otimizar esses modelos para todas as tarefas e setores em qualquer sistema com facilidade.
Os desenvolvedores podem selecionar um modelo Jarvis pré-treinado do catálogo NGC da Nvidia, ajustá-lo usando seus próprios dados com o Transfer Learning Toolkit da Nvidia, otimizá-lo para o máximo rendimento e mínima latência em serviços de voz em tempo real e, em seguida, implantar facilmente o modelo com apenas algumas linhas de código para que não haja necessidade de conhecimentos profundos de IA.
Amplo suporte do setor
Desde o início do programa de acesso do Jarvis em maio passado, milhares de empresas pediram para participar. Um dos primeiros usuários é a T-Mobile, a gigante de telecomunicações dos EUA, que recorreu à IA para melhorar ainda mais seus produtos de Machine Learning (ML) e ao processamento de linguagem natural para oferecer informações e recomendações em tempo real.
“Com os serviços do Nvidia Jarvis, ajustados com os dados da T-Mobile, estamos criando produtos para nos ajudar a resolver os problemas dos clientes em tempo real. Depois de avaliar várias soluções automáticas de reconhecimento de fala, a T-Mobile viu que o Jarvis oferece um modelo de qualidade com latência extremamente baixa, possibilitando experiências que nossos clientes adoram”, declara Matthew Davis, vice-presidente de Produtos e Tecnologia da T-Mobile.
A Nvidia também fez uma parceria com o Mozilla Common Voice, um conjunto livre de dados de voz que startups, pesquisadores e desenvolvedores podem usar para treinar aplicações, serviços e dispositivos acionados por voz. O maior conjunto de dados de voz em diversos idiomas do mundo, de domínio público, a Common Voice contém mais de 9 mil horas de dados de voz em 60 idiomas diferentes. A Nvidia está usando o Jarvis para desenvolver modelos pré-treinados com o conjunto de dados e disponibilizá-los para a comunidade gratuitamente.
“Lançamos o Common Voice para ensinar às máquinas como as pessoas falam de verdade em seus idiomas, sotaques e padrões de fala únicos. A Nvidia e a Mozilla visam democratizar a tecnologia de voz e garantir que ela represente a ampla diversidade de pessoas e vozes presentes na Internet”, comenta Mark Surman, diretor executivo da Mozilla.
As ferramentas de IA de conversação da Nvidia tiveram mais de 45 mil downloads. É possível usá-los com a tecnologia de centenas de parceiros e o conteúdo de bibliotecas de software líderes. Dessa forma, desenvolvedores de todo o mundo podem criar aplicações de IA de conversação inovadoras e intuitivas.
Serviço
www.nvidia.com
Leia nesta edição:
CAPA | TECNOLOGIA
Centros de Dados privados ainda geram bons negócios
TENDÊNCIA
Processadores ganham centralidade com IA
TIC APLICADA
Digitalização do canteiro de obras
Esta você só vai ler na versão digital
TECNOLOGIA
A tecnologia RFID está madura, mas há espaço para crescimento
Baixe o nosso aplicativo