book_icon

Nvidia apresenta evolução na linguagem de conversação natural em tempo real

Os desenvolvedores brasileiros também poderão aproveitar a tecnologia para inovar ainda mais nos projetos com voz, assistentes virtuais e avatares personalizados

Nvidia apresenta evolução na linguagem de conversação natural em tempo real

Com uma série de lançamentos neste primeiro semestre, a Nvidia movimenta o mercado. Para citar um exemplo, em abril a fabricante de chips anunciou a Grace, uma CPU baseada em Arm para centro de dados. E não parou aí. Anunciou uma unidade de processamento de dados de próxima geração, GPUs corporativas, um SOC autônomo, uma estrutura de aplicativo de segurança cibernética, um SDK para acelerar simulações de circuito quântico e muito mais.

Hoje a divisão Enterprise da Nvidia comunica que está desenvolvendo modelos e ferramentas para síntese de voz controlável de alta qualidade, que captura a riqueza da fala humana, sem artefatos de áudio. A proposta é, por meio da Inteligência Artificial – IA, vencer o desafio de do som artificial, chegando próximo do tom, ritmo, timbre e até emoção humanos.

O foco é a experiência do cliente e a entrega de produtos e serviços de qualidade pelos fornecedores, a partir de uma automatização no atendimento por voz. Desta forma, será possível melhorar a qualidade apresentada por personagens de videogames e fornecer síntese de voz em tempo real para avatares digitais. A companhia informa que seus pesquisadores usam a tecnologia para produzir narração emotiva para uma série de vídeos sobre o poder da IA.

Márcio Aguiar, diretor da Nvidia Enterprise para a América Latina, destaca que a novidade traz diversos benefícios para a IA como um todo. “Cada vez mais podemos ver a importância de uma tecnologia personalizada e com as soluções da Nvidia Enterprise isso é possível, com aplicabilidade em diversos setores”, ressalta. Outro aspecto importante, segundo ele, é que os desenvolvedores brasileiros também poderão aproveitar a tecnologia para inovar ainda mais nos projetos.

Mais tecnologia
A evolução de linguagem natural em tempo real levará à transformação da interação do homem com a máquina e de aplicações inteligentes. A síntese de voz expressiva é apenas um elemento do trabalho da área de pesquisa da companhia em IA conversacional. “Esse campo também abrange o processamento de Linguagem Natural, reconhecimento automatizado de voz, detecção de palavras-chave, aprimoramento de áudio e muito mais”, conta.

Ele complementa dizendo que “as ferramentas de IA conversacional de última geração, otimizadas para funcionar com eficiência em GPUs da Nvidia são lançadas no conjunto de ferramentas NeMo de Código Aberto, disponível no NGC.

Vale lembrar que NeMo (módulos neurais) é um conjunto de ferramentas Python de Código Aberto para IA de conversação. Ele foi criado para que cientistas e pesquisadores de dados construam novas redes de fala e PNL, facilmente por meio de blocos de construção compatíveis com API que podem ser conectados entre si.

Para desenvolvedores e pesquisadores de IA
APIs fáceis de usar e modelos previamente treinados no NeMo ajudam a desenvolver e personalizar modelos para conversão de texto em fala, processamento de linguagem natural e reconhecimento de fala automatizado em tempo real. Vários dos modelos são treinados por mais de 100.000 horas em sistemas Nvidia DGX em conjuntos de dados de código aberto e podem ser ajustados para um caso de uso de desenvolvedor usando computação de precisão mista em GPUs NVIDIA Tensor Core.

O Nvidia NeMo também oferece modelos treinados no Mozilla Common Voice via NGC, um conjunto de dados com quase 14 mil horas de dados de voz coletados em 76 idiomas. Apoiado pela divisão Enterprise, o projeto visa democratizar a tecnologia de voz com o maior conjunto de dados de voz de dados abertos do mundo.

Novidades em IA para conversação
O Interspeech 2021 – de 30 de agosto a 3 de setembro, evento que abrange uma gama de pesquisas inovadoras no campo da IA de conversação, incluindo conjuntos de dados, modelos previamente treinados e aplicativos do mundo real para reconhecimento de fala e conversão de texto em fala, foi o palco para a Nvidia fazer seu anúncio. A área de pesquisa da Nvidia está apresentando arquiteturas de modelos de IA conversacional, bem como conjuntos de dados de voz totalmente formatados para desenvolvedores.

De acordo com a fabricante, os pesquisadores e profissionais da Nvidia não apenas falam sobre IA de conversação mas executam, colocando modelos de síntese de fala inovadores para trabalhar na série de vídeos I AM AI.

Leia também
Nvidia AI Enterprise torna a IA acessível para empresas de qualquer porte

Últimas Notícias
Você também pode gostar
As opiniões dos artigos/colunistas aqui publicados refletem exclusivamente a posição de seu autor, não caracterizando endosso, recomendação ou favorecimento por parte da Infor Channel ou qualquer outros envolvidos na publicação. Todos os direitos reservados. É proibida qualquer forma de reutilização, distribuição, reprodução ou publicação parcial ou total deste conteúdo sem prévia autorização da Infor Channel.