book_icon

Nvidia acelera a inferência no Meta Llama 3

Mais recente grande modelo de linguagem de código aberto da Meta — construído com tecnologia da Nvidia — é otimizado para ser executado em GPUs da Nvidia desde a Nuvem e o centro de Dados até a borda e o PC

Nvidia acelera a inferência no Meta Llama 3

A Nvidia anuncia otimizações em todas as suas plataformas para acelerar o Meta Llama 3, a mais recente geração do grande modelo de linguagem (LLM). O modelo aberto combinado com computação acelerada pela Nvidia equipa desenvolvedores, pesquisadores e empresas para inovar de forma responsável em uma ampla variedade de aplicações.

Treinado na IA da Nvidia
Os engenheiros da Meta treinaram o Llama 3 em clusters de computadores com 24.576 GPUs Nvidia H100 Tensor Core, conectados com redes RoCE e Nvidia Quantum-2 InfiniBand. Com o apoio da Nvidia, a Meta ajustou sua rede, software e arquiteturas de modelo para seu LLM de ponta.

Para avançar ainda mais o estado da arte em IA Generativa, a Meta recentemente descreveu planos para escalar sua infraestrutura para 350.000 GPUs H100.

Para avançar ainda mais o estado da arte em IA Generativa, a Meta recentemente descreveu planos para escalar sua infraestrutura para 350.000 GPUs H100

Colocando o Llama 3 para trabalhar
Versões do Llama 3, aceleradas em GPUs Nvidia, estão disponíveis para uso na Nuvem, centro de Dados, borda e PC.

A partir de um navegador, os desenvolvedores podem experimentar o Llama 3 em ai.nvidia.com. Ele é empacotado como um microsserviço Nvidia NIM com uma interface de programação de aplicações padrão que pode ser implantada em qualquer lugar.

Empresas podem ajustar o Llama 3 com seus Dados usando o Nvidia NeMo, um framework de código aberto para LLMs que faz parte da plataforma Nvidia AI Enterprise, segura e suportada. Modelos personalizados podem ser otimizados para inferência com o TensorRT-LLM da Nvidia e implantados com o Triton Inference Server da Nvidia.

Levando o Llama 3 para dispositivos e PCs
O Llama 3 também é executado no Nvidia Jetson Orin para robótica e dispositivos de computação de Borda, criando agentes interativos como os do Jetson AI Lab.

Além disso, as GPUs Nvidia RTX e GeForce RTX para estações de trabalho e PCs aceleram a inferência no Llama 3. Esses sistemas oferecem aos desenvolvedores um alvo de mais de 100 milhões de sistemas acelerados pela Nvidia em todo o mundo.

Obtenha desempenho ótimo com o Llama 3
As melhores práticas na implantação de um LLM para um chatbot envolvem um equilíbrio entre baixa latência, boa velocidade de leitura e uso ótimo de GPU para reduzir custos.

Um serviço desse tipo precisa entregar tokens — o equivalente aproximado de palavras para um LLM — a cerca de duas vezes a velocidade de leitura de um usuário, que é cerca de 10 tokens/segundo.

Aplicando essas métricas, uma única GPU Nvidia H200 Tensor Core gerou cerca de 3.000 tokens/segundo — o suficiente para atender cerca de 300 usuários simultâneos — em um teste inicial usando a versão do Llama 3 com 70 bilhões de parâmetros.

Isso significa que um único servidor Nvidia HGX com oito GPUs H200 poderia entregar 24.000 tokens/segundo, otimizando ainda mais os custos ao suportar mais de 2.400 usuários ao mesmo tempo.

Para dispositivos de Borda, a versão do Llama 3 com oito bilhões de parâmetros gerou até 40 tokens/segundo no Jetson AGX Orin e 15 tokens/segundo no Jetson Orin Nano.

Avançando em modelos comunitários
Uma contribuidora ativa de código aberto, a Nvidia está comprometida em otimizar o software da comunidade que ajuda os usuários a enfrentar seus desafios mais difíceis. Modelos de código aberto também promovem transparência na IA e permitem que os usuários compartilhem amplamente o trabalho sobre segurança e resiliência da IA.

Saiba mais sobre como a plataforma de inferência AI da Nvidia, incluindo como NIM, TensorRT-LLM e Triton usam técnicas de ponta, como adaptação de baixa classificação, para acelerar os mais recentes LLMs.

“Estamos entusiasmados em oferecer mais essa tecnologia de IA da Nvidia para impulsionar a inovação. Com o Meta Llama 3 otimizado para nossas GPUs, estamos capacitando desenvolvedores e empresas a explorar todo o potencial da Inteligência Artificial em uma variedade de aplicações, desde a Nuvem até dispositivos de Borda”, reforça Marcio Aguiar, diretor da divisão Enterprise da Nvidia para América Latina.

Serviço
www.nvidia.com/pt-br

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *


As opiniões dos artigos/colunistas aqui publicados refletem exclusivamente a posição de seu autor, não caracterizando endosso, recomendação ou favorecimento por parte da Infor Channel ou qualquer outros envolvidos na publicação. Todos os direitos reservados. É proibida qualquer forma de reutilização, distribuição, reprodução ou publicação parcial ou total deste conteúdo sem prévia autorização da Infor Channel.