À medida que as empresas correm para adotar a IA Generativa e lançar novos serviços no mercado, as demandas por infraestrutura de Data Center nunca foram tão grandes. O treinamento de grandes modelos de linguagem (LLM) é um desafio, mas o fornecimento de serviços em tempo real alimentados por LLM é outro.
Na última rodada de benchmarks do setor MLPerf, a Inference v4.1, as plataformas Nvidia apresentaram desempenho com sucesso em todos os testes de Data Center. O primeiro envio da futura plataforma Nvidia Blackwell revelou até 4 vezes mais desempenho do que a GPU Nvidia H100 Tensor Core na maior carga de trabalho LLM do MLPerf, Llama 2 70B, graças ao uso de um Transformer Engine de segunda geração e FP4 Tensor Cores.
A GPU Nvidia H200 Tensor Core apresentou excelentes resultados em todos os benchmarks da categoria de Data Center, incluindo a mais recente adição ao benchmark, o LLM Mixtral 8x7B mix of experts (MoE), que apresenta um total de 46,7 bilhões de parâmetros, com 12,9 bilhões de parâmetros ativos por token.
Os modelos MoE ganharam popularidade como uma forma de trazer mais versatilidade às implantações de LLM, pois são capazes de responder a uma ampla variedade de perguntas e executar tarefas mais diversas em uma única implementação. Eles também são mais eficientes, pois ativam apenas alguns especialistas por inferência, o que significa que fornecem resultados muito mais rapidamente do que os modelos densos de tamanho semelhante.
O crescimento contínuo dos LLMs está gerando a necessidade de mais computação para processar solicitações de inferência. Para atender aos requisitos de latência em tempo real para atender aos LLMs atuais, e fazê-lo para o maior número possível de usuários, a computação multi-GPU é uma necessidade. O Nvidia NVLink e o NVSwitch fornecem comunicação de alta largura de banda entre GPUs com base na arquitetura Nvidia Hopper e proporcionam benefícios significativos para a inferência de modelos grandes em tempo real e econômica. A plataforma Blackwell ampliará ainda mais os recursos do NVLink Switch com domínios NVLink maiores com 72 GPUs.
Além dos envios da Nvidia, 10 parceiros da Nvidia – ASUSTek, Cisco, Dell Technologies, Fujitsu, Giga Computing, Hewlett Packard Enterprise (HPE), Juniper Networks, Lenovo, Quanta Cloud Technology e Supermicro – todos fizeram envios sólidos de inferência MLPerf, ressaltando a ampla disponibilidade das plataformas Nvidia.
“Estamos extremamente felizes por alcançar esse resultado notável no MLPerf, isso demonstra que as plataformas da Nvidia apresentam um desempenho líder em todos os setores de Data Center. Isso contribui significativamente para fortalecer ainda mais nossa posição neste cenário além de tornar o trabalho mais eficiente para as empresas”, comemora Marcio Aguiar, diretor da divisão Enterprise da Nvidia para América Latina.
Inovação implacável de software
As plataformas Nvidia passam por um desenvolvimento contínuo de software, acumulando melhorias de desempenho e de recursos mensalmente. Na rodada de inferência mais recente, as ofertas da Nvidia, incluindo a arquitetura Nvidia Hopper, a plataforma Nvidia Jetson e o servidor de inferência Nvidia Triton, tiveram um grande aumento no desempenho.
A GPU Nvidia H200 forneceu até 27% mais desempenho de inferência de IA Generativa em relação à rodada anterior, ressaltando o valor agregado que os clientes obtêm ao longo do tempo com seu investimento na plataforma Nvidia.
O Servidor de Inferência Triton, parte da plataforma Nvidia AI e disponível com o software Nvidia AI Enterprise, é um servidor de inferência de código aberto completo que ajuda as organizações a consolidar servidores de inferência específicos do framework em uma plataforma única e unificada. Isso ajuda a reduzir o custo total de propriedade de servir modelos de IA na produção e reduz o tempo de implantação do modelo de meses para minutos.
Nesta rodada do MLPerf, o servidor de inferência Triton apresentou desempenho quase igual ao dos envios bare-metal da Nvidia, mostrando que as organizações não precisam mais escolher entre usar um servidor de inferência de IA de nível de produção rico em recursos e obter desempenho de rendimento máximo.
Indo para o Edge
Implantados no Edge, os modelos de IA Generativa podem transformar Dados de sensores, como imagens e vídeos, em insights acionáveis em tempo real com forte consciência contextual. A plataforma Nvidia Jetson para IA e robótica no Edge é capaz de executar qualquer tipo de modelo localmente, incluindo LLMs, transformadores de visão e difusão estável.
Nesta rodada de benchmarks MLPerf, os módulos do sistema Nvidia Jetson AGX Orin alcançaram mais de 6,2 vezes de melhoria na taxa de transferência e 2,4 vezes de melhoria na latência em relação à rodada anterior na carga de trabalho GPT-J LLM. Em vez de desenvolver para um caso de uso específico, os desenvolvedores agora podem usar esse modelo de 6 bilhões de parâmetros de uso geral para interagir perfeitamente com a linguagem humana, transformando a IA Generativa no Edge.
Liderança de desempenho em todos os aspectos
Esta rodada do MLPerf Inference mostrou a versatilidade e o desempenho líder das plataformas Nvidia – que se estendem do Data Center ao Edge – em todas as cargas de trabalho do benchmark, sobrecarregando os aplicações e serviços mais inovadores com tecnologia de IA. Para saber mais sobre esses resultados, consulte nosso blog técnico.
Os sistemas H200 equipados com GPU estão disponíveis hoje na CoreWeave – o primeiro provedor de serviços em Nuvem a anunciar a disponibilidade geral – e nos fabricantes de servidores ASUS, Dell Technologies, HPE, QTC e Supermicro.
Serviço
www.nvidia.com/pt-br
Leia nesta edição:
MATÉRIA DE CAPA | TECNOLOGIA
O salto do Supply Chain
SEGURANÇA DA INFORMAÇÃO
Superações na Segurança de Dados
CARREIRA
A arte de navegar em meio à tempestade
Esta você só vai ler na versão digital
APLICAÇÃO
O mundo cabe dentro de um token
Baixe o nosso aplicativo