book_icon

Intel destaca desempenho de seus produtos no benchmark MLPerf

Já a Nvidia diz que relatório mostrou que a sua plataforma é a mais rápida do mundo em testes padrão da indústria para inferência em IA generativa

Intel destaca desempenho de seus produtos no benchmark MLPerf

A MLCommons publicou os resultados do benchmark MLPerf v4.0 padrão da indústria para inferência. Os resultados da Intel para aceleradores Intel Gaudi 2 e processadores escaláveis Intel Xeon de 5ª geração com Intel Advanced Matrix Extensions (Intel AMX) reforçam o compromisso da empresa em trazer “AI Everywhere” com um amplo portfólio de soluções competitivas. O acelerador de IA Intel Gaudi 2 continua sendo a única alternativa de benchmark ao Nvidia H100 para desempenho de IA generativa (GenAI) e fornece forte desempenho por dólar. Além disso, a Intel continua sendo o único fornecedor de CPU de servidor a enviar resultados MLPerf. Os resultados do Intel Xeon de 5ª geração melhoraram em média 1,42x em comparação com os resultados dos processadores Intel Xeon de 4ª geração no MLPerf Inference v3.1.

“Continuamos a melhorar o desempenho da IA em benchmarks padrão da indústria em todo o nosso portfólio de aceleradores e CPUs. Os resultados de hoje demonstram que estamos fornecendo soluções de IA que atendem aos requisitos dinâmicos e abrangentes de IA de nossos clientes. Os produtos Intel Gaudi e Xeon oferecem aos nossos clientes opções prontas para implantação e oferecem fortes vantagens de preço em relação ao desempenho”, disse Zane Ball, vice-presidente corporativo e gerente-geral de DCAI Product Management da Intel.

Com base em seu desempenho de treinamento e inferência de rodadas anteriores do MLPerf, os resultados do MLPerf da Intel fornecem aos clientes benchmarks padrão do setor para avaliar o desempenho da IA.

O pacote de software Intel Gaudi continua a aumentar a cobertura de modelos de modelos populares de linguagem grande (LLMs) e modelos multimodais. Para o MLPerf Inference v4.0, a Intel apresentou os resultados do acelerador Gaudi 2 para os modelos de última geração Stable Diffusion XL e Llama v2-70B.

Devido à forte demanda dos clientes por Hugging Face Text Generation Inference (TGI), os resultados da Llama da Gaudí usaram o kit de ferramentas TGI, que suporta paralelismo contínuo em lote e tensor, aumentando a eficiência do dimensionamento LLM do mundo real. Para o Llama v2-70B, o Gaudi 2 forneceu 8035.0 e 6287.5 para tokens offline e de servidor por segundo, respectivamente. No Stable Diffusion XL, o Gaudi 2 forneceu 6,26 e 6,25 para amostras offline por segundo e consultas de servidor por segundo, respectivamente. Com esses resultados, o Intel Gaudi 2 continua a oferecer preço/desempenho atraentes, uma consideração importante quando se analisa o custo total de propriedade (TCO).

Após melhorias de hardware e software, os resultados do Xeon de 5ª geração da Intel melhoraram em uma média geográfica de 1,42x em comparação com os resultados dos processadores Intel Xeon de 4ª geração no MLPerf Inference v3.1. Como exemplo, para GPT-J com otimizações de software, incluindo lote contínuo, a submissão Xeon de 5ª geração mostrou cerca de 1,8x de ganhos de desempenho em comparação com a submissão v3.1. Da mesma forma, o DLRMv2 mostrou cerca de 1,8x de ganhos de desempenho e 99,9 de precisão devido ao MergedEmbeddingBag e outras otimizações utilizando o Intel AMX.

Outro lado

A Nvidia também divulgou nota sobre o relatório da MLCommons, afirmando que entregou a plataforma mais rápida do mundo em testes padrão da indústria para inferência em IA generativa. Segundo informações, nos últimos benchmarks MLPerf, o Nvidia TensorRT-LLM – software que acelera e simplifica o complexo trabalho de inferência em grandes modelos de linguagem (LLM) – aumentou o desempenho das GPUs da arquitetura Nvidia Hopper no GPT-J LLM em quase 3x em relação aos seus resultados há apenas seis meses. A aceleração dramática demonstra o poder da plataforma full-stack da Nvidia de chips, sistemas e software para lidar com os exigentes requisitos da execução de IA generativa.

O TensorRT-LLM executado em GPUs Nvidia H200 Tensor Core – as mais recentes GPUs Hopper com memória aprimorada – entregou o desempenho mais rápido executando inferência no maior teste de IA generativa do MLPerf até o momento.

O novo benchmark usa a maior versão do Llama 2, um modelo de linguagem de grande porte de última geração com 70 bilhões de parâmetros. O modelo é mais de 10x maior do que o GPT-J LLM usado pela primeira vez nos benchmarks de setembro.

As GPUs H200 com memória aprimorada, em sua estreia no MLPerf, usaram o TensorRT-LLM para produzir até 31 mil tokens/segundo, um recorde no benchmark Llama 2 da MLPerf.

Os resultados da GPU H200 incluem ganhos de até 14% de uma solução térmica personalizada. É um exemplo de inovações além do resfriamento a ar padrão que os fabricantes de sistemas estão aplicando em seus projetos Nvidia MGX para levar o desempenho das GPUs Hopper a novos patamares.

 

Últimas Notícias
Você também pode gostar
As opiniões dos artigos/colunistas aqui publicados refletem exclusivamente a posição de seu autor, não caracterizando endosso, recomendação ou favorecimento por parte da Infor Channel ou qualquer outros envolvidos na publicação. Todos os direitos reservados. É proibida qualquer forma de reutilização, distribuição, reprodução ou publicação parcial ou total deste conteúdo sem prévia autorização da Infor Channel.