book_icon

Novos resultados da MLCommons destacam progresso da Intel em IA

O benchmark de desempenho de IA MLPerf Training 3.0 destacou o desempnho do acelerador de aprendizado profundo Habana Gaudi2 e o processador Intel Xeon Scalable de 4ª geração

Novos resultados da MLCommons destacam progresso da Intel em IA

A MLCommons publicou os resultados de seu benchmark de desempenho de IA do setor, o MLPerf Training 3.0, no qual, segundo divulgou a Intel, o seu acelerador de aprendizado profundo Habana Gaudi2 e o processador Intel Xeon Scalable de 4ª geração forneceram resultados de treinamento impressionantes.

“Os resultados mais recentes do MLPerf publicados pela MLCommons validam o valor de TCO que os processadores Intel Xeon e os aceleradores de aprendizado profundo Intel Gaudi fornecem aos clientes na área de IA. Os aceleradores integrados do Xeon o tornam uma solução ideal para executar volumes de trabalho de IA em processadores de uso geral, enquanto o Gaudi oferece desempenho competitivo para grandes modelos de linguagem e IA generativa. Os sistemas escaláveis ​​da Intel com software aberto otimizado e fácil de programar reduzem a barreira para clientes e parceiros implantarem uma ampla gama de soluções baseadas em IA no Data Center, da Nuvem à Borda inteligente”, disse Sandra Rivera, vice-presidente executiva da Intel e gerente-geral do Data Center e AI Group.

Segundo informações, a narrativa atual do setor é que IA generativa e modelos de linguagem grande (LLMs) podem ser executados apenas em GPUs Nvidia. Novos dados mostram que o portfólio de soluções de IA da Intel oferece opções competitivas e atraentes para clientes que buscam se libertar de ecossistemas fechados que limitam a eficiência e a escala.

Os resultados mais recentes do MLPerf Training 3.0 destacam o desempenho dos produtos da Intel em uma variedade de modelos de aprendizado profundo. A maturidade do software e sistemas baseados em Gaudi2 para treinamento foi demonstrada em escala no modelo de linguagem grande, GPT-3. Gaudi2 é uma das duas únicas soluções de semicondutores a enviar resultados de desempenho para o benchmark para treinamento LLM de GPT-3.

Gaudi2 também oferece vantagens de custo substancialmente competitivas para os clientes, tanto em custos de servidor quanto de sistema. O desempenho validado por MLPerf do acelerador em GPT-3, visão computacional e modelos de linguagem natural, além de futuros avanços de software, tornam o Gaudi2 uma alternativa de preço/desempenho extremamente atraente para o H100 da Nvidia.

Na frente da CPU, o desempenho do treinamento de aprendizado profundo dos processadores Xeon de 4ª geração com mecanismos Intel AI demonstrou que os clientes podem criar com servidores baseados em Xeon um único sistema universal de IA para pré-processamento de dados, treinamento de modelo e implantação para fornecer a combinação certa de Desempenho, eficiência, precisão e escalabilidade de IA.

Os resultados do Habana Gaudi2

O treinamento de IA generativa e modelos de linguagem grandes requer clusters de servidores para atender a requisitos de computação massivos em escala. Esses resultados do MLPerf fornecem uma validação tangível do excelente desempenho e escalabilidade eficiente do Habana Gaudi2 no modelo mais exigente testado, o parâmetro GPT-3 de 175 bilhões.

Destaques dos resultados:

– Gaudi2 apresentou um tempo de treino impressionante no GPT-3 1 : 311 minutos em 384 aceleradores.

– Escala quase linear de 95% de 256 a 384 aceleradores no modelo GPT-3.

– Excelentes resultados de treinamento em visão computacional – aceleradores ResNet-50 8 e aceleradores Unet3D 8 – e modelos de processamento de linguagem natural – aceleradores BERT 8 ​​e 64.

– Aumentos de desempenho de 10% e 4%, respectivamente, para os modelos BERT e ResNet em comparação com a apresentação de novembro, evidência da crescente maturidade do software Gaudi2.

– Os resultados do Gaudi2 foram enviados “prontos para uso”, o que significa que os clientes podem obter resultados de desempenho comparáveis ​​ao implementar o Gaudi2 no local ou na Nuvem.

A maturidade do software Gaudi2

O suporte de software para a plataforma Gaudi continua a amadurecer e acompanhar o número crescente de IA generativa e LLMs na demanda popular.

A submissão GPT-3 de Gaudi2 foi baseada no PyTorch e empregou a popular biblioteca de otimização DeepSpeed ​​(parte da Microsoft AI em escala), em vez de software personalizado. O DeepSpeed ​​permite o suporte de paralelismo 3D (dados, tensor, pipeline) simultaneamente, otimizando ainda mais a eficiência de desempenho de dimensionamento em LLMs.
Os resultados do Gaudi2 no benchmark 3.0 foram enviados no tipo de dados BF16. Espera-se um salto significativo no desempenho do Gaudi2 quando o suporte de software para FP8 e novos recursos forem lançados no terceiro trimestre de 2023.

Resultados dos processadores Xeon de 4ª geração

Como a única submissão de CPU entre inúmeras soluções alternativas, os resultados do MLPerf provam que os processadores Intel Xeon fornecem às empresas recursos prontos para uso para implantar IA em sistemas de uso geral e evitar o custo e a complexidade de introduzir sistemas de IA dedicados.

Para um pequeno número de clientes que treinam grandes modelos do zero intermitentemente, eles podem usar CPUs de uso geral e, geralmente, nos servidores baseados em Intel que já estão implantando para administrar seus negócios. No entanto, a maioria usará modelos pré-treinados e os ajustará com seus próprios conjuntos de dados selecionados menores. A Intel divulgou resultados anteriores demonstrando que esse ajuste fino pode ser realizado em apenas alguns minutos usando o software Intel AI e o software de código aberto padrão do setor.

Destaques dos resultados do MLPerf

Na divisão fechada, os Xeons de 4ª geração podem treinar os modelos BERT e ResNet-50 em menos de 50 minutos. (47,93 min.) e menos de 90 min. (88,17 min.), respectivamente.
Com o BERT na divisão aberta, os resultados mostram que o Xeon conseguiu treinar o modelo em cerca de 30 minutos (31,06 minutos) ao expandir para 16 nós.

Para o modelo RetinaNet maior, o Xeon conseguiu atingir um tempo de 232 minutos. em 16 nós, permitindo aos clientes a flexibilidade de usar ciclos Xeon fora do horário de pico para treinar seus modelos durante a manhã, durante o almoço ou durante a noite.

O Xeon de 4ª geração com Intel Advanced Matrix Extensions (Intel AMX) oferece melhorias significativas de desempenho prontas para uso que abrangem várias estruturas, ferramentas de ciência de dados de ponta a ponta e um amplo ecossistema de soluções inteligentes.

O MLPerf, geralmente considerado o benchmark mais respeitável para desempenho de IA, permite uma comparação de desempenho justa e repetível entre as soluções. Além disso, a Intel ultrapassou o marco de 100 envios e continua sendo o único fornecedor a enviar resultados públicos de CPU com software de ecossistema de aprendizado profundo padrão do setor.

Esses resultados também destacam a excelente eficiência de dimensionamento possível usando adaptadores de rede Intel Ethernet 800 Series econômicos e prontamente disponíveis que utilizam o software Intel Ethernet Fabric Suite de código aberto baseado no Intel oneAPI.

Serviço
www.intel.com

Últimas Notícias
Você também pode gostar
As opiniões dos artigos/colunistas aqui publicados refletem exclusivamente a posição de seu autor, não caracterizando endosso, recomendação ou favorecimento por parte da Infor Channel ou qualquer outros envolvidos na publicação. Todos os direitos reservados. É proibida qualquer forma de reutilização, distribuição, reprodução ou publicação parcial ou total deste conteúdo sem prévia autorização da Infor Channel.