book_icon

Processador Intel Habana Gaudi2 supera o Nvidia A100 no benchmark MLPerf

Apresentado no mês passado no Intel Vision, novo processador de aprendizado profundo oferece uma redução de 36% no tempo de treinamento de IA em comparação ao rival

Processador Intel Habana Gaudi2 supera o Nvidia A100 no benchmark MLPerf

A Intel anunciou que seu processador de aprendizado profundo (Deep Learning) Habana Gaudi2 de segunda geração superou o A100 da Nvidia em tempo de treinamento de IA no benchmark da indústria MLPerf. Os resultados destacam os tempos de treinamento líderes em modelos de visão (ResNet-50) e linguagem (BERT) com o processador Gaudi2, que foi apresentado em maio no evento Intel Vision. “Estou entusiasmada com a entrega dos excelentes resultados do MLPerf com Gaudi 2 e orgulhosa da conquista de nossa equipe em fazê-lo apenas um mês após o lançamento. Oferecer o melhor desempenho da categoria em modelos de visão e linguagem agregará valor aos clientes e ajudará a acelerar suas soluções de aprendizado profundo de IA”, disse Sandra Rivera, vice-presidente executiva da Intel e gerente-geral do Datacenter and AI Group.

Com a plataforma Gaudi do Habana Labs, a equipe de Data Center da Intel focada em tecnologias de processador de aprendizado profundo, permite que cientistas de dados e engenheiros de aprendizado de máquina acelerem o treinamento e criem novos modelos ou migrem modelos existentes com apenas algumas linhas de código para desfrutar de maior produtividade, bem como menores custos operacionais.

Segundo a Intel, o Gaudi2 oferece avanços dramáticos no tempo de treinamento (TTT) em relação ao Gaudi de primeira geração e permitiu que o envio MLPerf da Habana em maio de 2022 superasse o A100-80G da Nvidia para oito aceleradores em modelos de visão e linguagem. Para ResNet-50, Gaudi2 oferece uma redução de 36% no tempo de treinamento em comparação com o TTT da Nvidia para A100-80GB e uma redução de 45% em comparação com um envio de servidor A100-40GB de 8 aceleradores da Dell para ResNet-50 e BERT.

Comparado ao Gaudi de primeira geração, o Gaudi2 atinge uma velocidade de 3x na taxa de transferência de treinamento para ResNet-50 e 4,7x para BERT. Esses avanços podem ser atribuídos à transição para o processo de 7 nanômetros de 16 nm, triplicando o número de Tensor Processor Cores, aumentando a capacidade de computação do mecanismo GEMM, triplicando a capacidade de memória de alta largura de banda no pacote, aumentando a largura de banda e dobrando o tamanho da SRAM. Para modelos de visão, o Gaudi2 tem um novo recurso na forma de um mecanismo de mídia integrado, que opera de forma independente e pode lidar com todo o tubo de pré-processamento para imagens compactadas, incluindo aumento de dados necessário para treinamento de IA.

O desempenho de ambas as gerações de processadores Gaudi é alcançado sem manipulações especiais de software que diferem da pilha de software comercial pronta para uso disponível para clientes Habana.

Comparando o desempenho imediato obtido com o software disponível comercialmente, as seguintes medições foram produzidas pelo Habana em um servidor comum de 8 GPUs versus o servidor de referência HLS-Gaudi2. A taxa de transferência do treinamento foi derivada com as janelas de encaixe TensorFlow do NGC e dos repositórios públicos do Habana, empregando os melhores parâmetros de desempenho conforme recomendado pelos fornecedores (precisão mista usada em ambos). A taxa de transferência do tempo de treinamento é um fator chave que afeta a convergência do tempo de treinamento resultante.

Além das conquistas de Gaudi2 observadas no MLPerf, o Gaudi de primeira geração apresentou desempenho forte e escala quase linear impressionante no ResNet para envios de Gaudi de 128 e 256 aceleradores que suportam dimensionamento de sistema de alta eficiência para clientes.

“Gaudi2 oferece um desempenho claro de treinamento de liderança, conforme comprovado pelos nossos resultados mais recentes do MLPerf”, disse Eitan Medina, diretor de Operações do Habana Labs. “E continuamos inovando em nossa arquitetura e software de treinamento de aprendizado profundo para oferecer as soluções de treinamento de IA mais competitivas em termos de custo”, comentou.

A comunidade MLPerf tem como objetivo projetar benchmarks justos e úteis que forneçam “medidas consistentes de precisão, velocidade e eficiência” para soluções de aprendizado de máquina. Eles foram criados por líderes de IA da academia, laboratórios de pesquisa e da indústria, que decidiram os benchmarks e definiram um conjunto de regras rígidas que garantem uma comparação justa entre todos os fornecedores. O benchmark MLPerf é o único benchmark confiável para o setor de IA devido ao seu conjunto explícito de regras, que permitem uma comparação justa em tarefas de ponta a ponta. Além disso, as submissões do MLPerf passam por um processo de revisão por pares de um mês, que valida ainda mais os resultados relatados.

Serviço
www.intel.com

A100

Aprendizado Profundo

deep learning

Habana Gaudi2

IA

Intel

NVIDIA

processador

As opiniões dos artigos/colunistas aqui publicados refletem exclusivamente a posição de seu autor, não caracterizando endosso, recomendação ou favorecimento por parte da Infor Channel ou qualquer outros envolvidos na publicação. Todos os direitos reservados. É proibida qualquer forma de reutilização, distribuição, reprodução ou publicação parcial ou total deste conteúdo sem prévia autorização da Infor Channel.