book_icon

Intel equipa supercomputador Aurora com mais de 10 mil blades de computação

Equipamento combina 10.624 blades de computação, com 63.744 processadores Intel Data Center GPU Max Series e 21.248 processadores Intel Xeon CPU Max Series

Intel equipa supercomputador Aurora com mais de 10 mil blades de computação

O supercomputador Aurora, instalado no Argonne National Laboratory, agora está totalmente equipado com todos os 10.624 blades de computação, com 63.744 processadores Intel Data Center GPU Max Series e 21.248 processadores Intel Xeon CPU Max Series. “O Aurora é a primeira implementação de GPU da série Max da Intel, o maior sistema baseado em CPU Xeon Max e o maior cluster de GPU do mundo. Estamos orgulhosos de fazer parte desse sistema histórico e empolgados com a IA, a ciência e a engenharia inovadoras que o Aurora possibilitará”, disse Jeff McVeigh, vice-presidente corporativo da Intel e gerente-geral do Super Compute Group.

Uma colaboração da Intel, da Hewlett Packard Enterprise (HPE) e do Departamento de Energia (DOE), o supercomputador Aurora foi projetado para liberar o potencial dos três pilares da computação de alto desempenho (HPC): simulações, análise de dados e Inteligência Artificial (IA) em uma escala extremamente grande. O sistema incorpora mais de 1.024 nós de armazenamento (usando DAOS, armazenamento de objeto assíncrono distribuído da Intel), fornecendo 220 petabytes (PB) de capacidade a 31 terabytes por segundo de largura de banda total e aproveita a malha de alto desempenho HPE Slingshot. Ainda este ano, espera-se que o Aurora seja o primeiro supercomputador do mundo a atingir um desempenho máximo teórico de mais de 2 exaflops quando entrar na lista TOP500.

Os primeiros usuários testarão o supercomputador e identificarão possíveis bugs que precisam ser resolvidos antes da implementação. Isso inclui esforços para desenvolver modelos de IA generativos para a ciência

O Aurora aproveitará todo o poder da família de produtos GPU e CPU Intel Max Series. Projetado para atender às demandas de cargas de trabalho dinâmicas e emergentes de HPC e IA, os primeiros resultados com as GPUs da série Max demonstram desempenho líder em cargas de trabalho de ciência e engenharia do mundo real, apresentando, segundo a Intel, até 2 vezes o desempenho das GPUs AMD MI250X em OpenMC e quase linear escalando até centenas de nós. A CPU Intel Xeon Max Series oferece uma vantagem de desempenho de 40% sobre a concorrência em muitas cargas de trabalho de HPC do mundo real, como modelagem de sistemas terrestres, energia e manufatura.

Desde o combate às mudanças climáticas até a descoberta de curas para doenças mortais, os pesquisadores enfrentam desafios monumentais que exigem tecnologias de computação avançadas em grande escala. O Aurora está preparado para atender às necessidades das comunidades de HPC e IA, fornecendo as ferramentas necessárias para ultrapassar os limites da exploração científica.

“Enquanto trabalhamos nos testes de aceitação, usaremos o Aurora para treinar alguns modelos de IA geradora de código aberto em grande escala para a ciência”, disse Rick Stevens, diretor associado do laboratório do Argonne National Laboratory. “O Aurora, com mais de 60 mil GPUs Intel Max, um sistema de E/S muito rápido e um sistema de armazenamento em massa totalmente em estado sólido,é o ambiente perfeito para treinar esses modelos”, afirmou.

No coração deste sistema de última geração estão as elegantes lâminas retangulares do Aurora, processadores de habitação, memória, rede e tecnologias de resfriamento. Cada blade consiste em duas CPUs Intel Xeon Max Series e seis GPUs Intel Max Series. A família de produtos Xeon Max Series já está demonstrando excelente desempenho inicial no Sunspot, o sistema de teste e desenvolvimento com a mesma arquitetura do Aurora. Os desenvolvedores estão utilizando ferramentas oneAPI e AI para acelerar as cargas de trabalho de HPC e AI e aprimorar a portabilidade do código em várias arquiteturas.

A instalação dessas lâminas foi uma operação delicada, com cada lâmina de 70 libras exigindo maquinário especializado para ser integrado verticalmente nos racks do tamanho de refrigeradores da Aurora. Os 166 racks do sistema acomodam 64 blades cada e abrangem oito fileiras, ocupando um espaço equivalente a duas quadras de basquete profissional no data center Argonne Leadership Computing Facility (ALCF).

Pesquisadores do Aurora Early Science Program (ESP) da ALCF e do Projeto de Computação Exascale do DOE migrarão seu trabalho do banco de testes Sunspot para o Aurora totalmente instalado. Essa transição permitirá que eles escalem seus aplicativos no sistema completo. Os primeiros usuários testarão o supercomputador e identificarão possíveis bugs que precisam ser resolvidos antes da implementação. Isso inclui esforços para desenvolver modelos de IA generativos para a ciência, anunciados recentemente na conferência ISC’23.

Serviço
www.intel.com

As opiniões dos artigos/colunistas aqui publicados refletem exclusivamente a posição de seu autor, não caracterizando endosso, recomendação ou favorecimento por parte da Infor Channel ou qualquer outros envolvidos na publicação. Todos os direitos reservados. É proibida qualquer forma de reutilização, distribuição, reprodução ou publicação parcial ou total deste conteúdo sem prévia autorização da Infor Channel.