
Os modelos de IA mais exigentes do mundo precisam de um processamento massivo de GPU trabalhando em sintonia. À medida que os sistemas de IA escalam, reunir esse cálculo de forma eficiente depende cada vez mais da rede que os conecta. Centenas de milhares de GPUs precisam permanecer continuamente sincronizadas, trocar dados e se recuperar rapidamente de interrupções inevitáveis. Nessa escala, a rede determina diretamente quanto de computação pode ser utilizada.
Neste contexto, a OpenAI, em colaboração com AMD, Microsoft e outros líderes do setor, anunciou que está colaborando com o Multipath Reliable Connection (MRC) para o Open Compute Project (OCP), tornando esse novo protocolo de rede disponível para o ecossistema mais amplo. Como um colaborador de longa data para ecossistemas abertos que ajudam a avançar o padrão Ethernet para a era da IA, a AMD está ajudando a transformar as redes de IA em uma base aberta, programável e pronta para produção para clientes que constroem infraestrutura de IA.
Para a AMD e para a indústria em geral, o MRC representa mais do que um novo protocolo de rede para supercomputadores de escala de fronteira. É um passo importante rumo a uma base mais aberta, programável e resiliente para a infraestrutura de IA. À medida que os clientes constroem clusters maiores de IA em ambientes de Nuvem, empresas, pesquisa e IA soberana, a indústria precisa de redes que sejam não apenas rápidas em condições ideais, mas consistentes, adaptativas e operacionalmente práticas em implementações no mundo real.
Desenvolvido para redes de IA em escala
O MRC foi projetado especificamente para ambientes de treinamento em grande escala de IA, onde modelos tradicionais de rede de caminho único têm dificuldades. Essas cargas de trabalho exigem comunicação contínua e de alta velocidade, e até mesmo interrupções breves podem impactar o progresso geral do sistema.
Em vez de enviar tráfego por um único caminho, o MRC distribui pacotes por múltiplos caminhos simultaneamente. Isso reduz pontos de congestionamento e limita a variação de latência, que pode atrasar o treinamento sincronizado. Quando falhas inevitavelmente ocorrem, o MRC se adapta rapidamente e permite que o tráfego seja redirecionado quase em tempo real, evitando os atrasos associados à recuperação tradicional da rede.
Na prática, o MRC ajuda a transformar a rede em um amortecedor para infraestrutura de IA. Em vez de forçar todo evento a se tornar uma interrupção, o MRC oferece à rede uma forma de se adaptar localmente e rapidamente para que as cargas de trabalho continuem avançando. Isso importa porque o desempenho em escala de IA não é definido apenas pela largura de banda máxima. É definido por quanta capacidade útil do acelerador permanece produtiva sob condições do mundo real.
Contribuições da AMD
A AMD teve um papel formativo na formação de como o MRC funciona hoje. A AMD coliderou a autoria da especificação que define as redes de IA de próxima geração e contribuiu com tecnologia avançada de controle de congestionamento para melhorar o desempenho em condições reais.
Mais importante ainda, isso não é teórico. A AMD implementou o MRC combinado com tecnologia de rede AMD em larga escala em clusters de teste com um provedor líder em Nuvem. Essa validação significa que o design reflete como as redes realmente funcionam sob cargas de trabalho sustentadas em IA.
“À medida que GPUs e CPUs continuam a impulsionar a computação, o verdadeiro gargalo na escalabilidade da IA é a rede. O anúncio de hoje do MRC pela OpenAI representa um grande avanço para a indústria. A programabilidade da AMD nos permite transformar rapidamente inovações como essa em desempenho real em escala, onde o throughput consistente e resiliente importa mais do que a largura de banda teórica de pico”, disse Krishna Doddapaneni, CVP de Engenharia da AMD
A programabilidade continua sendo um diferencial fundamental para a AMD, sendo uma das poucas soluções de rede que combina programabilidade completa de hardware e software com implementações comprovadas, permitindo que redes se adaptem à medida que as cargas de trabalho evoluem. Antes do desenvolvimento da especificação MRC, a AMD tinha uma implementação pré-padrão de um protocolo de transporte RoCEv2 aprimorado, que evoluiu para o padrão MRC atual. Isso se devia à programabilidade aberta do NIC AI AMD Pensando Pollara 400, e essa programabilidade contribuiu para a flexibilidade na obtenção de validação antecipada. Como a AMD sendo uma das primeiras e únicas empresas a implantar MRC em uma NIC de 400G, podemos acelerar uma transição fluida para nossa NIC AI AMD Pensando “Vulcano” 800G, que também suporta o protocolo de transporte MRC.
Essa combinação de uma especificação definida, tecnologia contribuida e implementação em testes posiciona a AMD na vanguarda da implantação de MRC em infraestrutura de IA do mundo real.
Redefinindo o desempenho da infraestrutura de IA
Para IA em escala, o desempenho é definido por como os sistemas se comportam em condições reais, não pela largura de banda máxima. Taxa de transferência consistente, gerenciamento eficaz de congestionamento e recuperação rápida de falhas, mantendo as GPUs sincronizadas e produtivas é o ideal para impulsionar redes de IA em larga escala. O MRC pode melhorar a eficiência do modelo e ajuda a tornar os protocolos de rede que conectam o treinamento de IA em grande escala entre grandes clusters de GPU altamente confiáveis.
Ao ajudar a definir e contribuir para o MRC, a AMD está avançando a rede de IA do conceito para uma infraestrutura prática e pronta para produção.
Serviço
www.amd.com

Leia nesta edição:

CAPA - TECNOLOGIA
Arquitetura neuromórfica, a plataforma inspirada no cérebro humano

MERCADO
O bom negócio da locação de equipamentos de TI

SEGURANÇA DIGITAL
Dilemas e oportunidades de blockchain para identidade
EXCLUSIVA DIGITAL

VERSÃO LATAM
Agora a versão digital também é LATAM
Baixe o nosso aplicativo














