book_icon

Microsoft apresenta Maia 200, um acelerador de inferência de próxima geração

Construído sobre o processo de 3nm da TSMC, o Maia 200 é um acelerador de inferência projetado para melhorar dramaticamente a economia na geração de tokens de IA

Microsoft apresenta Maia 200, um acelerador de inferência de próxima geração

A Microsoft anunciou nesta segunda-feira (26/1) o lançamento do Maia 200, o seu acelerador de IA de próxima geração construído para a era da IA de raciocínio. Trata-se de um acelerador de inferência projetado para melhorar dramaticamente a economia na geração de tokens de IA. Construído sobre o processo de 3nm da TSMC com núcleos tensoriais nativos FP8/FP4, um sistema de memória redesenhado com 216GB HBM3e a 7 TB/s e 272MB de SRAM no chip, além de motores de movimentação de dados que mantêm modelos massivos alimentados, rápidos e altamente utilizados.

Isso faz do Maia 200 o silício de primeira mão mais performante de qualquer hyperscaler, com três vezes o desempenho FP4 do Amazon Train de terceira geração, e desempenho FP8 acima do TPU de sétima geração do Google. Maia 200 também é o sistema de inferência mais eficiente que a Microsoft já implementou, com desempenho por dólar 30% melhor do que o hardware de última geração da nossa frota atualmente.

Fabricado com o processo de ponta de 3 nanômetros da TSMC, cada chip Maia 200 contém mais de 140 bilhões de transistores e é adaptado para cargas de trabalho de IA em grande escala, além de oferecer desempenho eficiente por dólar

Maia 200 faz parte da infraestrutura heterogênea de IA da Microsoft e atenderá múltiplos modelos, incluindo os mais recentes modelos GPT-5.2 da OpenAI, trazendo vantagem de desempenho por dólar para a Microsoft Foundry e o Microsoft 365 Copilot. A equipe Microsoft Superintelligence usará o Maia 200 para geração de dados sintéticos e aprendizado por reforço para melhorar modelos internos de próxima geração. Para casos de uso de pipelines de dados sintéticos, o design único do Maia 200 ajuda a acelerar a velocidade com que dados de alta qualidade, específicos de domínio, podem ser gerados e filtrados, alimentando o treinamento posterior com sinais mais recentes e direcionados.

Maia 200 está implementado inicialmente na região de Data Center do US Central, próxima a Des Moines, Iowa (EUA), com a região de Data Center US West 3 próxima a Phoenix, Arizona, vindo em seguida e futuras regiões virão a seguir. Maia 200 se integra perfeitamente com o Azure, e a Microsoft está apresentando também o Maia SDK com um conjunto completo de ferramentas para construir e otimizar modelos para Maia 200. Inclui um conjunto completo de capacidades, incluindo integração com o PyTorch, um compilador Triton e uma biblioteca otimizada do kernel, além de acesso à linguagem de programação de baixo nível do Maia. Isso oferece aos desenvolvedores controle detalhado quando necessário, ao mesmo tempo em que possibilita a portabilidade fácil de modelos entre aceleradores de hardware heterogêneos.

Fabricado com o processo de ponta de 3 nanômetros da TSMC, cada chip Maia 200 contém mais de 140 bilhões de transistores e é adaptado para cargas de trabalho de IA em grande escala, além de oferecer desempenho eficiente por dólar. Em ambos os aspectos, Maia 200 foi construído para se destacar. Ele foi projetado para os modelos mais recentes que utilizam computação de baixa precisão, com cada chip Maia 200 entregando mais de 10 petaFLOPS em precisão de 4 bits (FP4) e mais de 5 petaFLOPS de desempenho de 8 bits (FP8), tudo dentro de um envelope de TDP SoC de 750W. Na prática, a Maia 200 pode rodar facilmente os maiores modelos atuais, com bastante espaço para modelos ainda maiores no futuro.

Crucialmente, FLOPS não são o único ingrediente para uma IA mais rápida. Alimentar dados é igualmente importante. Maia 200 ataca esse gargalo com um subsistema de memória redesenhado. O subsistema de memória Maia 200 é centrado em tipos de dados de precisão estreita, um motor DMA especializado, SRAM integrada e um tecido NoC especializado para movimentação de dados de alta largura de banda, aumentando o throughput dos tokens.

Serviço
www.microsoft.com

As opiniões dos artigos/colunistas aqui publicados refletem exclusivamente a posição de seu autor, não caracterizando endosso, recomendação ou favorecimento por parte da Infor Channel ou qualquer outros envolvidos na publicação. Todos os direitos reservados. É proibida qualquer forma de reutilização, distribuição, reprodução ou publicação parcial ou total deste conteúdo sem prévia autorização da Infor Channel.
Revista Digital