A IBM revelou nesta segunda-feira (26/8) detalhes da arquitetura para o próximo processador IBM Telum II e IBM Spyre Accelerator. As novas tecnologias são projetadas para dimensionar significativamente a capacidade de processamento em sistemas de mainframe IBM Z de próxima geração, ajudando a acelerar o uso de modelos tradicionais de IA e modelos de IA de linguagem grande em conjunto por meio de um novo método de conjunto de IA.
Com muitos projetos de IA generativa aproveitando Large Language Models (LLMs) passando da prova de conceito para a produção, as demandas por soluções com baixo consumo de energia, seguras e escaláveis surgiram como principais prioridades. Uma pesquisa do Morgan Stanley publicada em agosto projeta que as demandas de energia da IA generativa dispararão 75% ao ano nos próximos anos, colocando-a no caminho certo para consumir tanta energia em 2026 quanto toda a Espanha em 2022. Muitos clientes IBM indicam que as decisões de arquitetura para suportar modelos de base de tamanho apropriado e as abordagens híbridas por design para cargas de trabalho de IA são cada vez mais importantes.
As principais inovações reveladas hoje incluem:
Processador IBM Telum II: Projetado para alimentar os sistemas IBM Z de próxima geração, o novo chip IBM apresenta maior frequência, capacidade de memória, um crescimento de 40% no cache e núcleo acelerador de IA integrado, bem como uma Unidade de Processamento de Dados (DPU) conectada de forma coerente em comparação com o chip Telum de primeira geração. Espera-se que o novo processador ofereça suporte a soluções de computação corporativa para LLMs, atendendo às complexas necessidades de transações do setor.
Unidade de aceleração de E/S: uma unidade de processamento de dados (DPU) completamente nova no chip do processador Telum II foi projetada para acelerar protocolos de E/S complexos para rede e armazenamento no mainframe. A DPU simplifica as operações do sistema e pode melhorar o desempenho dos principais componentes.
Acelerador IBM Spyre: fornece capacidade adicional de computação de IA para complementar o processador Telum II. Trabalhando juntos, os chips Telum II e Spyre formam uma arquitetura escalável para suportar métodos conjuntos de modelagem de IA – a prática de combinar vários modelos de IA de aprendizado de máquina ou aprendizado profundo com LLMs codificadores. Ao aproveitar os pontos fortes de cada arquitetura de modelo, o ensemble AI pode fornecer resultados mais precisos e robustos em comparação com modelos individuais. O chip IBM Spyre Accelerator será entregue como uma opção adicional. Cada chip acelerador é conectado por meio de um adaptador PCIe de 75 watts e é baseado em tecnologia desenvolvida em colaboração com a IBM Research. Tal como acontece com outras placas PCIe, o Spyre Accelerator é escalável para atender às necessidades do cliente.
“Nosso roteiro robusto de várias gerações nos posiciona para permanecer à frente das tendências tecnológicas, incluindo demandas crescentes de IA”, disse Tina Tarquinio, vice-presidente de Gerenciamento de Produtos da IBM Z e LinuxONE. “O processador Telum II e o Spyre Accelerator foram projetados para fornecer soluções de computação empresarial de alto desempenho, seguras e com maior eficiência energética. Após anos de desenvolvimento, essas inovações serão introduzidas em nossa plataforma IBM Z de próxima geração para que os clientes possam aproveitar LLMs e IA generativa em escala”, comentou.
O processador Telum II e o IBM Spyre Accelerator serão fabricados pelo parceiro de fabricação de longa data da IBM, a Samsung Foundry, e construídos em seu nó de processo de 5 nm de alto desempenho e eficiência energética. Trabalhando em conjunto, eles apoiarão uma variedade de casos de uso avançados orientados por IA, projetados para desbloquear valor comercial e criar novas vantagens competitivas. Com métodos conjuntos de IA, os clientes podem obter resultados mais rápidos e precisos em suas previsões. O poder de processamento combinado anunciado hoje fornecerá uma rampa de acesso para a aplicação de casos de uso de IA generativa. Alguns exemplos podem incluir:
Detecção de fraude de sinistros de seguros: detecção aprimorada de fraudes em sinistros de seguros residenciais por meio do ensemble AI, que combina LLMs com redes neurais tradicionais voltadas para melhor desempenho e precisão.
Combate avançado à lavagem de dinheiro: detecção avançada de atividades financeiras suspeitas, apoiando a conformidade com os requisitos regulatórios e mitigando o risco de crimes financeiros.
Assistentes de IA: impulsionando a aceleração do ciclo de vida do aplicativo, transferência de conhecimento e experiência, explicação de código, transformação e muito mais.
Especificações e métricas de desempenho
Processador Telum II: com oito núcleos de alto desempenho rodando a 5,5 GHz, com 36 MB de cache L2 por núcleo e um aumento de 40% na capacidade de cache no chip para um total de 360 MB. O cache virtual de nível 4 de 2,88 GB por gaveta do processador oferece um aumento de 40% em relação à geração anterior. O acelerador de IA integrado permite inferência de IA na transação de baixa latência e alto rendimento, por exemplo, aprimorando a detecção de fraudes durante transações financeiras, e fornece um aumento de quatro vezes na capacidade de computação por chip em relação à geração anterior.
A nova unidade de aceleração de E/S DPU está integrada ao chip Telum II. Ele foi projetado para melhorar o manuseio de dados com uma densidade de E/S 50% maior. Esse avanço aumenta a eficiência geral e a escalabilidade do IBM Z, tornando-o adequado para lidar com as cargas de trabalho de IA em larga escala e aplicativos com uso intensivo de dados das empresas atuais.
Spyre Accelerator: um acelerador de nível empresarial desenvolvido especificamente que oferece recursos escaláveis para modelos complexos de IA e casos de uso de IA generativa está sendo exibido. Ele possui até 1 TB de memória, criado para funcionar em conjunto nas oito placas de uma gaveta de E/S regular, para suportar cargas de trabalho de modelo de IA no mainframe, projetado para consumir não mais do que 75 W por placa. Cada chip terá 32 núcleos de computação com suporte para tipos de dados int4, int8, fp8 e fp16 para aplicativos de IA de baixa latência e alto rendimento.
Leia nesta edição:
MATÉRIA DE CAPA | TECNOLOGIA
O salto do Supply Chain
SEGURANÇA DA INFORMAÇÃO
Superações na Segurança de Dados
CARREIRA
A arte de navegar em meio à tempestade
Esta você só vai ler na versão digital
APLICAÇÃO
O mundo cabe dentro de um token
Baixe o nosso aplicativo