
A Red Hat, fornecedora global de soluções open source, anunciou o Red Hat AI Inference Server, um passo significativo para democratizar a IA generativa (GenAI) em toda a Nuvem híbrida. Uma nova oferta dentro do Red Hat AI, o servidor de inferência de nível empresarial nasce do poderoso projeto da comunidade vLLM e aprimorado pela integração das tecnologias Neural Magic da Red Hat, oferecendo maior velocidade, eficiência do acelerador e economia para ajudar a entregar a visão da Red Hat de executar qualquer modelo de IA de geração em qualquer acelerador de IA em qualquer ambiente de Nuvem. Seja implementada de forma independente ou como um componente integrado do Red Hat Enterprise Linux AI (RHEL AI) e do Red Hat OpenShift AI, essa plataforma capacita as organizações a implementar e escalar a IA generativa em produção com mais confiança.
“O Red Hat AI Inference Server destina-se a atender à demanda por inferência responsiva e de alto desempenho em escala, mantendo as demandas de recursos baixas, fornecendo uma camada de inferência comum que oferece suporte a qualquer modelo, sendo executada em qualquer acelerador em qualquer ambiente”, disse Joe Fernandes, vice-presidente e gerente-geral da unidade de negócios de IA da Red Hat.
A inferência é o mecanismo de execução crítico da IA, em que modelos pré-treinados traduzem dados em impacto no mundo real. É o ponto central da interação do usuário, exigindo respostas rápidas e precisas. À medida que os modelos de IA de geração explodem em complexidade e escala de implementações de produção, a inferência pode se tornar um gargalo significativo, devorando recursos de hardware e ameaçando prejudicar a capacidade de resposta e inflar os custos operacionais. Servidores de inferência robustos não são mais um luxo, mas uma necessidade para desbloquear o verdadeiro potencial da IA em escala, navegando pelas complexidades subjacentes com maior facilidade.
A Red Hat aborda diretamente esses desafios com o Red Hat AI Inference Server, uma solução de inferência aberta projetada para alta performance e equipada com as principais ferramentas de compactação e otimização de modelos. Essa inovação capacita as organizações a aproveitar totalmente o poder transformador da geração IA, oferecendo experiências de usuário dramaticamente mais responsivas e liberdade incomparável na escolha de aceleradores, modelos e ambientes de TI de IA.
vLLM: estendendo a inovação de inferência
O Red Hat AI Inference Server se baseia no projeto vLLM, iniciado pela Universidade da Califórnia, Berkeley, em meados de 2023. O projeto da comunidade oferece inferência de IA de geração de alto rendimento, suporte para contexto de entrada grande, aceleração de modelo de várias GPUs, suporte para lotes contínuos e muito mais.
O amplo suporte do vLLM para modelos disponíveis publicamente – juntamente com sua integração de dia zero dos principais modelos de fronteira, incluindo DeepSeek, Gemma do Google, Llama, Llama Nemotron, Mistral, Phi e outros, bem como modelos de raciocínio abertos de nível empresarial como Llama Nemotron – o posiciona como um padrão de fato para futuras inovações de inferência de IA. Os principais provedores de modelos de fronteira estão adotando cada vez mais o vLLM, solidificando seu papel crítico na formação do futuro da geração AI.
Apresentando o Red Hat AI Inference Server
O Red Hat AI Inference Server reúne a inovação líder do vLLM e a transforma nos recursos de nível empresarial do Red Hat AI Inference Server. O Red Hat AI Inference Server está disponível como uma oferta autônoma em contêiner ou como parte do RHEL AI e do Red Hat OpenShift AI.
Em qualquer ambiente de implantação, o Red Hat AI Inference Server oferece aos usuários uma distribuição reforçada e compatível de vLLM, juntamente com:
– Ferramentas inteligentes de compactação LLM para reduzir drasticamente o tamanho dos modelos de IA fundamentais e ajustados, minimizando o consumo de computação e preservando e potencialmente aprimorando a precisão do modelo.
– O repositório de modelos otimizado, hospedado na organização Red Hat AI no Hugging Face, oferece acesso instantâneo a uma coleção validada e otimizada dos principais modelos de IA prontos para implantação de inferência, ajudando a acelerar a eficiência em 2 a 4 vezes sem comprometer a precisão do modelo.
– O suporte corporativo da Red Hat e décadas de experiência em trazer projetos comunitários para ambientes de produção.
– Suporte de terceiros para uma flexibilidade de implantação ainda maior, permitindo que o Red Hat AI Inference Server seja implantado em plataformas Linux e Kubernetes que não sejam da Red Hat de acordo com a política de suporte de terceiros da Red Hat.
A visão da Red Hat: qualquer modelo, qualquer acelerador, qualquer Nuvem
O futuro da IA deve ser definido por oportunidades ilimitadas, não limitado por silos de infraestrutura. A Red Hat vê um horizonte em que as organizações podem implementar qualquer modelo, em qualquer acelerador, em qualquer Nuvem, oferecendo uma experiência de usuário excepcional e mais consistente sem custos exorbitantes. Para liberar o verdadeiro potencial dos investimentos em IA de geração, as empresas precisam de uma plataforma de inferência universal – um padrão para inovação de IA mais contínua e de alto desempenho, hoje e nos próximos anos.
Assim como a Red Hat foi pioneira na empresa aberta, transformando o Linux na base da TI moderna, a empresa agora está pronta para arquitetar o futuro da inferência de IA. O potencial do vLLM é o de um elemento fundamental para a inferência de IA de geração padronizada, e a Red Hat está comprometida em construir um ecossistema próspero em torno não apenas da comunidade vLLM, mas também do llm-d para inferência distribuída em escala. A visão é clara: independentemente do modelo de IA, do acelerador subjacente ou do ambiente de implantação, a Red Hat pretende tornar o vLLM o padrão aberto definitivo para inferência em toda a nova nuvem híbrida.

Leia nesta edição:

CAPA - TECNOLOGIA
Arquitetura neuromórfica, a plataforma inspirada no cérebro humano

MERCADO
O bom negócio da locação de equipamentos de TI

SEGURANÇA DIGITAL
Dilemas e oportunidades de blockchain para identidade
EXCLUSIVA DIGITAL

VERSÃO LATAM
Agora a versão digital também é LATAM
Baixe o nosso aplicativo












