A Cloudflare, empresa global de conectividade em Nuvem, anunciou nesta quinta-feira (26/9) novos recursos para o Workers AI, a plataforma de IA sem servidor e seu conjunto de blocos de construção de aplicativos de IA, para ajudar os desenvolvedores a criar aplicativos de IA mais rápidos, poderosos e com melhor desempenho. Os aplicativos criados com base na IA do Workers agora podem se beneficiar de inferência mais rápida, modelos maiores, análise de desempenho aprimorada e muito mais. O Workers AI é uma plataforma que facilita criar aplicativos globais de IA e executar inferência de IA perto do usuário, não importa em que lugar do mundo ele esteja.
À medida que os grandes modelos de linguagem (LLMs) se tornam menores e mais eficientes, as velocidades de rede se tornarão o gargalo para a adoção do cliente e as interações contínuas de IA. A rede distribuída globalmente da Cloudflare ajuda a minimizar a latência da rede, diferenciando-a de outras redes que normalmente são compostas por recursos concentrados em Data Centers limitados.
A plataforma de inferência sem servidor Workers AI da Cloudflare, agora tem GPUs em mais de 180 cidades ao redor do mundo, criadas para acessibilidade global para fornecer tempos de baixa latência para usuários finais em todo o mundo. Com essa rede de GPUs, o Workers AI tem uma das maiores pegadas globais de qualquer plataforma de IA e foi projetado para executar inferência de IA localmente o mais próximo possível do usuário e ajudar a manter os dados do cliente mais perto de casa.
“Quando a IA decolou no ano passado, ninguém estava pensando nas velocidades da rede como motivo para a latência da IA, porque ainda era uma interação nova e experimental. Mas, à medida que nos aproximamos da IA se tornar parte de nossas vidas diárias, a rede e os milissegundos serão importantes”, disse Matthew Prince, cofundador e CEO da Cloudflare. “À medida que as cargas de trabalho de IA mudam do treinamento para a inferência, o desempenho e a disponibilidade regional serão essenciais para apoiar a próxima fase da IA. A Cloudflare é a plataforma de IA mais global do mercado, e ter GPUs em cidades ao redor do mundo será o que levará a IA de um novo brinquedo a uma parte de nossa vida cotidiana, assim como a Internet mais rápida fez para smartphones”, afirmou.
A Cloudflare também está introduzindo novos recursos que a tornam a plataforma mais fácil de criar aplicativos de IA com:
Desempenho e suporte atualizados para modelos maiores: agora, a Cloudflare está aprimorando sua rede global com GPUs mais poderosas para Workers AI para atualizar o desempenho de inferência de IA e executar inferência em modelos significativamente maiores, como Llama 3.1 70B, bem como a coleção de modelos Llama 3.2 com 1B, 3B, 11B (e 90B em breve). Ao oferecer suporte a modelos maiores, tempos de resposta mais rápidos e janelas de contexto maiores, os aplicativos de IA criados com base na IA do Workers da Cloudflare podem lidar com tarefas mais complexas com maior eficiência, criando assim experiências naturais e perfeitas para o usuário final.
Monitoramento aprimorado e otimização do uso de IA com logs persistentes: os novos registros persistentes no AI Gateway, disponíveis em beta aberto, permitem que os desenvolvedores armazenem as solicitações dos usuários e modelem as respostas por longos períodos para analisar e entender melhor o desempenho do aplicativo. Com logs persistentes, os desenvolvedores podem obter insights mais detalhados das experiências dos usuários, incluindo custo e duração das solicitações, para ajudar a refinar seu aplicativo. Mais de dois bilhões de solicitações passaram pelo AI Gateway desde o lançamento no ano passado.
Consultas mais rápidas e acessíveis: os bancos de dados vetoriais facilitam a lembrança de entradas anteriores pelos modelos, permitindo que o aprendizado de máquina seja usado para potencializar casos de uso de pesquisa, recomendações e geração de texto. O banco de dados vetorial da Cloudflare, Vectorize, agora está disponível para o público em geral e oferece suporte a índices de até 5 milhões de vetores cada, acima dos 200 mil anteriores. A latência média da consulta agora caiu para 31 milissegundos (ms), em comparação com 549 ms. Essas melhorias permitem que os aplicativos de IA encontrem informações relevantes rapidamente com menos processamento de dados, o que também significa aplicativos de IA mais acessíveis.
Leia nesta edição:
MATÉRIA DE CAPA | TIC APLICADA
Campo digitalizado: sustentabilidade e eficiência
TELECOMUNICAÇÕES
Infra para Conectividade: competição quente
NEGÓCIOS
Unidos para inovar
Esta você só vai ler na versão digital
APLICAÇÃO
A boa gestão de mídias sociais fortalece a marca
Baixe o nosso aplicativo