
A Anthropic, criadora da IA Agêntica Claude, apresentou o Fable 5, um modelo Mythos-classe1 que a empresa afirma ter tornado seguro para uso geral. Segundo informações, as capacidades do Fable 5 superam as de qualquer modelo que a Anthropic já disponibilizou de forma geral. É o estado de arte em quase todos os benchmarks testados de capacidade de IA, demonstrando desempenho excepcional em engenharia de software, trabalho do conhecimento, visão, pesquisa científica e muitas outras áreas. Quanto maior e mais complexa a tarefa, maior a vantagem dos Fable 5 sobre nossos outros modelos.
Lançar um modelo tão poderoso traz riscos. Sem salvaguardas, as capacidades do Fable 5 em áreas como cibersegurança poderiam ser mal utilizadas para causar danos graves. Para lançar o modelo de forma segura e rápida, as salvaguardas inseridas são conservadora — às vezes elas detectam solicitações inofensivas, embora sejam acionadas, em média, em menos de 5% das sessões. Com modelos mais capazes chegando nos próximos meses, a empresa está trabalhando para melhorar suas salvaguardas e reduzir falsos positivos.
Fable 5 e Mythos 5 podem funcionar de forma autônoma por mais tempo do que qualquer modelo Claude anterior. Essas habilidades se aplicam à engenharia de software e em trabalhos envolvendo conhecimento, visão, memória e pesquisa em ciências da vida.
Engenharia de software
Durante os primeiros testes, uma parceira relatou que Fable 5 condensou meses de engenharia em dias. Em uma base de código Ruby de 50 milhões de linhas, o modelo realizou uma migração para toda a base de código em um dia que, de outra forma, levaria uma equipe inteira por mais de dois meses de trabalho. O Fable 5 também é mais eficiente em termos de tokens do que os modelos Claude anteriores: na avaliação FrontierCode da Cognition, que testa se os modelos conseguem passar por tarefas difíceis de codificação enquanto atendem aos padrões de bases de código de produção de alta qualidade, o Fable 5 obtém a maior pontuação entre os modelos de fronteira, mesmo em esforço médio.
Trabalho do conhecimento
O Fable 5 apresenta forte desempenho em tarefas analíticas complexas. No Finance Benchmark de Hebbia para raciocínio de nível sênior, o Fable 5 tem a maior pontuação de todos os modelos, com ganhos substanciais em raciocínio baseado em documentos, interpretação de gráficos e tabelas, e resolução de problemas. A IMC observou que a Fable 5 excedeu em suas avaliações de análise de negociação quase em todos os aspectos, incluindo consulta factual, raciocínio conceitual, análise da causa raiz e análise de valor esperado.
Visão
O Fable 5 é o novo modelo de ponta para tarefas que envolvem visão. Ele pode extrair números precisos de números científicos detalhados e realizar tarefas complexas baseadas em visão, como reconstruir o código-fonte de um aplicativo Web apenas a partir de capturas de tela. Também precisa de menos andaimes: por exemplo, do que modelos anteriores do Claude, que tinham dificuldade para jogar Pokémon FireRed mesmo com arnês que lhes davam ferramentas úteis adicionais. O Fable 5 superou FireRed com um arnês minimalista, apenas com a visão.
Memória e contexto longo
O Fable 5 mantém o foco em milhões de tokens em tarefas de longa duração e melhora seus resultados usando suas próprias notas. Quando o modelo jogou o game de construção de decks Slay the Spire, dar acesso a memória persistente baseada em arquivos melhorou seu desempenho três vezes mais do que no Opus 4.8 – o Fable também chegou ao ato final do jogo três vezes mais.
Design de medicamentos
Usando o Mythos 5, os especialistas em design interno de proteínas aceleraram aspectos do processo de design de medicamentos em cerca de dez vezes. Em um exemplo, eles descobriram que o Mito 5, com ferramentas de design de proteínas e bioinformática mas sem assistência humana, iguala ou supera operadores humanos habilidosos. Ao fazer isso, o modelo executa todas as tarefas normalmente realizadas por um cientista: escolher os locais de ligação, selecionar e executar ferramentas de design de proteínas, e se recuperar de falhas ao longo do caminho. 9 dos 14 alvos proteicos deste estudo apresentaram fortes candidatos para o design de fármacos investigados atualmente.
As novas salvaguardas do Claude Fable 5
Modelos da classe Mythos atingiram um limite em que apresentam riscos significativos. Em abril, foi iniciado o Projeto Glasswing, lançando o primeiro modelo da classe Mythos (Claude Mythos Preview) apenas para um grupo limitado de defensores cibernéticos e provedores de infraestrutura de software crítica. Ao fazer isso, a Anthropic declarou na época que esperava liberar capacidades em nível Mythos para todos os usuários, desde que tivesse desenvolvido novas salvaguardas fortes o suficiente para evitar o uso indevido de forma confiável.
Nos últimos meses, a empresa afirma ter melhorado essas salvaguardas, e agora elas são robustas o suficiente para uma versão geral. Como a empresa prioriza a segurança, ela ajustou deliberadamente as salvaguardas para serem cautelosas, e elas são mais rigorosas do que seria ideal — por exemplo, às vezes pedidos benignos acionam os classificadores. Isso pode frustrar alguns usuários, mas a empresa firma que está trabalhando nisso e que espera reduzir falsos positivos à medida que atualiza e refina as salvaguardas após o lançamento.

Leia nesta edição:

CAPA - TECNOLOGIA
Arquitetura neuromórfica, a plataforma inspirada no cérebro humano

MERCADO
O bom negócio da locação de equipamentos de TI

SEGURANÇA DIGITAL
Dilemas e oportunidades de blockchain para identidade
EXCLUSIVA DIGITAL

VERSÃO LATAM
Agora a versão digital também é LATAM
Baixe o nosso aplicativo














