Anthropic apresenta Fable 5 e Mythos 5, seus modelos de IA mais poderosos

A Anthropic, criadora da IA Agêntica Claude, apresentou o Fable 5, um modelo Mythos-classe1 que a empresa afirma ter tornado seguro para uso geral. Segundo informações, as capacidades do Fable 5 superam as de qualquer modelo que a Anthropic já disponibilizou de forma geral. É o estado de arte em quase todos os benchmarks testados de capacidade de IA, demonstrando desempenho excepcional em engenharia de software, trabalho do conhecimento, visão, pesquisa científica e muitas outras áreas. Quanto maior e mais complexa a tarefa, maior a vantagem dos Fable 5 sobre nossos outros modelos.

Lançar um modelo tão poderoso traz riscos. Sem salvaguardas, as capacidades do Fable 5 em áreas como cibersegurança poderiam ser mal utilizadas para causar danos graves. Para lançar o modelo de forma segura e rápida, as salvaguardas inseridas são conservadora — às vezes elas detectam solicitações inofensivas, embora sejam acionadas, em média, em menos de 5% das sessões. Com modelos mais capazes chegando nos próximos meses, a empresa está trabalhando para melhorar suas salvaguardas e reduzir falsos positivos.

Fable 5 e Mythos 5 podem funcionar de forma autônoma por mais tempo do que qualquer modelo Claude anterior. Essas habilidades se aplicam à engenharia de software e em trabalhos envolvendo conhecimento, visão, memória e pesquisa em ciências da vida.

Engenharia de software

Durante os primeiros testes, uma parceira relatou que Fable 5 condensou meses de engenharia em dias. Em uma base de código Ruby de 50 milhões de linhas, o modelo realizou uma migração para toda a base de código em um dia que, de outra forma, levaria uma equipe inteira por mais de dois meses de trabalho. O Fable 5 também é mais eficiente em termos de tokens do que os modelos Claude anteriores: na avaliação FrontierCode da Cognition, que testa se os modelos conseguem passar por tarefas difíceis de codificação enquanto atendem aos padrões de bases de código de produção de alta qualidade, o Fable 5 obtém a maior pontuação entre os modelos de fronteira, mesmo em esforço médio.

Trabalho do conhecimento

O Fable 5 apresenta forte desempenho em tarefas analíticas complexas. No Finance Benchmark de Hebbia para raciocínio de nível sênior, o Fable 5 tem a maior pontuação de todos os modelos, com ganhos substanciais em raciocínio baseado em documentos, interpretação de gráficos e tabelas, e resolução de problemas. A IMC observou que a Fable 5 excedeu em suas avaliações de análise de negociação quase em todos os aspectos, incluindo consulta factual, raciocínio conceitual, análise da causa raiz e análise de valor esperado.

Visão

O Fable 5 é o novo modelo de ponta para tarefas que envolvem visão. Ele pode extrair números precisos de números científicos detalhados e realizar tarefas complexas baseadas em visão, como reconstruir o código-fonte de um aplicativo Web apenas a partir de capturas de tela. Também precisa de menos andaimes: por exemplo, do que modelos anteriores do Claude, que tinham dificuldade para jogar Pokémon FireRed mesmo com arnês que lhes davam ferramentas úteis adicionais. O Fable 5 superou FireRed com um arnês minimalista, apenas com a visão.

Memória e contexto longo

O Fable 5 mantém o foco em milhões de tokens em tarefas de longa duração e melhora seus resultados usando suas próprias notas. Quando o modelo jogou o game de construção de decks Slay the Spire, dar acesso a memória persistente baseada em arquivos melhorou seu desempenho três vezes mais do que no Opus 4.8 – o Fable também chegou ao ato final do jogo três vezes mais.

Design de medicamentos

Usando o Mythos 5, os especialistas em design interno de proteínas aceleraram aspectos do processo de design de medicamentos em cerca de dez vezes. Em um exemplo, eles descobriram que o Mito 5, com ferramentas de design de proteínas e bioinformática mas sem assistência humana, iguala ou supera operadores humanos habilidosos. Ao fazer isso, o modelo executa todas as tarefas normalmente realizadas por um cientista: escolher os locais de ligação, selecionar e executar ferramentas de design de proteínas, e se recuperar de falhas ao longo do caminho. 9 dos 14 alvos proteicos deste estudo apresentaram fortes candidatos para o design de fármacos investigados atualmente.

As novas salvaguardas do Claude Fable 5

Modelos da classe Mythos atingiram um limite em que apresentam riscos significativos. Em abril, foi iniciado o Projeto Glasswing, lançando o primeiro modelo da classe Mythos (Claude Mythos Preview) apenas para um grupo limitado de defensores cibernéticos e provedores de infraestrutura de software crítica. Ao fazer isso, a Anthropic declarou na época que esperava liberar capacidades em nível Mythos para todos os usuários, desde que tivesse desenvolvido novas salvaguardas fortes o suficiente para evitar o uso indevido de forma confiável.

Nos últimos meses, a empresa afirma ter melhorado essas salvaguardas, e agora elas são robustas o suficiente para uma versão geral. Como a empresa prioriza a segurança, ela ajustou deliberadamente as salvaguardas para serem cautelosas, e elas são mais rigorosas do que seria ideal — por exemplo, às vezes pedidos benignos acionam os classificadores. Isso pode frustrar alguns usuários, mas a empresa firma que está trabalhando nisso e que espera reduzir falsos positivos à medida que atualiza e refina as salvaguardas após o lançamento.

Agêntica Fable 5 IA Mythos risco

As opiniões dos artigos/colunistas aqui publicados refletem exclusivamente a posição de seu autor, não caracterizando endosso, recomendação ou favorecimento por parte da Infor Channel ou qualquer outros envolvidos na publicação. Todos os direitos reservados. É proibida qualquer forma de reutilização, distribuição, reprodução ou publicação parcial ou total deste conteúdo sem prévia autorização da Infor Channel.

Anthropic apresenta Fable 5 e Mythos 5, seus modelos de IA mais poderosos

Para mais de 50% das empresas cresce a falta de competências em IA

Itaipu Parquetec implementa Wi-Fi 7 da Cisco em tempo recorde

MSP Estúdios reforça segurança digital com ajuda da Adentro

Para mais de 50% das empresas cresce a falta de competências em IA

Itaipu Parquetec implementa Wi-Fi 7 da Cisco em tempo recorde

MSP Estúdios reforça segurança digital com ajuda da Adentro

Check Point alerta para malware Qbot e sequestro de históricos de e-mails

Jus IA ganha nova experiência e amplia capacidades do assistente jurídico

Relatório do ISG aponta crescimento na adoção de IoT no Brasil

Check Point alerta para malware Qbot e sequestro de históricos de e-mails

Jus IA ganha nova experiência e amplia capacidades do assistente jurídico

Relatório do ISG aponta crescimento na adoção de IoT no Brasil

CASE

Programa Transforma Futuros

Turmas Confirmadas: Cursos Oficiais F5

Turmas Confirmadas: Cursos Oficiais Fortinet

Turmas Confirmadas Fortinet

Turmas Confirmadas F5 Networks

Turmas Confirmadas F5 Networks

Agenda & Eventos

Compartilhar:

Para mais de 50% das empresas cresce a falta de competências em IA

Itaipu Parquetec implementa Wi-Fi 7 da Cisco em tempo recorde

MSP Estúdios reforça segurança digital com ajuda da Adentro

Para mais de 50% das empresas cresce a falta de competências em IA

Itaipu Parquetec implementa Wi-Fi 7 da Cisco em tempo recorde

MSP Estúdios reforça segurança digital com ajuda da Adentro

Check Point alerta para malware Qbot e sequestro de históricos de e-mails

Jus IA ganha nova experiência e amplia capacidades do assistente jurídico

Relatório do ISG aponta crescimento na adoção de IoT no Brasil

Check Point alerta para malware Qbot e sequestro de históricos de e-mails

Jus IA ganha nova experiência e amplia capacidades do assistente jurídico

Relatório do ISG aponta crescimento na adoção de IoT no Brasil

CASE

Programa Transforma Futuros

Turmas Confirmadas: Cursos Oficiais F5

Turmas Confirmadas: Cursos Oficiais Fortinet

Turmas Confirmadas Fortinet

Turmas Confirmadas F5 Networks

Turmas Confirmadas F5 Networks

Informe seu e-mail para receber os destaques da semana.

Agenda & Eventos

Informe seu e-mail para receber os destaques da semana.