A OpenAI, desenvolvedora do ChatGPT, anunciou que criou uma nova série de modelos de IA projetados para passar mais tempo “pensando” antes de responder. A empresa afirma que esses modelos podem raciocinar por meio de tarefas complexas e resolver problemas mais difíceis do que os modelos anteriores em ciência, codificação e matemática. Batizados de o1 e o1-mini, o primeiro é uma prévia já disponível no ChatGPT e em sua API e que deverá ter melhorias regulares. Já o o1-mini é uma versão mais básica e econômica.
Em nota (provavelmente escrita pela IA), a OpenAI diz que treinou esses modelos para passar mais tempo pensando nos problemas antes que eles respondam, assim como uma pessoa faria. Por meio do treinamento, eles aprendem a refinar seu processo de pensamento, tentar estratégias diferentes e reconhecer seus erros.
“Em nossos testes, a próxima atualização do modelo tem um desempenho semelhante ao dos alunos de doutorado em tarefas desafiadoras de referência em física, química e biologia. Também descobrimos que ele se destaca em matemática e codificação. Em um exame de qualificação para a Olimpíada Internacional de Matemática (IMO), a tecnologia anterior do GPT-4o resolveu corretamente apenas 13% dos problemas, enquanto o modelo atual o1 de raciocínio pontuou 83%. Suas habilidades de codificação foram avaliadas em concursos e alcançaram 89% em competições Codeforces”, diz a nota.
Segundo a empresa, como um modelo inicial, ele ainda não possui muitos dos recursos que tornam o ChatGPT útil, como navegar na Web em busca de informações e fazer upload de arquivos e imagens. Para muitos casos comuns, o GPT-4o será mais capaz no curto prazo. Mas para tarefas complexas de raciocínio, este é um avanço significativo e representa um novo nível de capacidade de IA. Diante disso, a companhia resolveu redefinir o contador de volta para 1 e está nomeando esta série de OpenAI o1.
Esses recursos de raciocínio aprimorados podem ser particularmente úteis se o usuário estiver lidando com problemas complexos em ciências, codificação, matemática e campos semelhantes. Por exemplo, o o1 pode ser usado por pesquisadores de saúde para anotar dados de sequenciamento de células, por físicos para gerar fórmulas matemáticas complicadas necessárias para a óptica quântica e por desenvolvedores em todos os campos para construir e executar fluxos de trabalho de várias etapas.
Segurança
Como parte do desenvolvimento desses novos modelos, a OpenAI criou uma nova abordagem de treinamento de segurança que aproveita suas capacidades de raciocínio para fazê-los aderir às diretrizes de segurança e alinhamento. Ao ser capaz de raciocinar sobre as regras de segurança no contexto, ele pode aplicá-las de forma mais eficaz.
Uma maneira de medir a segurança é testando o quão bem o modelo continua a seguir suas regras de segurança se um usuário tentar ignorá-las (conhecido como jailbreaking). Em um dos testes de jailbreak mais difíceis, GPT-4o marcou 22 (em uma escala de 0 a 100), enquanto o modelo de visualização o1 marcou 84.
Para combinar com os novos recursos desses modelos, a empresa afirma que reforçou o trabalho de segurança, governança interna e colaboração com o governo federal (EUA). Isso inclui testes e avaliações rigorosos usando nossa Estrutura de Preparação, a melhor equipe vermelha da categoria e processos de revisão em nível de diretoria, inclusive pelo Comitê de Segurança e Proteção interno.
Para avançar o seu compromisso com a segurança da IA, a OpenAI formalizou recentemente acordos com os Institutos de Segurança de IA dos EUA e do Reino Unido. A operacionalização desses acordos incluem a concessão de acesso antecipado aos institutos a uma versão de pesquisa desse modelo. Este foi um primeiro passo importante nessa parceria, ajudando a estabelecer um processo de pesquisa, avaliação e teste de modelos futuros antes e depois de seu lançamento público.
Versão básica
O OpenAI o1-mini é um modelo de raciocínio econômico. O o1-mini se destaca em STEM (Ciência, Tecnologia, Engenharia e Matemática, em português), especialmente matemática e codificação, quase igualando o desempenho do OpenAI o1 em benchmarks de avaliação, como AIME e Codeforces. Espera-se que o o1-mini seja um modelo mais rápido e econômico para aplicações que exigem raciocínio sem amplo conhecimento do mundo.
A OpenAI anunciou o lançamento do o1-mini para usuários da API de nível 5 a um custo 80% mais barato que o OpenAI o1-preview. Os usuários do ChatGPT Plus, Team, Enterprise e Edu podem usar o o1-mini como uma alternativa ao o1-preview, com limites de taxa mais altos e menor latência.
Leia nesta edição:
MATÉRIA DE CAPA | TIC APLICADA
Campo digitalizado: sustentabilidade e eficiência
TELECOMUNICAÇÕES
Infra para Conectividade: competição quente
NEGÓCIOS
Unidos para inovar
Esta você só vai ler na versão digital
APLICAÇÃO
A boa gestão de mídias sociais fortalece a marca
Baixe o nosso aplicativo