O Google apresentou na quarta-feira (6/12) o Gemini, o seu maior e mais sofisticado modelo de IA generativa, que promete fazer frente ao ChatGPT, da OpenAI, e o próximo passo da jornada de tornar a IA realmente útil para todos. Construído desde o início para ser multimodal, o Gemini pode generalizar e compreender, operar e combinar diferentes tipos de informações, incluindo texto, imagens, áudio, vídeo e código. Isso significa que possui raciocínio multimodal sofisticado e recursos avançados de codificação.
“Cada mudança tecnológica é uma oportunidade para promover a descoberta científica, acelerar o progresso humano e melhorar vidas. Acredito que a transição que estamos vendo agora com a IA será a mais profunda de nossas vidas, muito maior do que a mudança para dispositivos móveis ou para a Web antes dela. A IA tem o potencial de criar oportunidades – do cotidiano ao extraordinário – para pessoas em todo o mundo. Trará novas ondas de inovação e progresso econômico e impulsionará o conhecimento, a aprendizagem, a criatividade e a produtividade numa escala nunca vista antes”, afirmou Sundar Pichai, CEO do Google e da Alphabet.
“Estamos abordando este trabalho com ousadia e responsabilidade. Isso significa sermos ambiciosos na nossa investigação e procurarmos capacidades que trarão enormes benefícios às pessoas e à sociedade, ao mesmo tempo que construímos salvaguardas e trabalhamos em colaboração com governos e especialistas para enfrentar os riscos à medida que a IA se torna mais capaz. E continuamos a investir nas melhores ferramentas, modelos de base e infraestrutura e a trazê-los para os nossos produtos e para outros, guiados pelos nossos Princípios de IA”, completou Pichai.
Em três versões diferentes – Ultra, Pro e Nano – o Gemini tem flexibilidade para funcionar em tudo, desde Data Centers até dispositivos móveis. Ele está disponível em alguns dos principais produtos da empresa a partir de hoje. O Bard está usando uma versão aprimorada do Gemini Pro para raciocínio, planejamento, compreensão mais avançados e muito mais. O Pixel 8 Pro é o primeiro smartphone desenvolvido para Gemini Nano, usando-o em recursos como “Resumir no Gravador” e “Resposta Inteligente no Gboard”. E está em experimentação o Gemini in Search, que torna a Experiência Gerativa de Pesquisa (SGE) mais rápida. No início do próximo ano, chegará o Gemini Ultra para uma nova experiência do Bard Advanced; e nos próximos meses, o Gemini potencializará recursos em mais produtos e serviços do Google, como Ads, Chrome e Duet AI.
Desenvolvedores
Os desenvolvedores Android que desejam criar aplicativos com tecnologia Gemini no dispositivo agora podem se inscrever para uma prévia do Gemini Nano, por meio do Android AICore. A partir de 13 de dezembro, desenvolvedores e clientes corporativos poderão acessar o Gemini Pro por meio da API Gemini no Vertex AI ou no Google AI Studio, ferramenta gratuita para desenvolvedores baseada na Web. E à medida que o Gemini Ultra for refinado, incluindo a conclusão de extensas verificações de confiança e segurança, a promessa é disponibilizá-lo para grupos selecionados antes de abri-lo amplamente para desenvolvedores e clientes empresariais no início do próximo ano.
Demis Hassabis, CEO e cofundador do Google DeepMind, explicou que o Gemini 1.0, que foi a primeira versão, foi aprimorado e agora tem três versões diferentes:
– Gemini Ultra, o maior e mais capaz modelo para tarefas altamente complexas.
– Gemini Pro, o melhor modelo para escalar uma ampla gama de tarefas.
– Gemini Nano, modelo mais eficiente para tarefas no dispositivo.
“Até agora, a abordagem padrão para a criação de modelos multimodais envolvia treinar componentes separados para diferentes modalidades e depois juntá-los para imitar aproximadamente algumas dessas funcionalidades. Às vezes, esses modelos podem ser bons na execução de determinadas tarefas, como descrever imagens, mas enfrentam dificuldades com raciocínios mais conceituais e complexos”, comentou Hassabis. “Projetamos o Gemini para ser nativamente multimodal, pré-treinado desde o início em diferentes modalidades. Em seguida, o aperfeiçoamos com dados multimodais adicionais para refinar ainda mais a sua eficácia. Isso ajuda a Gemini a compreender e raciocinar perfeitamente sobre todos os tipos de informações desde o início, muito melhor do que os modelos multimodais existentes – e suas capacidades são de última geração em quase todos os domínios”, completou.
Aprimorando o Bard
Sissie Hsiao, vice-presidente e gerente-geral do Google Assistant e Bard, disse que o Gemini promoveu a maior atualização de Bard até agora. “O Gemini está sendo lançado no Bard em duas fases: A partir de hoje, o Bard usará uma versão especificamente ajustada do Gemini Pro em inglês para raciocínio, planejamento, compreensão mais avançados e muito mais. E no início do próximo ano, apresentaremos o Bard Advanced, que oferece acesso antecipado aos nossos modelos e recursos mais avançados, começando com o Gemini Ultra”, revelou a executiva.
Segundo a executiva, antes de trazê-lo ao público, o Gemini Pro foi executado em vários benchmarks padrão da indústria. Em seis dos oito benchmarks, o Gemini Pro superou o GPT-3.5, inclusive em MMLU (Massive Multitask Language Understanding), um dos principais padrões para medir grandes modelos de IA, e GSM8K, que mede o raciocínio matemático do ensino fundamental.
“Ajustamos especificamente o Gemini Pro no Bard para ser muito mais capaz em coisas como compreensão, resumo, raciocínio, codificação e planejamento. E estamos vendo ótimos resultados: em avaliações cegas com nossos avaliadores terceirizados, o Bard é agora o chatbot gratuito preferido em comparação com as principais alternativas”, finalizou.
Serviço
www.google.com.
Leia nesta edição:
CAPA | TECNOLOGIA
Centros de Dados privados ainda geram bons negócios
TENDÊNCIA
Processadores ganham centralidade com IA
TIC APLICADA
Digitalização do canteiro de obras
Esta você só vai ler na versão digital
TECNOLOGIA
A tecnologia RFID está madura, mas há espaço para crescimento
Baixe o nosso aplicativo