book_icon

Mitre e Microsoft colaboram para combater os riscos da IA generativa

O Mitre Atlas é uma base de conhecimento que a comunidade de profissionais de segurança, desenvolvedores de IA e operadores de IA podem usar para proteger sistemas habilitados para IA generativa

Mitre e Microsoft colaboram para combater os riscos da IA generativa

O Mitre e a Microsoft adicionaram um foco na IA generativa orientada por dados ao Mitre Atlas, uma base de conhecimento que a comunidade de profissionais de segurança, desenvolvedores de IA e operadores de IA podem usar para proteger sistemas habilitados para Inteligência Artificial (IA). Esta nova atualização da estrutura e os novos estudos de caso associados abordam diretamente vulnerabilidades exclusivas de sistemas que incorporam IA generativa e modelos de linguagem grande (LLM), como ChatGPT e Bard.

As atualizações do Mitre Atlas – que significa Adversarial Threat Landscape for Artificial-Intelligence Systems – têm como objetivo descrever de forma realista o número e o tipo cada vez maior de caminhos de ataque em sistemas habilitados para LLM que consumidores e organizações estão adotando rapidamente. Essas caracterizações de caminhos realistas de ataque a sistemas habilitados para IA podem ser usadas para fortalecer as defesas contra ataques maliciosos em uma variedade de aplicações consequentes de IA, inclusive em saúde, finanças e transporte.

A colaboração da comunidade Atlas agora se concentrará no compartilhamento de incidentes e vulnerabilidades para continuar a aumentar o conjunto de dados anônimos da comunidade sobre ataques e vulnerabilidades do mundo real observados

“Muitos estão preocupados com a segurança dos sistemas habilitados para IA, além da segurança cibernética, incluindo grandes modelos de linguagem”, disse Ozgur Eris, diretor administrativo do Centro de Inovação em IA e Autonomia do Mitre. “Nossos esforços colaborativos com a Microsoft e outros são fundamentais para o avanço do Atlas como um recurso para a nação”, completou.

“A Microsoft e o Mitre trabalharam com a comunidade Atlas para lançar a primeira versão da estrutura Atlas para tabular ataques a sistemas de IA em 2020 e, desde então, tornou-se a Pedra de Roseta de fato para os profissionais de segurança compreenderem esta mudança em constante mudança”, disse Ram Shankar Siva Kumar, especialista em segurança de dados da Microsoft. “A mais recente evolução do Atlas para incluir mais ataques LLM e estudos de caso ressalta a incrível relevância e utilidade da estrutura”, completou.

Mitre Atlas é uma base de conhecimento viva e globalmente acessível de táticas e técnicas adversárias, baseada em observações de ataques no mundo real e demonstrações realistas de equipes vermelhas (red teams) de IA e grupos de segurança. O projeto Atlas envolve colaboração global com mais de 100 organizações governamentais, acadêmicas e industriais. Sob esse guarda-chuva de colaboração, o Mitre e a Microsoft trabalharam juntos para expandir o Atlas e desenvolver ferramentas baseadas na estrutura para capacitar a indústria, o governo e a academia enquanto todos trabalhamos para aumentar a segurança dos nossos sistemas habilitados para IA.

Essas novas táticas e técnicas ATLAS são baseadas em estudos de caso de incidentes descobertos por usuários ou pesquisadores de segurança que ocorreram em 2023, incluindo:

Vazamento de privacidade do plug-in ChatGPT: descoberta de uma vulnerabilidade de injeção indireta de prompt no ChatGPT, onde um invasor pode alimentar sites maliciosos por meio de plug-ins ChatGPT para assumir o controle de uma sessão de bate-papo e exfiltrar o histórico da conversa.

PoisonGPT: demonstrado como modificar com sucesso um LLM pré-treinado para retornar fatos falsos. Como parte desta demonstração, o modelo envenenado foi carregado no maior centro de modelos acessível ao público para ilustrar as consequências impostas à cadeia de abastecimento do LLM. Como resultado, os usuários que baixaram o modelo envenenado corriam o risco de receber e espalhar informações erradas.

Execução de código MathGPT: expôs uma vulnerabilidade no MathGPT – que usa GPT-3 para responder questões matemáticas – para provocar ataques de injeção, permitindo que um ator obtenha acesso às variáveis ​​de ambiente do sistema host e à chave API GPT-3 do aplicativo. Isso poderia permitir que um ator mal-intencionado cobrasse da conta GPT do MathGPT para seu próprio uso, causando danos financeiros ou causando um ataque de negação de serviço que poderia prejudicar o desempenho e a reputação do MathGPT. As vulnerabilidades foram mitigadas após a divulgação.

A comunidade mais ampla do Atlas composta por indústria, governo, academia e outros pesquisadores de segurança, também forneceu feedback para moldar e informar essas novas táticas e técnicas.

A colaboração da comunidade Atlas agora se concentrará no compartilhamento de incidentes e vulnerabilidades para continuar a aumentar o conjunto de dados anônimos da comunidade sobre ataques e vulnerabilidades do mundo real observados. O trabalho de partilha de incidentes e vulnerabilidades também se expandiu para incorporar incidentes no espaço mais amplo de garantia de IA, incluindo equitabilidade, interpretabilidade, fiabilidade, robustez, segurança e melhoria da privacidade da IA.

A comunidade Atlas também está compartilhando informações sobre como resolver problemas da cadeia de suprimentos, incluindo lista de materiais (BOM) de IA e assinatura de modelo, além de práticas recomendadas de proveniência por meio da página Atlas GitHub e do canal Slack, que são abertos ao público. A comunidade usará os fóruns do Slack e do GitHub para compartilhar o que está funcionando atualmente em suas organizações, para que as práticas e técnicas atuais de mitigação de riscos da cadeia de suprimentos de IA possam ser melhor alinhadas.

Serviço
www.mitre.org
www.microsoft.com

Últimas Notícias
Você também pode gostar
As opiniões dos artigos/colunistas aqui publicados refletem exclusivamente a posição de seu autor, não caracterizando endosso, recomendação ou favorecimento por parte da Infor Channel ou qualquer outros envolvidos na publicação. Todos os direitos reservados. É proibida qualquer forma de reutilização, distribuição, reprodução ou publicação parcial ou total deste conteúdo sem prévia autorização da Infor Channel.