book_icon

Salesforce lança guia que detalha as ameaças contra a IA generativa

Os LLMs podem ser hackeados, dando aos agentes de ameaças acesso a informações proprietárias ou manipulados para produzir conteúdo prejudicial

Salesforce lança guia que detalha as ameaças contra a IA generativa

A Salesforce lançou um white paper abrangente que detalha as ameaças emergentes representadas por LLMs (Large Language Models) e oferece estratégias acionáveis para as organizações fortalecerem suas defesas.

Segundo a empresa, a era da IA inaugurou uma nova onda de preocupações de segurança que não apenas ameaçam a potencial exploração de dados sensíveis, mas também a integridade geral e a confiança da tecnologia. Os LLMs podem ser hackeados, dando aos agentes de ameaças acesso a informações proprietárias ou manipulados para produzir conteúdo prejudicial.

Os agentes mal-intencionados podem manipular um LLM por meio de inserções maliciosas dentro de prompts e fazer com que o LLM atue como um “representante confuso” para o invasor

À medida que as empresas lidam com como implementar IA generativa, cujos modelos geralmente usam LLMs pré-treinados para criar conteúdo a partir de prompts de texto, elas devem usar estratégias baseadas em confiança para se proteger. O white paper do Salesforce descreve algumas das ameaças emergentes mais urgentes aos LLMs e como as organizações podem se proteger:

Injeções imediatas: agentes mal-intencionados podem manipular um LLM por meio de inserções maliciosas dentro de prompts e fazer com que o LLM atue como um “representante confuso” para o invasor. A proteção contra essas ameaças envolve uma estratégia em duas frentes – usando estratégias de defesa de aprendizado de máquina para detectar e prevenir inserções maliciosas de forma inteligente e usando estratégias heurísticas baseadas em aprendizado para proteger contra ameaças potenciais a prompts, como filtragem baseada em lista de negação e defesa de instruções.

Envenenamento de dados de treinamento: os invasores podem manipular dados de treinamento ou procedimentos de ajuste fino de um LLM. As empresas podem se proteger contra isso verificando se os dados de treinamento inseridos não contêm informações envenenadas, como cargas de código malicioso, o que pode comprometer a segurança e a eficácia do modelo ou levar a violações de privacidade e outras violações de segurança.

Vulnerabilidades da cadeia de suprimentos: as vulnerabilidades podem afetar todo o estilo de vida do aplicativo, incluindo bibliotecas/pacotes tradicionais de terceiros, contêineres docker, imagens base e fornecedores de serviços. As organizações podem se proteger contra isso, garantindo que cada parte do estilo de vida atenda aos padrões de segurança estabelecidos pela empresa. E eles devem garantir que todos os componentes passem pelo processo de revisão de segurança interna da empresa antes de serem incorporados aos produtos.

Roubo de modelo: somente clientes autenticados e autorizados devem poder acessar o LLM de uma empresa. Isso evita que os atores comprometam, roubem fisicamente e copiem modelos proprietários. As empresas também podem adotar medidas como exigir credenciais Just in Time (JIT), MFA (Multi-Factor Authentication), trilhas de auditoria fortes e registro em log para evitar o roubo de modelos.

Campos de treinamento seguros: as empresas devem manter os ambientes de treinamento – configurações controladas onde os sistemas de IA podem aprender e melhorar suas capacidades – com os mesmos padrões de segurança do próprio ambiente de dados. Isso é especialmente importante à medida que as empresas veem cada vez mais os ambientes de treinamento como um ambiente de desenvolvimento e os tratam com menos segurança.

 

Últimas Notícias
Você também pode gostar
As opiniões dos artigos/colunistas aqui publicados refletem exclusivamente a posição de seu autor, não caracterizando endosso, recomendação ou favorecimento por parte da Infor Channel ou qualquer outros envolvidos na publicação. Todos os direitos reservados. É proibida qualquer forma de reutilização, distribuição, reprodução ou publicação parcial ou total deste conteúdo sem prévia autorização da Infor Channel.