Documento v0.1 descreve camadas de detecção, prevenção e resposta para reduzir riscos de comportamento adversarial em sistemas de IA mais capazes.
A Google DeepMind publicou um roteiro preliminar para controles internos de IA voltados a identificar e conter possíveis comportamentos adversariais de agentes de IA, segundo resumo divulgado no LessWrong. O documento, chamado GDM AI Control Roadmap v0.1, parte da premissa de que modelos mais avançados podem se tornar mais difíceis de supervisionar e, por isso, exigiriam salvaguardas em nível de sistema.
Segundo a publicação, a proposta adota uma abordagem inspirada em segurança cibernética, com modelagem de ameaças em cenário conservador. O roteiro considera a hipótese de um sistema de IA desalinhado atuando em ambientes internos e organiza possíveis riscos em três grupos: perda de controle, sabotagem de trabalho e danos diretos, como destruição ou exfiltração de ativos críticos.
O texto também apresenta uma taxonomia chamada TRAIT&R, descrita como uma adaptação conceitual do framework MITRE ATT&CK para classificar táticas e técnicas que poderiam ser usadas por um agente de IA hipoteticamente adversarial. De acordo com o resumo, essa estrutura serviria para orientar defesas contra ações como implantações internas não autorizadas ou produção deliberada de pesquisa de segurança falha.
A estratégia proposta pela DeepMind se apoia em dois objetivos defensivos, segundo a fonte: detectar de forma confiável intenções ou ações desalinhadas e impedir ou responder a tentativas de ataque. O documento afirma que, para esse tipo de controle funcionar, a capacidade de detectar e bloquear ataques precisaria superar a capacidade dos agentes de IA de ocultar comportamento ou executar ações maliciosas.
O roteiro também descreve escadas de mitigação baseadas em capacidades dos modelos. Conforme os sistemas ganhem habilidades como raciocínio menos transparente ou execução de ataques cibernéticos complexos, a proposta prevê elevar o nível das defesas. Segundo o resumo, o plano organiza essas medidas em quatro níveis de detecção, de D1 a D4, e três níveis de prevenção e resposta, de R1 a R3.
É um documento preliminar que propõe controles internos para identificar e conter comportamentos adversariais em agentes de IA. A abordagem se inspira na segurança cibernética para modelar ameaças e organizar riscos em três grupos: perda de controle, sabotagem de trabalho e danos diretos.
TRAIT&R é uma estrutura conceitual adaptada do framework MITRE ATT&CK. Ela serve para classificar táticas e técnicas que poderiam ser usadas por um agente de IA adversarial, orientando defesas contra ações como implantações não autorizadas ou produção de pesquisas falhas.
O plano organiza as medidas de mitigação em níveis baseados nas capacidades dos modelos: quatro níveis de detecção (D1 a D4) e três níveis de prevenção e resposta (R1 a R3). Conforme a IA ganha habilidades complexas, como raciocínio menos transparente, as defesas são elevadas.