MonitoringBench avalia monitores de agentes de IA e mostra falhas em ataques refinados

Benchmark de código aberto reúne 2.644 trajetórias de ataque e indica que pipelines de red-teaming decomposto reduzem significativamente as taxas de detecção.

Pesquisadores anunciaram o MonitoringBench, um benchmark focado na avaliação de monitores de agentes de programação. A ferramenta reúne 2.644 trajetórias de ataque bem-sucedidas, organizadas por nível de dificuldade, e foi construída sobre uma base de testes anterior chamada BashArena. O objetivo do projeto é fornecer um ambiente padronizado para medir a capacidade de sistemas de monitoramento em identificar comportamentos maliciosos ou desvios em agentes de código.

A metodologia por trás do benchmark utiliza um pipeline semiautomatizado de red-teaming (teste de intrusão) que divide a construção de ataques em três etapas: geração de estratégia, execução e refinamento posterior (post-hoc refinement). Segundo os autores, essa abordagem decomposta mitiga um problema observado em modelos de linguagem de ponta, chamado de lacuna de concepção e execução, onde os sistemas conseguem propor boas ideias de ataque ou executá-las, mas não fazer ambas as coisas simultaneamente. O método também evita o colapso de modo na geração de ataques, garantindo maior diversidade de cenários.

Os resultados principais do estudo demonstram que o refinamento posterior das trajetórias de ataque consistentemente produziu as menores taxas de detecção pelos monitores avaliados. Isso ocorreu em todos os 13 monitores de trajetória completa e 7 monitores passo a passo testados, incluindo sistemas que não foram expostos durante a fase de construção dos ataques. A abordagem de refinamento provou ser mais eficaz na evasão do que a simples elicitação por prompt de modelos atacantes de fronteira.

Um exemplo do impacto dessa técnica foi observado no Opus 4.5, classificado pelos pesquisadores como o monitor mais forte do conjunto avaliado. Enquanto o modelo registrou uma taxa de detecção de 94,9% contra ataques diretos, esse número caiu para 60,3% quando exposto aos ataques refinados pelo pipeline da equipe. A queda de performance indica que mesmo os sistemas de monitoramento mais avançados atuais possuem vulnerabilidades significativas.

O MonitoringBench expande uma versão prévia divulgada em janeiro, que continha 428 trajetórias focadas apenas em firewalls. A versão atual mantém as conclusões qualitativas do primeiro teste, mas amplia o escopo e a diversidade da base de dados. O código, o paper e o benchmark foram disponibilizados publicamente, e os autores expressaram disponibilidade para auxiliar interessados em aplicar a metodologia a outras configurações de controle de IA.