Monitoramento offline de agentes de IA carece de transparência, aponta estudo

Métodos atuais da OpenAI e da Anthropic para avaliar a eficácia da vigilância interna de modelos não permitem verificação externa adequada.

Desenvolvedoras de modelos de fronteira como OpenAI e Anthropic têm utilizado agentes de inteligência artificial para tarefas internas, incluindo pesquisa de segurança e treinamento de sistemas. Para mitigar o risco de que um modelo desalinhado possa executar ações prejudiciais — como sabotar esforços de avaliação de riscos —, as empresas empregam modelos de IA separados, chamados de "monitores". Esses monitores analisam transcrições das ações dos agentes e sinalizam atividades suspeitas para revisão humana. Segundo um estudo conduzido durante o GovAI Winter Fellowship 2026, esse processo de monitoramento ocorre offline, ou seja, as ações são revisadas apenas após serem executadas, e não em tempo real.

Para avaliar a eficácia desses monitores offline, OpenAI e Anthropic utilizam ataques sintéticos. A prática consiste na criação de transcrições que simulam ações prejudiciais que um modelo desalinhado poderia tomar durante o uso real, verificando em seguida se os monitores são capazes de identificar e sinalizar essas ocorrências.

Apesar da aplicação desses testes, o relatório aponta que as informações divulgadas publicamente pelas empresas são insuficientes para que partes externas avaliem a eficácia geral do monitoramento offline. A Anthropic divulga a frequência com que os monitores sinalizam as transcrições de ataques sintéticos, mas não informa com que frequência essas transcrições sobrevivem a todo o fluxo de processamento e chegam efetivamente à revisão humana. Filtros posteriores podem descartar transcrições que foram inicialmente marcadas, criando uma lacuna no entendimento do sistema completo.

No caso da OpenAI, a empresa relata que seu monitor sinaliza todas as transcrições que foram independentemente marcadas por funcionários humanos. No entanto, o estudo observa que essa métrica fornece pouca informação sobre a capacidade de detecção do sistema, uma vez que os funcionários humanos tendem a capturar apenas os casos mais óbvios de mau comportamento.

De acordo com a análise, apenas OpenAI e Anthropic publicaram informações sobre seus sistemas de monitoramento offline até o momento. A falta de dados mais detalhados sobre a eficácia de ponta a ponta desses mecanismos de segurança limita a capacidade de auditoria externa sobre como as empresas de IA estão gerenciando os riscos associados à implantação interna de agentes autônomos.