Métodos atuais da OpenAI e da Anthropic para avaliar a eficácia da vigilância interna de modelos não permitem verificação externa adequada.
Desenvolvedoras de modelos de fronteira como OpenAI e Anthropic têm utilizado agentes de inteligência artificial para tarefas internas, incluindo pesquisa de segurança e treinamento de sistemas. Para mitigar o risco de que um modelo desalinhado possa executar ações prejudiciais — como sabotar esforços de avaliação de riscos —, as empresas empregam modelos de IA separados, chamados de "monitores". Esses monitores analisam transcrições das ações dos agentes e sinalizam atividades suspeitas para revisão humana. Segundo um estudo conduzido durante o GovAI Winter Fellowship 2026, esse processo de monitoramento ocorre offline, ou seja, as ações são revisadas apenas após serem executadas, e não em tempo real.
Para avaliar a eficácia desses monitores offline, OpenAI e Anthropic utilizam ataques sintéticos. A prática consiste na criação de transcrições que simulam ações prejudiciais que um modelo desalinhado poderia tomar durante o uso real, verificando em seguida se os monitores são capazes de identificar e sinalizar essas ocorrências.
Apesar da aplicação desses testes, o relatório aponta que as informações divulgadas publicamente pelas empresas são insuficientes para que partes externas avaliem a eficácia geral do monitoramento offline. A Anthropic divulga a frequência com que os monitores sinalizam as transcrições de ataques sintéticos, mas não informa com que frequência essas transcrições sobrevivem a todo o fluxo de processamento e chegam efetivamente à revisão humana. Filtros posteriores podem descartar transcrições que foram inicialmente marcadas, criando uma lacuna no entendimento do sistema completo.
No caso da OpenAI, a empresa relata que seu monitor sinaliza todas as transcrições que foram independentemente marcadas por funcionários humanos. No entanto, o estudo observa que essa métrica fornece pouca informação sobre a capacidade de detecção do sistema, uma vez que os funcionários humanos tendem a capturar apenas os casos mais óbvios de mau comportamento.
De acordo com a análise, apenas OpenAI e Anthropic publicaram informações sobre seus sistemas de monitoramento offline até o momento. A falta de dados mais detalhados sobre a eficácia de ponta a ponta desses mecanismos de segurança limita a capacidade de auditoria externa sobre como as empresas de IA estão gerenciando os riscos associados à implantação interna de agentes autônomos.
As empresas utilizam ataques sintéticos, criando transcrições que simulam ações prejudiciais de modelos desalinhados, para verificar se os monitores de IA conseguem identificar e sinalizar essas ocorrências para revisão humana.
As métricas divulgadas são insuficientes para auditoria externa. A Anthropic não informa se transcrições marcadas sobrevivem a filtros posteriores até a revisão humana, enquanto a OpenAI relata apenas a detecção de casos óbvios marcados por humanos, sem detalhar a eficácia real do sistema.
Monitores são modelos de IA separados usados para analisar transcrições das ações de agentes autônomos. Sua função é sinalizar atividades suspeitas ou prejudiciais, como sabotagem de avaliações, para revisão humana, ocorrendo de forma offline após a execução da ação.