Agenda propõe “debate interpretativo” para investigar comportamentos de modelos de IA

Texto publicado no LessWrong defende uma infraestrutura empírica para reduzir ambiguidades em perguntas de segurança, como dissimulação, introspecção e capacidades latentes.

Um texto publicado no LessWrong apresenta uma agenda de pesquisa chamada “debate interpretativo”, voltada a criar uma infraestrutura epistêmica para investigar, de forma iterativa e empírica, perguntas abertas sobre modelos de IA. Segundo os autores, a proposta busca acumular evidências que ajudem a resolver ambiguidades interpretativas ou, quando isso não for possível, calibrar melhor o grau de incerteza sobre elas.

Segundo o post, a agenda parte de um trabalho anterior sobre “desalinhamento performativo”, tratado pelos autores como uma demonstração inicial de uma rodada desse tipo de debate. A ideia é aplicar métodos mais estruturados a questões difíceis de segurança em IA, como avaliar se um modelo está “tramando”, escondendo capacidades, mentindo, sendo introspectivo ou respondendo a estímulos porque reconhece algo sobre si mesmo.

O texto argumenta que essas perguntas são mais complexas do que problemas interpretativos associados a modelos mais fracos, como identificar se um sistema explora atalhos em testes de múltipla escolha, usa heurísticas lexicais em tarefas de inferência ou se apoia em partes irrelevantes de uma imagem para classificar objetos. Segundo os autores, conceitos como dissimulação e introspecção são difíceis de definir com precisão, mas influenciam previsões sobre como um modelo pode generalizar seu comportamento em novos contextos.

A publicação também afirma que cadeias de raciocínio hoje podem ser monitoradas em muitos casos, mas não devem ser tratadas como registro completo das causas de uma decisão do modelo. Segundo o texto, testes comportamentais também podem não revelar integralmente conhecimento latente ou capacidades não observadas, o que reforçaria a necessidade de métodos interpretativos mais científicos.

Na visão dos autores, mesmo quando uma pergunta não puder ser resolvida de modo conclusivo, a pesquisa deveria produzir incertezas mais calibradas — por exemplo, uma estimativa explícita da probabilidade de um modelo estar dissimulando. O post situa a proposta em um movimento recente de tratar temas como “scheming” e motivações de modelos com abordagens mais sistemáticas, embora os detalhes operacionais da agenda ainda dependam do desenvolvimento de ferramentas e protocolos de avaliação.