Texto publicado no LessWrong defende uma infraestrutura empĂrica para reduzir ambiguidades em perguntas de segurança, como dissimulação, introspecção e capacidades latentes.
Um texto publicado no LessWrong apresenta uma agenda de pesquisa chamada âdebate interpretativoâ, voltada a criar uma infraestrutura epistĂȘmica para investigar, de forma iterativa e empĂrica, perguntas abertas sobre modelos de IA. Segundo os autores, a proposta busca acumular evidĂȘncias que ajudem a resolver ambiguidades interpretativas ou, quando isso nĂŁo for possĂvel, calibrar melhor o grau de incerteza sobre elas.
Segundo o post, a agenda parte de um trabalho anterior sobre âdesalinhamento performativoâ, tratado pelos autores como uma demonstração inicial de uma rodada desse tipo de debate. A ideia Ă© aplicar mĂ©todos mais estruturados a questĂ”es difĂceis de segurança em IA, como avaliar se um modelo estĂĄ âtramandoâ, escondendo capacidades, mentindo, sendo introspectivo ou respondendo a estĂmulos porque reconhece algo sobre si mesmo.
O texto argumenta que essas perguntas sĂŁo mais complexas do que problemas interpretativos associados a modelos mais fracos, como identificar se um sistema explora atalhos em testes de mĂșltipla escolha, usa heurĂsticas lexicais em tarefas de inferĂȘncia ou se apoia em partes irrelevantes de uma imagem para classificar objetos. Segundo os autores, conceitos como dissimulação e introspecção sĂŁo difĂceis de definir com precisĂŁo, mas influenciam previsĂ”es sobre como um modelo pode generalizar seu comportamento em novos contextos.
A publicação tambĂ©m afirma que cadeias de raciocĂnio hoje podem ser monitoradas em muitos casos, mas nĂŁo devem ser tratadas como registro completo das causas de uma decisĂŁo do modelo. Segundo o texto, testes comportamentais tambĂ©m podem nĂŁo revelar integralmente conhecimento latente ou capacidades nĂŁo observadas, o que reforçaria a necessidade de mĂ©todos interpretativos mais cientĂficos.
Na visĂŁo dos autores, mesmo quando uma pergunta nĂŁo puder ser resolvida de modo conclusivo, a pesquisa deveria produzir incertezas mais calibradas â por exemplo, uma estimativa explĂcita da probabilidade de um modelo estar dissimulando. O post situa a proposta em um movimento recente de tratar temas como âschemingâ e motivaçÔes de modelos com abordagens mais sistemĂĄticas, embora os detalhes operacionais da agenda ainda dependam do desenvolvimento de ferramentas e protocolos de avaliação.
Ă uma proposta publicada no LessWrong que visa criar uma infraestrutura empĂrica para investigar perguntas abertas sobre modelos de IA de forma iterativa. O objetivo Ă© acumular evidĂȘncias para resolver ambiguidades interpretativas ou calibrar o grau de incerteza sobre elas.
A agenda busca investigar questĂ”es complexas de segurança, como avaliar se um modelo de IA estĂĄ "tramindo" (scheming), escondendo capacidades, mentindo, sendo introspectivo ou respondendo a estĂmulos com base em autoconhecimento.
Segundo o texto, cadeias de raciocĂnio monitoradas nĂŁo sĂŁo um registro completo das causas de uma decisĂŁo do modelo. AlĂ©m disso, testes comportamentais podem nĂŁo revelar integralmente o conhecimento latente ou capacidades nĂŁo observadas, exigindo mĂ©todos interpretativos mais cientĂficos.