Estudo com modelos abertos de pequeno porte revela que o mecanismo de recusa varia conforme a categoria de dano e pode não ser um conceito isolável.
Um estudo recente publicado na plataforma LessWrong investiga os mecanismos por trás da recusa em grandes modelos de linguagem (LLMs). Os pesquisadores realizaram experimentos com modelos de código aberto de aproximadamente 9 bilhões de parâmetros para entender o que ocorre internamente quando esses sistemas se negam a responder a solicitações em diferentes contextos.
Uma das principais observações do estudo é que o comportamento de recusa se manifesta de formas distintas dependendo da categoria de dano potencial. Por exemplo, a forma como o modelo reage a um pedido de ajuda para um ciberataque difere da resposta dada a uma solicitação sobre a compra ilegal de armas. Essa variação levanta questões sobre se a recusa opera como um conceito separável dentro da arquitetura do modelo.
A questão central da pesquisa é determinar se a recusa pode ser distinguida como um conceito isolado ou se ela está fundida a outros mecanismos devido à forma como os dados e o processo de treinamento são estruturados. Caso seja distinguível, os pesquisadores buscam entender se ela é composta por partes distintas que podem ser separadas ou se existe um mecanismo mais profundo que apenas aparenta ser fragmentado na superfície.
Para estruturar essas dúvidas, o texto detalha perguntas adicionais que surgiram durante a pesquisa. Uma delas aborda como a recusa é representada nas diferentes camadas do modelo e o significado dessas representações. Outra foca em dois componentes da recusa: a formulação das palavras utilizadas e a detecção efetiva de uma solicitação potencialmente prejudicial.
O estudo também apresenta a hipótese principal dos autores, baseada em provas encontradas durante os experimentos, e contrasta essa visão com uma perspectiva alternativa sustentada por outras evidências. O objetivo dos pesquisadores é organizar as questões de pesquisa e obter perspectivas externas de outros profissionais que realizem trabalhos semelhantes na área de segurança de IA.
O estudo revela que a recusa se manifesta de formas distintas dependendo da categoria de dano potencial. Por exemplo, a reação a um pedido de ciberataque difere da resposta para a compra ilegal de armas.
A pesquisa questiona se a recusa pode ser separada de outros mecanismos do modelo ou se está fundida a eles devido à estrutura dos dados e do treinamento, investigando se ela possui partes distintas ou um mecanismo profundo.
Os pesquisadores focam em dois componentes principais: a formulação das palavras utilizadas pelo modelo e a detecção efetiva de que uma solicitação é potencialmente prejudicial.