Estudo avalia transparência de modelo de difusão de texto e aponta desafios de interpretabilidade

Pesquisa feita em colaboração com a equipe do Google DeepMind indica que DiffusionGemma tem transparência de variáveis similar à do Gemma, mas apresenta menor transparência algorítmica.

Uma auditoria de transparência conduzida em colaboração com as equipes de interpretabilidade e de difusão de texto do Google DeepMind (GDM) analisou o DiffusionGemma, modelo de difusão de texto da organização. O estudo concluiu que o DiffusionGemma não é significativamente menos transparente do que o modelo autoregressivo Gemma, apresentando desempenho semelhante em avaliações de monitorabilidade.

Apesar de os modelos de difusão possuírem, de forma inerente, uma profundidade serial opaca maior, os pesquisadores conseguiram aplicar a técnica de "logit lens" aos vetores intermediários e remover informações não interpretáveis sem prejudicar o desempenho do sistema. Isso indica que os nós intermediários do modelo são interpretáveis, reduzindo a profundidade opaca para um nível comparável ao do Gemma.

Contudo, a compreensão das variáveis utilizadas em diferentes etapas não garante a compreensão do algoritmo que o modelo emprega para chegar a uma resposta final. Para lidar com essa distinção, os autores do estudo dividem o conceito em duas categorias: a transparência de variáveis, que avalia se é possível compreender instantâneos do processamento do modelo, e a transparência algorítmica, que verifica se esses instantâneos permitem reconstruir o processo usado para gerar as saídas.

Por padrão, a transparência algorítmica é consideravelmente menor em modelos de difusão de texto. Em modelos autoregressivos, o raciocínio ocorre de forma sequencial, token por token, permitindo que o estado exato do sistema seja conhecido a cada passo e facilitando inferências sobre as decisões do modelo. Já em um modelo de difusão, todos os tokens são gerados simultaneamente em uma única "tela", o que torna a relação causal entre eles pouco clara.

Essa característica faz com que o modelo de difusão possa, por exemplo, utilizar tokens no final de uma sequência para determinar quais tokens devem ser gerados no início. O estudo investigou esses e outros fenômenos por meio de uma série de estudos de caso, destacando as complexidades envolvidas na interpretação do fluxo de processamento de modelos não autoregressivos.