Estudo aponta que modelo de difusão de texto DiffusionGemma tem transparência similar à de modelos autorregressivos

Pesquisadores do Google DeepMind auditaram o novo modelo de difusão de texto e concluíram que é possível interpretar variáveis intermediárias, embora a compreensão do algoritmo permaneça um desafio.

Uma auditoria de transparência conduuída pela equipe de interpretabilidade do Google DeepMind (GDM) em colaboração com a equipe de difusão de texto da mesma organização concluiu que o modelo DiffusionGemma não é significativamente menos transparente do que o modelo Gemma tradicional. Os resultados indicam que ambos apresentam um desempenho semelhante em avaliações de monitorabilidade, mitigando preocupações iniciais sobre a opacidade de modelos de difusão aplicados à linguagem.

Por definição, um modelo de difusão de texto possui uma profundidade serial opaca consideravelmente maior do que um modelo autorregressivo. No entanto, segundo os pesquisadores, é possível aplicar a técnica de "logit lens" aos vetores intermediários e remover informações não interpretáveis sem comprometer o desempenho do sistema. Isso demonstra que os nós intermediários do modelo são interpretáveis, o que reduz a profundidade opaca e a torna comparável à do modelo Gemma.

Apesar dessa capacidade de inspecionar partes do processamento, os autores do estudo fazem uma distinção importante entre dois conceitos: a transparência de variáveis e a transparência algorítmica. A transparência de variáveis refere-se à capacidade de compreender instantâneos isolados do cálculo realizado pelo modelo. Já a transparência algorítmica diz respeito à possibilidade de usar esses instantâneos para reconstruir todo o processo lógico que levou ao resultado final.

Na prática, a transparência algorítmica é naturalmente mais baixa em modelos de difusão de texto. Em modelos autorregressivos, o raciocínio ocorre de forma sequencial, token por token, permitindo que os pesquisadores conheçam o estado exato do sistema a cada etapa e infiram os motivos que levaram à geração de uma palavra específica. Em contrapartida, o modelo de difusão gera todos os tokens simultaneamente em uma única "tela", tornando a relação causal entre os diferentes elementos pouco clara, uma vez que o sistema pode utilizar informações do final do texto para influenciar o início.