paper

Beyond Fully Random Masking: Attention-Guided Denoising and Optimization for Diffusion Language Models

paperactiveprovisionalbeyond-fully-random-masking-attention-guided-denoising-and-optimization-for-diffusion-language-models-f5942cd2·1 events·first seen 6d ago

Aliases: Beyond Fully Random Masking: Attention-Guided Denoising and Optimization for Diffusion Language Models

Co-occurring entities

AGDO

More like this (12)

Denoising Diffusion Probabilistic Models Denoising Diffusion Policy Optimization Knowledge Editing in Masked Diffusion Language Models Self-Augmenting Retrieval for Diffusion Language Models LESS: Mutual-Stability Sampling for Diffusion Language Models Diffusion Language Models DirectAudioEdit: Inversion-Free Text-Guided Audio Editing via Diffusion Prediction Contrast Masked Diffusion Models A Diffusion Approximation for Temporal-Difference Learning with Linear Features under Markovian Noise continuous diffusion language model Language Model Finetuning Listening with Attention: Entropy-Guided Explainability for Transformer-Based Audio Models

Recent events (1)

5arXiv · cs.CL·6d ago·source ↗

AGDO: Attention-guided denoising and optimization framework improves diffusion language model reasoning

Researchers propose AGDO, a framework that replaces random masking in diffusion large language models (dLLMs) with attention-guided denoising order and token weighting during fine-tuning and reinforcement learning. The work is motivated by an empirical finding that tokens with stronger attention to unmasked context are more stable and critical for reasoning. Experiments on math and coding benchmarks show AGDO outperforms existing post-training methods for dLLMs, advancing the case for attention-aware training in parallel-decoding language models.

Alignment and RLHF AGDO Beyond Fully Random Masking: Attention-Guided Denoising and Optimization for Diffusion Language Models