paper

DirectAudioEdit: Inversion-Free Text-Guided Audio Editing via Diffusion Prediction Contrast

paperactiveprovisionaldirectaudioedit-inversion-free-text-guided-audio-editing-via-diffusion-prediction-contrast-570fe179·1 events·first seen 9d ago

Aliases: DirectAudioEdit: Inversion-Free Text-Guided Audio Editing via Diffusion Prediction Contrast

Co-occurring entities

DirectAudioEdit

More like this (12)

DirectAudioEdit Beyond Fully Random Masking: Attention-Guided Denoising and Optimization for Diffusion Language Models diffusion-based inpainting AudioDER Audio Interaction Model Self-Augmenting Retrieval for Diffusion Language Models Denoising Diffusion Policy Optimization Learning to Hear Hesitation: Continual Learning for Disfluency-Aware ASR Corpus-Grounded Feature Diffusion Denoising Diffusion Probabilistic Models Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data Probing Low Frame Rate Degradation in Neural Audio Codecs

Recent events (1)

4arXiv · cs.CL·9d ago·source ↗

DirectAudioEdit: Training-free, inversion-free text-guided audio editing via diffusion prediction contrast

Researchers introduce DirectAudioEdit, the first training-free and inversion-free method for text-guided audio editing using diffusion denoising dynamics. The approach constructs a source-to-target editing path without requiring DDPM inversion, reducing macro-averaged FAD and KL divergence by ~16% compared to inversion-based baselines while achieving up to 64.5% speedup. Experiments span music and event-level benchmarks across two backbone architectures.

Multimodal Progress DirectAudioEdit DirectAudioEdit: Inversion-Free Text-Guided Audio Editing via Diffusion Prediction Contrast