Entity · dataset

AudioDER

datasetactiveaudioder-a33a3a45·1 events·first seen Jun 15, 2026

Aliases: AudioDER

Co-occurring entities

Qwen2-Audio-7B-Instruct Qwen3-30B MMSU MMAU-mini MMAR

More like this (12)

DirectAudioEdit Audex AudioVAE2 AdaCodec AudioCards AudioLDM 2 Audio MultiChallenge StreamAudio-2M FishAudio-S2-Pro UniAudio-Token ParaPairAudioBench Audio Interaction Model

Recent events (1)

4arXiv · cs.AI·Jun 15, 2026·source ↗

AudioDER: Deduplication-enhanced reasoning dataset for post-training large audio-language models

Researchers introduce AudioDER, a ~191k-sample post-training dataset for Large Audio-Language Models (LALMs) built via an acoustic similarity-based deduplication pipeline to reduce redundancy and improve corpus diversity. Each sample pairs an audio clip with a multiple-choice question, answer candidates, a caption, and a chain-of-thought rationale generated by Qwen3-30B. Post-training Qwen2-Audio-7B-Instruct on AudioDER yields consistent gains on audio reasoning benchmarks including MMAU-mini, MMSU, and MMAR. The work addresses a data quality gap in audio-language training rather than proposing a new model architecture.

Evaluation and Benchmarking Multimodal Progress AudioDER Qwen2-Audio-7B-Instruct Qwen3-30B +3 more