Entity · paper

Multi-Faceted Interactivity Alignment in Full-Duplex Speech Models

paperactivemulti-faceted-interactivity-alignment-in-full-duplex-speech-models-e42a2924·1 events·first seen Jun 10, 2026

Aliases: Multi-Faceted Interactivity Alignment in Full-Duplex Speech Models

Co-occurring entities

PersonaPlex Moshi

More like this (12)

Hierarchical Acoustic-Semantic Modeling: Modality Separation and Semantic Coherence for Full-Duplex SLMs Audio Interaction Model Adaptive Turn-Taking for Real-time Multi-Party Voice Agents Interleaved Speech Language Models Latently Work In Text Multimodal Voice Activity Projection Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition foreground-background dual-agent voice architecture Modeling Complex Behaviors: Multi-Personality Composition and Dynamic Switching in Vision-Language Models Exploring Adversarial Robustness and Safety Alignment in Multilingual Multi-Modal Large Language Models Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data Actionable Activation Directions for Detecting and Mitigating Emergent Misalignment Across Language Model Families MODUS: Decoder-Only Any-to-Any Modeling of Diverse Modalities

Recent events (1)

5arXiv · cs.CL·Jun 10, 2026·source ↗

RL-based alignment improves interactivity in full-duplex spoken dialogue models

Researchers propose a post-training alignment method using reinforcement learning to improve interactivity in full-duplex spoken dialogue models, which can listen and speak simultaneously. The method addresses four canonical axes of interactivity—pause handling, turn-taking, backchanneling, and user interruption—each with axis-specific reward functions, plus an LLM-based reward to prevent semantic degradation. The approach is applied to two open-source models, Moshi and PersonaPlex, showing consistent improvements in both offline and real-time multi-turn evaluation.

Alignment and RLHF Multimodal Progress Multi-Faceted Interactivity Alignment in Full-Duplex Speech Models PersonaPlex Moshi