Entity · model

FishAudio-S2-Pro

modelactivefishaudio-s2-pro-706cc66f·1 events·first seen Jun 8, 2026

Aliases: FishAudio-S2-Pro

Co-occurring entities

IWSLT 2026 Cross-Lingual Voice Cloning Karlsruhe Institute of Technology

More like this (12)

StreamAudio-2M gpt-audio-mini gpt-audio-1.5 Sora 2 Pro ParaPairAudioBench Audio-Flamingo-3 Step-Audio R1.1 Realtime SAM Audio AudioCards AudioDER Kimi-Audio AudioLDM 2

Recent events (1)

3arXiv · cs.CL·Jun 8, 2026·source ↗

KIT submission to IWSLT 2026 cross-lingual voice cloning track with language tag prompting and RL fine-tuning

Researchers from KIT describe their system for the IWSLT 2026 Cross-Lingual Voice Cloning shared task, which aims to synthesize speech in a target language while preserving source-speaker identity. The system builds on FishAudio-S2-Pro, a multilingual TTS model, and introduces language tag prompting to reduce accent leakage, RL fine-tuning for intelligibility, and a reference-conditioned lexical matching method for domain-specific pronunciation. Language prompting yields the largest gains; lexical matching provides consistent improvements on matched subsets.

Multimodal Progress IWSLT 2026 Cross-Lingual Voice Cloning FishAudio-S2-Pro Karlsruhe Institute of Technology