Entity · model

SD-Turbo

modelactivesd-turbo-377f87f8·1 events·first seen Jun 2, 2026

Aliases: SD-Turbo

Co-occurring entities

SDXL Turbo HPSv3 GenEval Direct Preference Optimization (DPO)Drifting Preference Optimization

More like this (12)

SDXL Turbo TurboQuant Stable Diffusion Turbo TurboVec SD-Tiny TurboPuffer SimSD TurboVote GPT-4 Turbo Qwen2.5-Turbo Kling 2.5 Turbo TunerDiT

Recent events (1)

6arXiv · cs.LG·Jun 2, 2026·source ↗

Drifting Preference Optimization (DrPO) for One-Step Text-to-Image Generators

DrPO is a new online preference fine-tuning method designed specifically for deterministic one-step text-to-image generators like SD-Turbo and SDXL-Turbo, which are difficult to align with standard RLHF methods that require policy likelihoods or differentiable reward gradients. The method samples candidates per prompt, ranks them with a target reward, and synthesizes a feature-space update direction via a non-parametric dipole preference field plus a reference drift from the frozen base model. Because the reward is used only for ranking, DrPO supports black-box and non-differentiable reward functions while keeping inference as a single forward pass. Evaluations on HPSv3 and GenEval show improved alignment over reward-gradient-free baselines and a 3.51× reduction in training compute by eliminating reward-model backpropagation.

Inference Economics Alignment and RLHF SDXL Turbo HPSv3 GenEval +4 more