Entity · technique

DDPO

techniqueactiveddpo-4f57ddcb·1 events·first seen May 19, 2026

Aliases: DDPO

Co-occurring entities

Denoising Diffusion Policy Optimization Stable Diffusion 3 Hugging Face TRL

More like this (12)

DPO DDPM DPPO DualDPO DOPD FlowDPO SDPO TRPO SPPO MMDP DoRA Direct Preference Optimization (DPO)

Recent events (1)

5Hugging Face Blog·May 19, 2026·source ↗

Finetune Stable Diffusion Models with DDPO via TRL

Hugging Face's TRL library adds support for DDPO (Denoising Diffusion Policy Optimization), enabling reinforcement learning-based finetuning of Stable Diffusion models. This extends TRL's RLHF tooling beyond language models to image generation, allowing reward-driven optimization of diffusion models. The post demonstrates practical usage of the new DDPO trainer within the TRL ecosystem.

Agent and Tool Ecosystem Alignment and RLHF DDPO Denoising Diffusion Policy Optimization Stable Diffusion 3 +3 more