Entity · technique

On-Policy Distillation (OPD)

techniqueactiveon-policy-distillation-opd--ed538534·2 events·first seen May 27, 2026

Aliases: On-Policy Distillation (OPD)

Co-occurring entities

mathematical reasoning Truncated OPD (TOPD)Progressive OPD (POPD)Reinforcement Learning with Verifiable Rewards Multi-Token Prediction (MTP)speculative decoding Pair-In, Pair-Out (PIPO)Qwen3-4B LiveCodeBench AIME 2025 GPQA Diamond LongBench v2

More like this (12)

on-policy distillation On-Policy Co-Distillation Routing-based On-Policy Distillation Canonical-Context On-Policy Distillation (CCOPD)Pass the Baton: Trajectory-Relayed On-Policy Distillation Multi-Teacher On-Policy Distillation on-policy self-distillation Purified OPSD: On-Policy Self-Distillation Without Losing How to Think Weak-to-Strong Generalization via Direct On-Policy Distillation On-Policy Distillation for LLM Safety: A Routing Approach to Template-Robust Realignment Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation Rethinking Classifier-Free Guidance in On-Policy Diffusion Distillation

Recent events (2)

6arXiv · cs.CL·Jun 1, 2026·source ↗

Are Full Rollouts Necessary for On-Policy Distillation?

This paper investigates whether full rollouts are required during on-policy distillation (OPD) for training reasoning models, identifying rollout horizon as a key computational bottleneck. The authors propose two strategies: Progressive OPD (POPD), which gradually expands rollout horizon during training, and Truncated OPD (TOPD), which uses permanently truncated rollouts. Experiments on mathematical reasoning show POPD achieves up to 3× training efficiency improvement, while TOPD matches full OPD performance using only 10% of the rollout horizon, yielding significant wall-clock and memory savings.

Training Infrastructure Frontier Model Releases On-Policy Distillation (OPD)mathematical reasoning Truncated OPD (TOPD)+4 more

6arXiv · cs.CL·May 27, 2026·source ↗

Pair-In, Pair-Out (PIPO): Unified Latent Compression and Multi-Token Prediction for Efficient LLM Inference

PIPO is a new inference efficiency framework that unifies input-side latent compression with output-side multi-token prediction (MTP) by treating them as mirror operations: a compressor folds two input tokens into one latent, while an MTP head unfolds one hidden state into an additional output token. To avoid the expensive verifier pass typically required by speculative decoding, PIPO trains a lightweight confidence head using On-Policy Distillation (OPD), which naturally aligns with rejection-sampling criteria. Experiments on Qwen3.5-4B and 9B backbones across AIME 2025, GPQA-Diamond, LiveCodeBench v6, and LongBench v2 show up to 2.64× first-token-latency speedup and +7.15 pass@4 improvement over regular decoding.

Long Context Evolution Inference Economics On-Policy Distillation (OPD)Multi-Token Prediction (MTP)speculative decoding +7 more