technique

Adaptive Clip Policy Optimization

techniqueactiveprovisionaladaptive-clip-policy-optimization-5b17811c·1 events·first seen 42h ago

Aliases: Adaptive Clip Policy Optimization

Co-occurring entities

DAPO CISPO Reinforcement Learning with Verifiable Rewards

More like this (12)

CLIP Vector Policy Optimization Preference Coordinated Multi-agent Policy Optimization Hierarchical Relative Policy Optimization APPO: Agentic Procedural Policy Optimization Proximal Policy Optimization Layer-Adaptive Expert Pruning unCLIP Pareto Optimal Policy Optimization CLIPSeg Observe-and-Act Adaptive Context Selection Adaptive Data Scheduling

Recent events (1)

5arXiv · cs.CL·42h ago·source ↗

ACPO: Adaptive Clip Policy Optimization improves RLVR training for LLM reasoning

A new arXiv preprint provides theoretical analysis of Reinforcement Learning from Verifiable Rewards (RLVR) updates, identifying off-policy degree and gradient expectation as key factors governing update dynamics. The authors show that differences in gradient steps per rollout substantially affect importance sampling ratio distributions and which tokens dominate updates. Based on this analysis, they propose Adaptive Clip Policy Optimization (ACPO), which adjusts clipping boundaries per token group by empirical variance of importance sampling ratios, outperforming DAPO and CISPO baselines on 3B and 7B models across math, tabular QA, and logic benchmarks.

Evaluation and Benchmarking Alignment and RLHF DAPO CISPO Reinforcement Learning with Verifiable Rewards +1 more