Entity · technique

Hierarchical Relative Policy Optimization

techniqueactivehierarchical-relative-policy-optimization-66659289·1 events·first seen Jun 15, 2026

Aliases: Hierarchical Relative Policy Optimization

Co-occurring entities

More like this (12)

Recent events (1)

5arXiv · cs.CL·Jun 15, 2026·source ↗

AdaSR: Adaptive streaming reasoning framework with Hierarchical Relative Policy Optimization

Researchers introduce AdaSR, a framework enabling large reasoning models to reason incrementally during streaming input (e.g., audio/video) rather than waiting for complete context, then perform final deliberation once the stream ends. The core contribution is Hierarchical Relative Policy Optimization (HRPO), which decomposes policy optimization into streaming and deep reasoning phases with fine-grained per-phase advantage assignment, integrating format, accuracy, and latency-aware rewards. Experiments show AdaSR improves the tradeoff among reasoning accuracy, computational efficiency, and streaming latency over supervised fine-tuning baselines. Code is publicly released.

Inference Economics Agent and Tool Ecosystem Hierarchical Relative Policy Optimization EIT-NLP AdaSR +1 more