paper

GraphPO: Graph-based Policy Optimization for Reasoning Models

paperactiveprovisionalgraphpo-graph-based-policy-optimization-for-reasoning-models-368d6c43·1 events·first seen 2d ago

Aliases: GraphPO: Graph-based Policy Optimization for Reasoning Models

Co-occurring entities

GraphPO

More like this (12)

APPO: Agentic Procedural Policy Optimization GRPO (Group Relative Policy Optimization)Preference Coordinated Multi-agent Policy Optimization Proximal Policy Optimization Pareto Optimal Policy Optimization Hierarchical Relative Policy Optimization Divergence Regularized Policy Optimization Reasoning Language Models Geometric Action Model for Robot Policy Learning An Agency-Transferring Model-Free Policy Enhancement Technique Learning Red Agent Policy from Observations for Neurosymbolic Autonomous Cyber Agents GraphPO

Recent events (1)

6arXiv · cs.CL·2d ago·source ↗

GraphPO: Graph-based Policy Optimization reduces redundancy in LLM reasoning RL

GraphPO is a new reinforcement learning framework that represents reasoning rollouts as directed acyclic graphs rather than independent chains or trees, merging semantically equivalent reasoning paths into equivalence classes to share suffixes and reduce redundant exploration. The approach assigns efficiency advantages to incoming edges and correctness advantages to outgoing edges, deriving process supervision from outcome rewards. Experiments on three LLMs across reasoning and agentic search benchmarks show consistent improvements over chain- and tree-based baselines under equal token or response budgets. The method also provides theoretical guarantees on reduced advantage-estimation variance.

Frontier Model Releases Alignment and RLHF GraphPO GraphPO: Graph-based Policy Optimization for Reasoning Models