Entity · paper

APPO: Agentic Procedural Policy Optimization

paperactiveappo-agentic-procedural-policy-optimization-202bf445·1 events·first seen Jun 11, 2026

Aliases: APPO: Agentic Procedural Policy Optimization, Agentic Procedural Policy Optimization

More like this (12)

Role-Aware Policy Optimization Preference Coordinated Multi-agent Policy Optimization Proximal Policy Optimization APPA (Agentic Permissions Policy Algebra)GraphPO: Graph-based Policy Optimization for Reasoning Models agentic re-optimization framework Pareto Optimal Policy Optimization An Agency-Transferring Model-Free Policy Enhancement Technique Hierarchical Relative Policy Optimization Vector Policy Optimization GRPO (Group Relative Policy Optimization)Atomic Policy Optimization

Recent events (1)

6arXiv · cs.LG·Jun 11, 2026·source ↗

APPO: Fine-grained branching and credit assignment for agentic RL in LLMs

Researchers introduce Agentic Procedural Policy Optimization (APPO), a reinforcement learning method that shifts branching and credit assignment from coarse tool-call boundaries to fine-grained decision points within generated sequences. APPO uses a Branching Score combining token uncertainty with policy-induced likelihood gains to select exploration points, plus procedure-level advantage scaling for credit distribution. Evaluated on 13 benchmarks, APPO improves strong agentic RL baselines by nearly 4 points while maintaining efficient tool use and interpretability. The work addresses a known weakness in multi-turn agentic RL: that influential decisions are distributed throughout sequences, not concentrated at tool-call boundaries.

Agent and Tool Ecosystem Alignment and RLHF APPO: Agentic Procedural Policy Optimization