technique

Repeated Policy Regret (RP-Regret)

techniqueactiveprovisionalrepeated-policy-regret-rp-regret--84d8c350·1 events·first seen 12d ago

Aliases: Repeated Policy Regret (RP-Regret)

Co-occurring entities

Regret Minimization with Adaptive Opponents in Repeated Games

More like this (12)

Regret Minimization with Adaptive Opponents in Repeated Games KL-regularized RL General Preference Reinforcement Learning Divergence Regularized Policy Optimization on-policy self-distillation R-Drop consistency regularization Entropy-Regularized Reinforcement Learning GRPO (Group Relative Policy Optimization)Hindsight Experience Replay On-Policy Distillation (OPD)Proximal Policy Optimization Evolved Policy Gradients

Recent events (1)

4arXiv · cs.LG·12d ago·source ↗

Repeated Policy Regret (RP-Regret): Regret minimization against adaptive opponents in repeated games

This arXiv paper introduces Repeated Policy Regret (RP-Regret), a new game-theoretic metric for regret minimization in repeated games where opponents can adapt based on play history — a setting where standard external regret fails. The authors prove necessary conditions for sublinear RP-Regret and propose three algorithms to minimize it, including oracle-based, linearized surrogate, and slow-opponent variants. When all players minimize RP-Regret, certain subgame perfect equilibria can be learned, and experiments show more cooperative outcomes in games like Stag-Hunt.

Evaluation and Benchmarking Repeated Policy Regret (RP-Regret)Regret Minimization with Adaptive Opponents in Repeated Games