Entity · technique

Evolved Policy Gradients

techniqueactiveevolved-policy-gradients-ab4538b4·1 events·first seen May 20, 2026

Aliases: Evolved Policy Gradients

Co-occurring entities

meta-learning Reinforcement Learning OpenAI

More like this (12)

Policy Gradient Methods policy gradient Integrated Gradients GRPO (Group Relative Policy Optimization)Dual-Evidence Gradient Purification Mask-Aware Policy Gradients for Diffusion Language Models Proximal Policy Optimization Wasserstein Policy Gradient gradient accumulation Evolution Strategies Divergence Regularized Policy Optimization Gradient Labs

Recent events (1)

4Openai Blog·May 20, 2026·source ↗

Evolved Policy Gradients: OpenAI Meta-Learning via Loss Function Evolution

OpenAI released Evolved Policy Gradients (EPG), a meta-learning method that evolves the loss function used to train reinforcement learning agents rather than hand-designing it. The approach enables faster adaptation to novel tasks, with agents demonstrating generalization to test-time scenarios outside their training distribution, such as navigating to objects placed in new locations. EPG represents an experimental direction in automated algorithm discovery for RL.

Agent and Tool Ecosystem Alignment and RLHF Evolved Policy Gradients meta-learning Reinforcement Learning +1 more