Entity · paper

Self-Refining Agentic Reinforcement Learning for Vision-Conditioned UAV Navigation

paperactiveself-refining-agentic-reinforcement-learning-for-vision-conditioned-uav-navigation-3e99400b·1 events·first seen Jun 3, 2026

Aliases: Self-Refining Agentic Reinforcement Learning for Vision-Conditioned UAV Navigation

Co-occurring entities

AgenticRL Proximal Policy Optimization

More like this (12)

Visually Grounded Self-Reflection for Vision-Language Models via Reinforcement Learning EvolveNav: Proactive Preflection and Self-Evolving Memory for Zero-Shot Object Goal Navigation Learning Adaptive Safety Margins for Visual Navigation InSight: Self-Guided Skill Acquisition via Steerable VLAs InSight: Self-Guided Skill Acquisition via Steerable VLAs Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement Explainable Reinforcement Learning for assisting Air Traffic Controllers Reinforcement Learning with Metacognitive Feedback Physics-EnhAnced Reinforcement Learning From Fixed to Free Cameras: Calibration-Free View-Robust Vision-Language-Action Model From Fixed to Free Cameras: Calibration-Free View-Robust Vision-Language-Action Model FORCE: Efficient VLA Reinforcement Fine-Tuning via Value-Calibrated Warm-up and Self-Distillation

Recent events (1)

6arXiv · cs.AI·Jun 3, 2026·source ↗

AgenticRL: Self-refining LLM-guided reward design and policy refinement for UAV navigation

AgenticRL is a framework that uses a multimodal GPT agent to automate reward function generation, policy training via PPO, and closed-loop self-refinement for UAV navigation tasks. The agent evaluates trained policies through diagnostic feedback, identifies failure modes, and iteratively refines rewards without human intervention. Evaluated across five navigation tasks, the closed-loop refinement improves policy behavior by 71% over initial rewards, with sim-to-real transfer achieving 91% real-world success rate and 94% sim-to-real accuracy.

Agent and Tool Ecosystem Self-Refining Agentic Reinforcement Learning for Vision-Conditioned UAV Navigation AgenticRL Proximal Policy Optimization