paper

QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents

paperactiveprovisionalqval-cheaply-evaluating-dense-supervision-signals-for-long-horizon-llm-agents-89784419·1 events·first seen 2d ago

Aliases: QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents

Co-occurring entities

QVal QVal QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents

More like this (12)

QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode Outcomes ExpRL: Exploratory RL for LLM Mid-Training Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation Learning from the Self-future: On-policy Self-distillation for dLLMs Scaling LLM Reasoning from Minimal Labels: A Semi-Supervised Framework with a Lightweight Verifier Contagion Networks: Evaluator Bias Propagation in Multi-Agent LLM Systems Efficient and Sound Probabilistic Verification for AI Agents Why Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It Reinforcement Learning with Metacognitive Feedback Elicits Faithful Uncertainty Expression in LLMs Multi-Agent Reinforcement Learning from Delayed Marketplace Feedback for Objective-Weight Adaptation in Three-Sided Dispatch Forecasting With LLMs: Improved Generalization Through Feature Steering

Recent events (1)

6arXiv · cs.LG·2d ago·source ↗

QVal: Training-free benchmark for evaluating dense supervision signals in long-horizon LLM agents

QVal is a new training-free testbed for evaluating dense supervision signals used to guide LLM agents over long-horizon trajectories, where outcome-only rewards are too sparse. The framework measures 'Q-alignment' — whether a method's step scores match Q-values from a strong reference policy — enabling comparison of 21 methods across 4 environments and 7 methodological families without running full training pipelines. A key finding is that simple prompting baselines consistently outperform more sophisticated dense supervision methods from recent literature. The benchmark covers over 1,200 evaluation experiments across six open-weight model backbones.

Evaluation and Benchmarking Agent and Tool Ecosystem QVal QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents QVal +2 more