Entity · technique

Attainable Utility Preservation

techniqueactiveattainable-utility-preservation-07148874·1 events·first seen May 28, 2026

Aliases: Attainable Utility Preservation

Co-occurring entities

Calibrated Collective Oversight (CCO)Conformal Decision Theory SWE-bench MACHIAVELLI

More like this (12)

Counterfactual Trajectory Utility Fine-Tuning for Financial Utility Prefix Utility Model Thought Preservation From Correctness to Utility: Gain-Based Prefix Evaluation for LLM Reasoning Beyond Sufficiency: Time Series Explanation with Counterfactual Necessity UAR (Unforeseen Attack Robustness)Pareto Optimal Policy Optimization Correctness-Efficiency Frontier distributionally robust optimization Proximal Policy Optimization Bridge Evidence: Static Retrieval Utility Does Not Predict Causal Utility in Multi-Step Agentic Search

Recent events (1)

7arXiv · cs.AI·May 28, 2026·source ↗

Calibrated Collective Oversight (CCO): Scalable Oversight with Finite-Time Statistical Guarantees

This paper introduces Calibrated Collective Oversight (CCO), a framework for maintaining human oversight of agentic AI systems that may exceed human capabilities. CCO aggregates diverse scoring functions into a conservatism penalty inspired by Attainable Utility Preservation, then calibrates this penalty online via Conformal Decision Theory to ensure undesirable outcomes stay below a user-specified threshold with finite-time bounds and no distributional assumptions. Evaluated on a modified SWE-bench (adversarially misaligned agent) and MACHIAVELLI (ethical violations), CCO allows weaker overseers to constrain stronger agents while preserving reward, with empirical violation rates closely matching specified targets.

Evaluation and Benchmarking AI Safety Research Calibrated Collective Oversight (CCO)Attainable Utility Preservation Conformal Decision Theory +4 more