Entity · paper

Bayesian Inference and Decision Audits for Public Archives of Frontier AI Evaluations

paperactivebayesian-inference-and-decision-audits-for-public-archives-of-frontier-ai-evaluations-73a89dd4·1 events·first seen Jun 16, 2026

Aliases: Bayesian Inference and Decision Audits for Public Archives of Frontier AI Evaluations

Co-occurring entities

GAIA Open LLM Leaderboard LMArena LiveBench TAU-bench

More like this (12)

third-party AI evaluations Bayesian decision theory Evaluation Cards: An Interpretive Layer for AI Evaluation Reporting ResearchArena: Evaluating Sabotage and Monitoring in Automated AI R&D Curated retrieval versus open web search in public AI information services: a coverage-trust trade-off Efficient and Sound Probabilistic Verification for AI Agents OpAI-Bench California Working Group on AI Frontier Models AI-Assisted Systematization for Evaluating GenAI Systems A Methodology for Auditable Trustworthiness Levels in AI Lifecycle Governance Can AI agents conduct open-ended AI research? Early evidence from two case studies Cost-Sensitive Conformal Prediction and Human-in-the-Loop Abstention for Imbalanced High-Stakes Decision Support: A Multi-Domain Benchmark

Recent events (1)

6arXiv · cs.AI·Jun 16, 2026·source ↗

Bayesian audit framework for public AI evaluation archives challenges frontier model claims

A new arXiv preprint proposes a Bayesian inference and decision-audit framework for interpreting public AI evaluation archives (LiveBench, Open LLM Leaderboard v2, LMArena, GAIA, tau-bench) as longitudinal time series rather than terminal leaderboards. The paper demonstrates that a single terminal snapshot is compatible with multiple distinct performance histories, yielding ambiguous timing estimates for reaching capability ceilings. A candidate selection-aware frontier model is shown to fail synthetic recovery, objective-archive prediction, preference transfer, and uncertainty calibration, with fixed audit gates rejecting its stronger claims. The work proposes an archive-and-adjudication protocol to reconstruct evaluation histories and falsify unsupported frontier capability claims.

Evaluation and Benchmarking AI Safety Research Bayesian Inference and Decision Audits for Public Archives of Frontier AI Evaluations GAIA Open LLM Leaderboard +3 more