paper

To Compare, or Not to Compare: On Methodological Practices in Evaluating Social Bias

paperactiveprovisionalto-compare-or-not-to-compare-on-methodological-practices-in-evaluating-social-bias-82dbd849·1 events·first seen 20h ago

Aliases: To Compare, or Not to Compare: On Methodological Practices in Evaluating Social Bias

Co-occurring entities

Chain-of-Thought Reasoning

More like this (12)

political bias evaluation StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs Beyond Third-Person Audits: Situated Interaction Auditing for User-Centered LLM Bias Research Grading the Grader: Lessons from Evaluating an Agentic Data Analysis System From Observation to Intervention: A Causal Audit of Expert Importance in Mixture-of-Experts Models From Self to Other: Evaluating Demographic Perspective-Taking in LLM Hate Speech Annotation Political Even-Handedness Evaluation Evaluation Cards: An Interpretive Layer for AI Evaluation Reporting Evaluation on the Hub Reward Learning from Comparisons Contrastive Search Adaptive Self-Debiasing

Recent events (1)

6arXiv · cs.CL·20h ago·source ↗

Unified framework reveals systematic bias amplification in comparative LLM evaluation settings

A new arXiv paper introduces a unified framework for standardizing social bias benchmarks across isolated and forced-choice comparative evaluation settings. The study finds a large 'paradigm gap': comparative settings act as aggressive catalysts for latent discrimination compared to isolated assessments, and Chain-of-Thought reasoning exacerbates this effect rather than mitigating it. Critically, this comparative bias persists even when models are given neutral fallback options or claim to answer randomly, and scales positively with model size. The authors recommend comparative settings for auditing but warn practitioners against using comparative deployments in ambiguous real-world tasks.

Evaluation and Benchmarking AI Safety Research To Compare, or Not to Compare: On Methodological Practices in Evaluating Social Bias Chain-of-Thought Reasoning