Entity · technique

deliberative alignment

techniqueactivedeliberative-alignment-f9adbfb7·1 events·first seen May 20, 2026

Aliases: deliberative alignment

Co-occurring entities

Reinforcement Learning from Human Feedback OpenAI o1

More like this (12)

Collective Alignment Positive Alignment The Alignment Project AI alignment ALIGN human uncertainty alignment Superalignment emergent misalignment misalignment detection The Role of Feedback Alignment in Self-Distillation MedAlign adversarial refinement

Recent events (1)

7Openai Blog·May 20, 2026·source ↗

Deliberative Alignment: Reasoning Enables Safer Language Models

OpenAI introduces deliberative alignment, a new alignment strategy applied to o1 models in which the model is directly taught safety specifications and trained to reason over them at inference time. Unlike prior approaches that embed safety implicitly through RLHF, this method makes safety reasoning explicit and inspectable. The announcement positions deliberative alignment as a meaningful advance in scalable oversight and safe deployment of frontier reasoning models.

Frontier Model Releases AI Safety Research Reinforcement Learning from Human Feedback OpenAI deliberative alignment +2 more