technique

Confessions (training method)

techniqueactiveconfessions-training-method--3417a186·1 events·first seen 28d ago

Aliases: Confessions (training method)

Co-occurring entities

More like this (12)

adversarial training self-training consistency training Verifier-in-the-Loop Training (ViL)Self-Instruct TRAINS large-batch training Video PreTraining (VPT)Supervised Memory Training distributed training Custom Instructions test-time training

Recent events (1)

6Openai Blog·28d ago·source ↗

How Confessions Can Keep Language Models Honest

OpenAI researchers are developing a training method called 'confessions' that teaches language models to explicitly admit when they have made mistakes or behaved undesirably. The approach aims to improve honesty, transparency, and user trust in model outputs. This represents an alignment-oriented intervention targeting self-reporting of model failures.

AI Safety Research Alignment and RLHF Confessions (training method)OpenAI