Entity · product

SafeCtrl-RL

productactivesafectrl-rl-5f0980b7·1 events·first seen May 26, 2026

Aliases: SafeCtrl-RL

Co-occurring entities

inference-time behavioural unlearning Reinforcement Learning prompt optimisation

More like this (12)

SafeRL-Lab ContextRL PrefixRL ReuseRL CheckRLM SafeCoder SafeText Tool-RL-Box RL² MemRL safetensors MedRLM

Recent events (1)

6arXiv · cs.CL·May 26, 2026·source ↗

SafeCtrl-RL: Inference-Time Adaptive Behaviour Control for LLMs via RL-Driven Prompt Optimisation

SafeCtrl-RL is a framework for controlling LLM safety at inference time without retraining or modifying model parameters. It formulates dialogue generation as a sequential decision process where an RL agent dynamically selects prompt adjustment strategies based on contextual feedback, iteratively suppressing unsafe outputs. The authors frame this as 'inference-time behavioural unlearning' and report improvements in safety and response quality across multiple LLMs and unsafe dialogue scenarios, outperforming existing prompt-based optimisation baselines.

Inference Economics AI Safety Research inference-time behavioural unlearning Reinforcement Learning SafeCtrl-RL +2 more