Entity · paper

Training LLMs to Enforce Multi-Level Instruction Hierarchies via Gravity-Weighted Direct Preference Optimization

paperactive

training-llms-to-enforce-multi-level-instruction-hierarchies-via-gravity-weighted-direct-preference-optimization-0dbc58f8

·1 events·first seen Jun 10, 2026

Aliases: Training LLMs to Enforce Multi-Level Instruction Hierarchies via Gravity-Weighted Direct Preference Optimization

Co-occurring entities

Instructional Segment Embeddings Llama3-8B-Instruct Direct Preference Optimization (DPO)Gravity-Weighted Direct Preference Optimization

More like this (12)

Gravity-Weighted Direct Preference Optimization Hierarchical Relative Policy Optimization Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode Outcomes Groc-PO: Grounded Context Preference Optimization for Truthful Multimodal LLMs Learning to Prompt: Improving Student Engagement with Adaptive LLM-based High-School Tutoring Gradient-Guided Reward Optimization MOPD: Multi-Teacher On-Policy Distillation for Capability Integration in LLM Post-Training Improving LLM-Generated Process Model Quality Through Reinforcement Learning: The Role of Reward Function Design Be My Tutor: On-Policy Co-Distillation for Mutual LLM Improvement via Peer Feedback Leveraging Instruction Tuning and Merging for Reasoning Model Adaptation ExpRL: Exploratory RL for LLM Mid-Training Teaching LLMs to Self-Evolve: Cultivating Core Meta-Skills with Reinforcement Learning

Recent events (1)

6arXiv · cs.CL·Jun 10, 2026·source ↗

Gravity-Weighted DPO enforces multi-level instruction hierarchies in LLMs

Researchers introduce Gravity-Weighted DPO (GW-DPO), a preference-optimization objective that scales per-sample loss offsets by the structural distance between conflicting instruction levels, addressing the problem of uniform architectural privilege across trust levels in production LLMs. The work formalizes a 5-level instruction hierarchy with ten pairwise priority relations and combines GW-DPO with hierarchy-specific delimiter tokens and Instructional Segment Embeddings (ISE). Evaluated on Llama-3.1-8B-Instruct, the bilateral GW-DPO schedule Pareto-improves over standard DPO on macro pairwise priority adherence while cutting over-refusal rates in half. The approach directly targets prompt injection vulnerabilities arising from models' inability to resolve competing instructions by privilege level.

AI Safety Research Agent and Tool Ecosystem Instructional Segment Embeddings Training LLMs to Enforce Multi-Level Instruction Hierarchies via Gravity-Weighted Direct Preference Optimization Llama3-8B-Instruct +3 more