Entity · technique

Gravity-Weighted Direct Preference Optimization

techniqueactivegravity-weighted-direct-preference-optimization-81d37f46·1 events·first seen Jun 10, 2026

Aliases: Gravity-Weighted Direct Preference Optimization

Co-occurring entities

Instructional Segment Embeddings Training LLMs to Enforce Multi-Level Instruction Hierarchies via Gravity-Weighted Direct Preference Optimization Llama3-8B-Instruct Direct Preference Optimization (DPO)

More like this (12)

Training LLMs to Enforce Multi-Level Instruction Hierarchies via Gravity-Weighted Direct Preference Optimization Direct Preference Optimization (DPO)Drifting Preference Optimization Identity Preference Optimization Gradient-Guided Reward Optimization distributionally robust optimization Pareto Optimal Policy Optimization Vector Policy Optimization Bayesian Multiobjective Optimization Bayesian Optimization General Preference Model Hierarchical Relative Policy Optimization

Recent events (1)

6arXiv · cs.CL·Jun 10, 2026·source ↗

Gravity-Weighted DPO enforces multi-level instruction hierarchies in LLMs

Researchers introduce Gravity-Weighted DPO (GW-DPO), a preference-optimization objective that scales per-sample loss offsets by the structural distance between conflicting instruction levels, addressing the problem of uniform architectural privilege across trust levels in production LLMs. The work formalizes a 5-level instruction hierarchy with ten pairwise priority relations and combines GW-DPO with hierarchy-specific delimiter tokens and Instructional Segment Embeddings (ISE). Evaluated on Llama-3.1-8B-Instruct, the bilateral GW-DPO schedule Pareto-improves over standard DPO on macro pairwise priority adherence while cutting over-refusal rates in half. The approach directly targets prompt injection vulnerabilities arising from models' inability to resolve competing instructions by privilege level.

AI Safety Research Agent and Tool Ecosystem Instructional Segment Embeddings Training LLMs to Enforce Multi-Level Instruction Hierarchies via Gravity-Weighted Direct Preference Optimization Llama3-8B-Instruct +3 more