paper

Detect, Unlearn, Restore: Defending Text Summarization Models Against Data Poisoning

paperactiveprovisionaldetect-unlearn-restore-defending-text-summarization-models-against-data-poisoning-4fa02a85·1 events·first seen 3d ago

Aliases: Detect, Unlearn, Restore: Defending Text Summarization Models Against Data Poisoning

Co-occurring entities

ROUGE-L

More like this (12)

Less is More: Quality-Aware Training Data Selection for Scientific Summarization clinical text summarization Learning to Summarize with Human Feedback A Training-Free Mixture-of-Agents Framework for Multi-Document Summarization using LLMs and Knowledge Graphs Uncertainty-based Debiasing and Unlearning for Decontamination Tracing Target Answers in Poisoned Retrieval Corpora via Token Influence Attribution NAMESAKES: Probing Identity Memorization in Text-to-Image Models Provenance-Grounded Gating and Adaptive Recovery in Synthetic Post-Training Data Curation Language Model Safety Monitor Recursive Summarization Decomposing Factual Sycophancy in Language Models: How Size and Instruction Tuning Shape Robustness Recalling Too Well: Sycophancy Evaluation and Mitigation in Memory-Augmented Models

Recent events (1)

5arXiv · cs.CL·3d ago·source ↗

Unified defense framework detects and remediates data poisoning in text summarization fine-tuning

A new arXiv preprint introduces a post-hoc defense framework for detecting and recovering from training-time data poisoning in LLMs fine-tuned for abstractive summarization. The framework uses influence-function analysis in white-box settings and behavioral perturbation auditing in black-box settings, achieving 85-92% detection precision across nine architectures and six benchmarks. Gradient-ascent unlearning restores up to 96% of original model behavior with less than 0.6% ROUGE degradation. The authors also introduce novel attacks targeting factual distortion and representational bias that evade conventional evaluation metrics.

Evaluation and Benchmarking AI Safety Research ROUGE-L Detect, Unlearn, Restore: Defending Text Summarization Models Against Data Poisoning