Entity · paper

Exploring Adversarial Robustness and Safety Alignment in Multilingual Multi-Modal Large Language Models

paperactiveexploring-adversarial-robustness-and-safety-alignment-in-multilingual-multi-modal-large-language-models-7633268e·1 events·first seen Jun 3, 2026

Aliases: Exploring Adversarial Robustness and Safety Alignment in Multilingual Multi-Modal Large Language Models

Co-occurring entities

Qwen3-4B

More like this (12)

Evaluation of Adversarial Robustness in Arabic Language Models Sound Probabilistic Safety Bounds for Large Language Models Same Evidence, Different Answer: Auditing Order Sensitivity in Multimodal Large Language Models The Shibboleth Effect: Auditing the Cross-Lingual Distributional Skew of Large Language Models Multimodal Large Language Models Single and Multi Truth Data Fusion using Large Language Models Benchmarking Multimodal Large Language Models for Scientific Visualization Literacy Actionable Activation Directions for Detecting and Mitigating Emergent Misalignment Across Language Model Families Understanding Large Language Models Automated reproducibility assessments in the social and behavioral sciences using large language models Contrastive-Difference CKA Reveals Concept-Specific Structural Alignment Across Language Model Architectures Same Lesson, Different Story: Cross-Lingual Reconstruction of Cultural Narratives in Large Language Models

Recent events (1)

6arXiv · cs.CL·Jun 3, 2026·source ↗

Adversarial robustness and safety alignment in multilingual multimodal LLMs: cross-lingual vulnerability and 'safety-by-failure'

A systematic study evaluates adversarial robustness and safety alignment of multimodal LLMs across 12 languages, finding that adversarial images optimized in one language transfer to others (cross-lingual transferability). The paper introduces the concept of 'safety-by-failure': low-resource languages appear safer not due to genuine alignment but because models fail to comprehend harmful instructions in those languages. Models like Qwen3-VL that integrate multilingual capability throughout training (rather than only at instruction tuning) show genuine cross-lingual safety with active refusal. The findings challenge the assumption that low-resource language safety metrics reflect real alignment.

Evaluation and Benchmarking AI Safety Research Qwen3-4B Exploring Adversarial Robustness and Safety Alignment in Multilingual Multi-Modal Large Language Models +1 more