Entity · paper

Modeling Complex Behaviors: Multi-Personality Composition and Dynamic Switching in Vision-Language Models

paperactivemodeling-complex-behaviors-multi-personality-composition-and-dynamic-switching-in-vision-language-models-99128d23·1 events·first seen Jun 10, 2026

Aliases: Modeling Complex Behaviors: Multi-Personality Composition and Dynamic Switching in Vision-Language Models

More like this (12)

Vision-Language Models Test-Time Training for Modality Order Consistency in Vision-Language Models ENTRAP-VL: A Taxonomic Probe for Dual Contextual Entrainment in Vision-Language Models Vision-Default, Prior-Override: Causal Mechanisms of Perception-Knowledge Conflict in Vision-Language Models Seeing Is Not Sharing: Some Vision-Language Models Overestimate Common Ground in Asymmetric Dialogue Vision-Language-Action models visual language model TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies Vision-Language-Action model MODUS: Decoder-Only Any-to-Any Modeling of Diverse Modalities From Fixed to Free Cameras: Calibration-Free View-Robust Vision-Language-Action Model From Fixed to Free Cameras: Calibration-Free View-Robust Vision-Language-Action Model

Recent events (1)

4arXiv · cs.CL·Jun 10, 2026·source ↗

Systematic evaluation of multi-personality conditioning and dynamic switching in vision-language models

This paper introduces explicit personality conditioning for multimodal large language models (MLLMs) and proposes an evaluation framework covering single-personality induction, multi-personality composition, and dynamic personality switching. Experiments reveal that personality induction improves image captioning but degrades performance on precise reasoning tasks like VQA. The authors find balancing and residual effects during multi-trait composition and switching, and show that existing prompt-based personality induction methods transfer poorly to multimodal settings.

Evaluation and Benchmarking Multimodal Progress Modeling Complex Behaviors: Multi-Personality Composition and Dynamic Switching in Vision-Language Models