Entity · technique

LoMo

techniqueactivelomo-6092844f·1 events·first seen May 29, 2026

Aliases: LoMo

Co-occurring entities

LLaVA-OneVision-1.5-8B Qwen3-4B Vision-Language Models Local Modality Substitution

More like this (12)

LoCoMo AnyMo MaLoRA OLMo-3 LoSoNA OLMo2 OLMo MOJO OLMoE MoE²-LoRA DiLoCo OLMo-1B

Recent events (1)

6arXiv · cs.CL·May 29, 2026·source ↗

LoMo: Local Modality Substitution for Deeper Vision-Language Fusion

This paper identifies a 'carrier sensitivity' problem in Vision-Language Models (VLMs), where replacing textual queries with rendered-image equivalents causes significant performance degradation due to asymmetric roles of text and images in training data. The authors propose Local Modality Substitution (LoMo), a data curation paradigm that reformulates single-modality prompts into interleaved multimodal sequences by dynamically rendering text spans as images, enforcing cross-modal representational invariance. Evaluated across 13 multimodal benchmarks, LoMo improves over standard supervised fine-tuning by 2.67 points on LLaVA-OneVision-1.5-8B and 2.82 points on Qwen3.5-9B. The approach is architecture-agnostic and lightweight, requiring no changes to model architecture.

Evaluation and Benchmarking Alignment and RLHF LoMo LLaVA-OneVision-1.5-8B Qwen3-4B +3 more