Entity · technique

Multimodal Continual Instruction Tuning

techniqueactivemultimodal-continual-instruction-tuning-5b6f08c5·3 events·first seen May 26, 2026

Aliases: Multimodal Continual Instruction Tuning

Co-occurring entities

Multimodal Large Language Models Mixture of Experts CRAM centroid-guided routing adaptive-rank instantiation ProtoAda LoRA format-aware task prototypes instruction tuning LAMDA-CL Prism

More like this (12)

Visual Instruction Tuning Aligns Modalities through Abstraction instruction tuning Leveraging Instruction Tuning and Merging for Reasoning Model Adaptation Multimodal Learning Prompt Tuning Multimodal Gain multimodal pretraining Pivotal Tuning Instruction-Tuned Models Locally Reuse Human Syntax More Than Humans Do Test-Time Finetuning (TTFT)instruction-based multitask pretraining Multi-Task Learning

Recent events (3)

5arXiv · cs.CL·Jun 2, 2026·source ↗

CRAM: Centroid-Routing and Adaptive MoE for Multimodal Continual Instruction Tuning

CRAM is a new method for Multimodal Continual Instruction Tuning (MCIT) that addresses the tension between catastrophic forgetting and parameter efficiency in MLLMs. It combines adaptive-rank instantiation to dynamically allocate parameters based on capability gaps, centroid-guided routing to reuse existing expert knowledge, and an orthogonality penalty to confine new updates to task-specific directions. The approach uses a Mixture-of-Experts architecture where task-specific patterns are isolated into independent modules, avoiding both the interference of shared updates and the parameter bloat of fully isolated expansion. Experiments across diverse benchmarks show consistent improvements over existing MCIT methods.

Enterprise Deployment Patterns Agent and Tool Ecosystem Multimodal Large Language Models CRAM centroid-guided routing +4 more

5arXiv · cs.LG·Jun 2, 2026·source ↗

ProtoAda: Prototype-Guided Adaptive Adapter Expansion for Multimodal Continual Instruction Tuning

ProtoAda is a new framework for Multimodal Continual Instruction Tuning (MCIT) that addresses a key failure mode in sparse Mixture-of-LoRA-Experts architectures: image-text similarity routing is format-blind and incorrectly merges tasks with similar semantics but different output structures (e.g., coordinate prediction vs. VQA). The method introduces format-aware task prototypes to guide both routing and adapter expansion, then consolidates compatible updates geometrically to reuse and refine existing parameters. Experiments across multiple benchmarks show improved performance, particularly on tasks whose answer formats are vulnerable to corruption by sequential fine-tuning.

Agent and Tool Ecosystem Alignment and RLHF Multimodal Large Language Models ProtoAda LoRA +4 more

4arXiv · cs.CL·May 26, 2026·source ↗

Prism: Plug-in Infrastructure for Multimodal Continual Instruction Tuning Research

Prism is an open-source codebase designed to address engineering bottlenecks in Multimodal Continual Instruction Tuning (MCIT) research. It introduces a plugin registration mechanism that separates algorithmic development from backbone MLLM implementation, allowing new continual learning strategies to be integrated without modifying the underlying model codebase. This design aims to eliminate structural fragmentation across method-specific implementations and enable fair, reproducible comparisons at scale.

Evaluation and Benchmarking Agent and Tool Ecosystem Multimodal Large Language Models Multimodal Continual Instruction Tuning instruction tuning +3 more