Entity · technique

Observation-Guided Video-Context Routing

techniqueactiveobservation-guided-video-context-routing-05021b79·1 events·first seen Jun 9, 2026

Aliases: Observation-Guided Video-Context Routing

Co-occurring entities

RoboTwin Linear Diffusion Transformer AHA-WAM Fast-WAM

More like this (12)

Observe-and-Act Adaptive Context Selection Hierarchical Vocabulary Routing centroid-guided routing Reroute, Don't Remove: Recoverable Visual Token Routing for Vision-Language Models Evidence-Backed Video Question Answering CARE (Confidence-Adaptive Routing of Experts)Routing-Conditioned Projection Spatio-Temporal Video Grounding PRP (Proactive Routing Paradigm)Multi-Task Bayesian In-Context Learning ENTRAP-VL: A Taxonomic Probe for Dual Contextual Entrainment in Vision-Language Models UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

Recent events (1)

6arXiv · cs.AI·Jun 9, 2026·source ↗

AHA-WAM: Asynchronous world-action modeling with temporal decoupling for robot manipulation

AHA-WAM introduces a dual Diffusion Transformer architecture that decouples world prediction (low-frequency) from action execution (high-frequency) in robot manipulation policies, addressing the inefficiency of existing world-action models that force both branches to operate at the same temporal resolution. The system uses a rolling key-value memory video DiT as a long-horizon scene planner and a fast action DiT that queries layerwise latent context via joint attention, with Observation-Guided Video-Context Routing enabling asynchronous execution. On RoboTwin benchmarks, AHA-WAM achieves 92.80% average success and 78.3% on real-world tasks at 24.17 Hz, a 4.59x speedup over Fast-WAM, without robot-data pretraining.

Inference Economics RoboTwin Linear Diffusion Transformer Observation-Guided Video-Context Routing +2 more