Entity · paper

TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies

paperactivetempovla-learning-speed-controllable-vision-language-action-policies-3e885955·1 events·first seen Jun 5, 2026

Aliases: TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies

Co-occurring entities

Variable-Speed Trajectory Augmentation TempoVLA

More like this (12)

LabVLA: Grounding Vision-Language-Action Models in Scientific Laboratories Vision-Language-Action model Vision-Language-Action models TempoVLA From Fixed to Free Cameras: Calibration-Free View-Robust Vision-Language-Action Model From Fixed to Free Cameras: Calibration-Free View-Robust Vision-Language-Action Model InSight: Self-Guided Skill Acquisition via Steerable VLAs InSight: Self-Guided Skill Acquisition via Steerable VLAs ENTRAP-VL: A Taxonomic Probe for Dual Contextual Entrainment in Vision-Language Models Test-Time Training for Modality Order Consistency in Vision-Language Models Modeling Complex Behaviors: Multi-Personality Composition and Dynamic Switching in Vision-Language Models Towards Continual Motion-Language Agents: LoRA Variants for Incremental Motion Understanding and Generation

Recent events (1)

5arXiv · cs.AI·Jun 5, 2026·source ↗

TempoVLA: Speed-Controllable Vision-Language-Action Policy for Robot Manipulation

Researchers introduce TempoVLA, a Vision-Language-Action model that enables explicit speed control during robot manipulation by conditioning on a speed signal rather than inheriting a fixed speed from training data. The system pairs Variable-Speed Trajectory Augmentation (VSTA), which re-times demonstrations by merging or splitting actions, with a model-side conditioning mechanism. Experiments in simulation and real-world tasks show flexible bidirectional speed control, with dynamic adaptation—accelerating in low-risk transit phases and decelerating for high-risk contact stages—achieved by coupling with a large multimodal model.

Agent and Tool Ecosystem Multimodal Progress Variable-Speed Trajectory Augmentation TempoVLA TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies