Entity · model

DynaFLIP

modelactivedynaflip-2b4c1ae7·1 events·first seen May 29, 2026

Aliases: DynaFLIP

Co-occurring entities

Vision-Language-Action models simplex-volume minimization 3D optical flow contrastive learning

More like this (12)

DFlash DynaKRAG FLUX3D FLUX FLUX 3 FLUX-2 DFly FLUX-mimic FlameVision DRFLOW GigaTIME-Flash Flux Ultra

Recent events (1)

6arXiv · cs.LG·May 29, 2026·source ↗

DynaFLIP: Dynamics-Aware Multimodal Pre-Training for Robot Manipulation Perception

DynaFLIP is a pre-training framework that injects motion understanding into visual encoders for robot manipulation by constructing image-language-3D flow triplets from human and robot videos. The method encourages tri-modal alignment via simplex-volume minimization in a shared hyperspherical space, combined with cosine regularization and contrastive objectives. The resulting dynamics-aware visual backbone consistently outperforms baselines across diverse downstream policies including VLAs, with gains up to +22.5% in out-of-distribution scenarios. The work argues that robot generalization requires encoding how the world changes under action, not just static scene content.

Frontier Model Releases Agent and Tool Ecosystem Vision-Language-Action models simplex-volume minimization DynaFLIP +3 more