paper

Beyond Tokenization: Direct Timestep Embedding and Contrastive Alignment for Time-Series Question Answering

paperactiveprovisionalbeyond-tokenization-direct-timestep-embedding-and-contrastive-alignment-for-time-series-question-answering-d1bb5894·1 events·first seen 2d ago

Aliases: Beyond Tokenization: Direct Timestep Embedding and Contrastive Alignment for Time-Series Question Answering

Co-occurring entities

Time-MQA CADE

More like this (12)

Beyond Uniform Tokens: Adaptive Compression for Time Series Language Models Bias Benchmark for Question Answering Trace Only What You Need: Structure-Aware On-Demand Hypergraph Memory for Long-Document Question Answering Multi-hop Question Answering Attention Expansion: Enhancing Keyphrase Extraction from Long Documents with Attention-Augmented Contextualized Embeddings Alternating Token-Weighted Unlearning When Does Mixing Help? Analyzing Query Embedding Interpolation in Multilingual Dense Retrieval Planning-aligned Token Compression for Long-Context Autonomous Driving FlashbackCL: Mitigating Temporal Forgetting in Federated Learning Time-MQA Which Speech Representation Better Matches Text-Native Reasoning? A Study of Speech-Text Alignment on Frame Rate and Representation Instructional Segment Embeddings

Recent events (1)

4arXiv · cs.CL·2d ago·source ↗

CADE framework proposes direct timestep embedding and contrastive alignment for time-series question answering

A new arXiv preprint introduces CADE (Contrastive Alignment with Direct Embedding), a framework for time-series question answering (TSQA) that bypasses the tokenization bottleneck of standard LLMs by mapping each timestep directly into the LLM embedding space via a point-wise linear encoder and MLP projector. The approach also introduces a one-directional supervised contrastive loss to align time-series embeddings with frozen class-name text anchors, bridging the semantic gap between numerical and language representations. Evaluated on the Time-MQA benchmark across six TSQA tasks, CADE outperforms both open-source and proprietary LLM baselines. The work addresses a concrete limitation of patch-based encoders — fixed granularity and poor cross-dataset transfer — with a cleaner architectural alternative.

Evaluation and Benchmarking Multimodal Progress Time-MQA Beyond Tokenization: Direct Timestep Embedding and Contrastive Alignment for Time-Series Question Answering CADE