Entity · paper

CLP: Collocation-Length Prediction for Zero-Loss Adaptive Multi-Token Inference

paperactiveclp-collocation-length-prediction-for-zero-loss-adaptive-multi-token-inference-9538e306·1 events·first seen Jun 10, 2026

Aliases: CLP: Collocation-Length Prediction for Zero-Loss Adaptive Multi-Token Inference

Co-occurring entities

Qwen2.5 Alibaba CLP (Collocation-Length Predictor)Backbone-as-Architect

More like this (12)

CLP (Collocation-Length Predictor)In-Place Tokenizer Expansion for Pre-trained LLMs Multi-Token Prediction (MTP)Continual LLM Upcycling: A Predictor-Gated Bank-Wise Sparsity Training Recipe for Dense-to-Sparse LLMs Attention Amnesia in Hybrid LLMs: When CoT Fine-Tuning Breaks Long-Range Recall, and How to Fix It Co-LMLM: Continuous-Query Limited Memory Language Models Beyond Uniform Tokens: Adaptive Compression for Time Series Language Models Accelerating Masked Diffusion Large Language Models: A Survey of Efficient Inference Techniques Token-Operations-Oriented Inference Optimization Techniques for Large Models AIR: Adaptive Interleaved Reasoning with Code in MLLMs Adaptive Multi-Step Lookahead Decoding for Diffusion Language Models PC Layer: Polynomial Weight Preconditioning for Improving LLM Pre-Training

Recent events (1)

5arXiv · cs.AI·Jun 10, 2026·source ↗

CLP: Lightweight collocation-length predictor achieves zero-loss multi-token inference speedup

Researchers propose CLP (Collocation-Length Predictor), a span-level decision layer for accelerating LLM inference via multi-token prediction without quality degradation. The key insight is 'Backbone-as-Architect': the backbone LM head always generates the first token while MTP heads handle only subsequent tokens, eliminating head-backbone competition that causes repetitive outputs in prior methods. CLP uses a single linear layer (~4.6K–7.7K parameters) versus 1M-parameter gate networks in prior work, achieving 1.14x–1.29x speedup on Qwen2.5 models with near-zero repetition ratio. The paper also establishes that shorter prediction horizons improve MTP head accuracy on larger models, offering a scaling-aware design principle.

Inference Economics Qwen2.5 Alibaba CLP: Collocation-Length Prediction for Zero-Loss Adaptive Multi-Token Inference +2 more