paper

Token-Operations-Oriented Inference Optimization Techniques for Large Models

paperactiveprovisionaltoken-operations-oriented-inference-optimization-techniques-for-large-models-f39b75c4·1 events·first seen 47h ago

Aliases: Token-Operations-Oriented Inference Optimization Techniques for Large Models

More like this (12)

GraphPO: Graph-based Policy Optimization for Reasoning Models Beyond Uniform Tokens: Adaptive Compression for Time Series Language Models CLP: Collocation-Length Prediction for Zero-Loss Adaptive Multi-Token Inference Large Reasoning Models Language Model Finetuning Bayesian Optimization distributionally robust optimization Scaling Laws for Reward Model Overoptimization Decomposing Factual Sycophancy in Language Models: How Size and Instruction Tuning Shape Robustness Adaptive Multi-Resolution Procedural Knowledge Compression for Large Language Models Quantifying Faithful Confidence Expression in Large Reasoning Models Does Reasoning Preserve Alignment? On the Trustworthiness of Large Reasoning Models

Recent events (1)

4arXiv · cs.CL·47h ago·source ↗

Survey proposes four-layer architecture for token-operations-oriented LLM inference optimization

A new arXiv preprint introduces a four-layer technical architecture—Multi-model Fusion, Model Optimization, Compute-Model Fusion, and Compute-Network-Model Fusion—for systematically organizing LLM inference optimization techniques. The paper reviews key technologies and industry status at each layer and analyzes their application in real-world business scenarios. The framing around 'token operations' positions inference optimization as an operational discipline analogous to traditional IT operations.

Training Infrastructure Inference Economics Token-Operations-Oriented Inference Optimization Techniques for Large Models