Entity · technique

Reinforcement Learning for Language Models

techniqueactivereinforcement-learning-for-language-models-89ca3f53·1 events·first seen May 18, 2026

Aliases: Reinforcement Learning for Language Models

Co-occurring entities

Qwen GSPO (Group Sequence Policy Optimization)GRPO (Group Relative Policy Optimization)

More like this (12)

unsupervised language modeling generative language modeling Reinforcement Learning Elicits Contextual Learning of Unseen Language Translation large language model agents Random Language Model Multimodal Large Language Models multi-turn language models mRNA Language Model Large Language Models (frontier)large language models Scaling Laws for Neural Language Models Language Models are Few-Shot Learners

Recent events (1)

7Qwen Research·May 18, 2026·source ↗

GSPO: Group Sequence Policy Optimization for Scalable RL Training of Language Models

Qwen researchers introduce Group Sequence Policy Optimization (GSPO), a new RL algorithm designed to address severe training instability and model collapse observed in existing methods like GRPO during extended training runs. The core motivation is enabling stable RL scaling for language models to improve reasoning and problem-solving capabilities with increased compute. The paper targets a known bottleneck in post-training pipelines where instability prevents further performance gains.

Training Infrastructure Frontier Model Releases Qwen GSPO (Group Sequence Policy Optimization)GRPO (Group Relative Policy Optimization)+2 more