Entity · technique

GSPO (Group Sequence Policy Optimization)

techniqueactivegspo-group-sequence-policy-optimization--a1fe0b54·2 events·first seen May 18, 2026

Aliases: GSPO (Group Sequence Policy Optimization), Group Sequence Policy Optimization

Co-occurring entities

Qwen2.5-7B Improving LLM-Generated Process Model Quality Through Reinforcement Learning: The Role of Reward Function Design Llama-3.1-8B Qwen GRPO (Group Relative Policy Optimization)Reinforcement Learning for Language Models

More like this (12)

GRPO (Group Relative Policy Optimization)GSPO SPPO GRPO GraphGPO Group-in-Group Policy Optimization GSO SDPO gpt-oss usage policy GraphPO: Graph-based Policy Optimization for Reasoning Models N-GRPO GPT-OSS

Recent events (2)

5arXiv · cs.CL·Jul 8, 2026·source ↗

RL reward function design for LLM-generated BPMN process models: systematic study across 48 configurations

Researchers present a systematic study of reward function design for reinforcement learning applied to LLM-based BPMN process model generation, training Llama 3.1 8B and Qwen 2.5 14B across 48 configurations using Group Sequence Policy Optimization. Key findings: RL substantially improves syntactic and pragmatic quality while preserving semantic fidelity, equal reward weighting outperforms targeted weighting, and reward design effects interact with model architecture in non-trivial ways. The paper argues reward composition is as consequential as the decision to apply RL at all, with implications for any multi-dimensional structured generation task.

Evaluation and Benchmarking Alignment and RLHF Qwen2.5-7B Improving LLM-Generated Process Model Quality Through Reinforcement Learning: The Role of Reward Function Design GSPO (Group Sequence Policy Optimization)+1 more

7Qwen Research·May 18, 2026·source ↗

GSPO: Group Sequence Policy Optimization for Scalable RL Training of Language Models

Qwen researchers introduce Group Sequence Policy Optimization (GSPO), a new RL algorithm designed to address severe training instability and model collapse observed in existing methods like GRPO during extended training runs. The core motivation is enabling stable RL scaling for language models to improve reasoning and problem-solving capabilities with increased compute. The paper targets a known bottleneck in post-training pipelines where instability prevents further performance gains.

Training Infrastructure Frontier Model Releases Qwen GSPO (Group Sequence Policy Optimization)GRPO (Group Relative Policy Optimization)+2 more