Entity · technique

Hybrid Reward Advantage Splitting

techniqueactivehybrid-reward-advantage-splitting-c849668c·1 events·first seen Jun 15, 2026

Aliases: Hybrid Reward Advantage Splitting

Co-occurring entities

CORA GRPO (Group Relative Policy Optimization)

More like this (12)

REAR: Test-time Preference Realignment through Reward Decomposition REAlignment Reward RREDCoT: Segment-Level Reward Redistribution for Reasoning Models reward model reward hacking cluster voting reward CapReward Gradient-Guided Reward Optimization RoboReward In-Context Reward Adaptation OSReward-Multi DiT-Reward

Recent events (1)

5arXiv · cs.CL·Jun 15, 2026·source ↗

CORA: Consistency-Oriented Reasoning Alignment addresses thinking-answer gap in multimodal RLVR

Researchers identify and analyze a systematic inconsistency between reasoning traces and final answers in RLVR-trained large vision-language models, showing the problem persists throughout GRPO training and inference. They propose CORA, which introduces a lightweight plug-and-play consistency reward model and a Hybrid Reward Advantage Splitting (HRAS) mechanism to coordinate task and consistency optimization. Experiments across multimodal reasoning benchmarks show CORA improves both task performance and reasoning faithfulness.

Evaluation and Benchmarking Alignment and RLHF CORA Hybrid Reward Advantage Splitting GRPO (Group Relative Policy Optimization)+1 more