Entity · benchmark

Pass@1

benchmarkactivepass-1-0aeecb54·1 events·first seen May 25, 2026

Aliases: Pass@1

Co-occurring entities

Reasoning Enhancement Qwen3-4B ETCHR Reasoning Imitation Gemini 3.1 Flash Live Kimi K2.5

More like this (12)

pass@k best@k page-agent val14 PageIndex SpecFirst Uni-1 Fara1.5 ASAP++Continue.dev LongLive 1 v0

Recent events (1)

6arXiv · cs.AI·May 25, 2026·source ↗

ETCHR: Decoupled Image Editing for Visual Chain-of-Thought Reasoning in MLLMs

ETCHR introduces a question-conditioned, reasoning-aware image editing model that decouples visual transformation from downstream understanding in multimodal LLMs. It addresses two identified gaps—language-side (mapping abstract questions to visual edits) and generation-side (edit quality degrading with reasoning depth)—via a two-stage training recipe combining supervised fine-tuning on edit trajectories and VLM-derived reward signals. Because the editor is decoupled, it plugs into arbitrary MLLMs without retraining, yielding Pass@1 gains of roughly +4.6 to +5.5 points across five task families when paired with Qwen3-VL-8B, Gemini-3.1-Flash-Lite, and Kimi K2.5. The work advances the 'think with images' paradigm beyond fixed toolkits and unified multimodal approaches.

Agent and Tool Ecosystem Alignment and RLHF Reasoning Enhancement Qwen3-4B ETCHR +5 more