Entity · technique

Multi-hop Question Answering

techniqueactivemulti-hop-question-answering-b3474c93·1 events·first seen Jun 1, 2026

Aliases: Multi-hop Question Answering

Co-occurring entities

tiered distractors Knowledge Graph Random Walk Long-context Reasoning Benchmarks Reinforcement Learning with Verifiable Rewards Tiered Distractor Construction LongTraceRL Rubric Reward Tsinghua University KEG Lab

More like this (12)

multi-hop reasoning Multi-hop Graph Retrieval 2WikiMultiHopQA ICML 2026 Workshop on Efficient Multimodal Question Answering Evidence-Backed Video Question Answering Bias Benchmark for Question Answering Visual Question Answering Trace Only What You Need: Structure-Aware On-Demand Hypergraph Memory for Long-Document Question Answering Document Visual Question Answering Table Question Answering Beyond Tokenization: Direct Timestep Embedding and Contrastive Alignment for Time-Series Question Answering High-Order Question Generation in a Multilingual Educational Context

Recent events (1)

6arXiv · cs.CL·Jun 1, 2026·source ↗

LongTraceRL: Reinforcement Learning for Long-Context Reasoning via Search Agent Trajectories and Rubric Rewards

LongTraceRL is a new RL training framework for improving long-context reasoning in LLMs, addressing limitations of existing RLVR methods. It constructs challenging training data using multi-hop questions from knowledge graph random walks and tiered distractors derived from search agent trajectories (high-confusability: read but uncited; low-confusability: seen but unopened). A rubric reward provides entity-level process supervision along reasoning chains, applied only to correct responses to prevent reward hacking. Experiments across three LLMs (4B–30B parameters) on five long-context benchmarks show consistent improvements over strong baselines.

Long Context Evolution Evaluation and Benchmarking tiered distractors Knowledge Graph Random Walk Long-context Reasoning Benchmarks +8 more