paper

Just how sure are you? Improving Verbalized Uncertainty Calibration in Medical VQA

paperactiveprovisionaljust-how-sure-are-you-improving-verbalized-uncertainty-calibration-in-medical-vqa-e401790a·1 events·first seen 2d ago

Aliases: Just how sure are you? Improving Verbalized Uncertainty Calibration in Medical VQA

Co-occurring entities

Qwen2.5-7B-Instruct-1M MedGemma 4B IT

More like this (12)

Uncertainty Calibration Uncertainty Quantification Uncertainty Quantification for Computer-Use Agents: A Benchmark across Vision-Language Models and GUI Grounding Datasets Verbal Uncertainty Expression Expected Calibration Error DocVQA VQA-RAD Measuring Epistemic Resilience of LLMs Under Misleading Medical Context Variance-Calibrated Modulation temporally grounded QA benchmark Efficient and Sound Probabilistic Verification for AI Agents CXR-VQA

Recent events (1)

5arXiv · cs.CL·2d ago·source ↗

Training framework reduces calibration error 60%+ in Medical VQA multimodal LLMs

A new arXiv preprint proposes a finetuning framework to improve verbalized uncertainty calibration in multimodal LLMs applied to Medical Visual Question Answering. The composite loss function combines Brier-style calibration, anchor regularization, contrastive image-text alignment, and KL-based stabilization, evaluated on MedGemma 4B IT and Qwen2-VL 7B Instruct across three medical VQA benchmarks. The method reduces calibration error by 60% or more and improves discrimination by 26% or more while preserving predictive accuracy, outperforming prompting-, sampling-, and training-based baselines.

Evaluation and Benchmarking AI Safety Research Just how sure are you? Improving Verbalized Uncertainty Calibration in Medical VQA Qwen2.5-7B-Instruct-1M MedGemma 4B IT +1 more