ChainMPQ:通过交错式图文推理链缓解关系幻觉问题 ChainMPQ: Interleaved Text-Image Reasoning Chains for Mitigating Relation Hallucinations
核心要点
提出无需训练的ChainMPQ方法,通过多视角问答和图文记忆链提升大视觉语言模型的关系推理能力,显著减少关系幻觉。
大白话解释
这篇论文想让AI看图说话时少犯‘关系错误’,比如把‘猫坐在椅子上’说成‘猫趴在桌上’。它通过把复杂问题拆成小问题,让AI一步步结合图片和文字记忆来推理,就像人类连环思考一样。
Detailed Analysis
大视觉语言模型在图文任务中表现优异,但幻觉问题严重影响其可靠性。关系幻觉(如错误描述物体间关系)在三种幻觉类型中占比最高却研究最少。现有方法多关注物体或属性幻觉,缺乏针对关系推理的专门优化。因此,需要开发无需重新训练的高效方法,精准提升模型对视觉关系中主体、客体及关联的推理能力。
ChainMPQ包含三个核心模块:首先从问题中提取主客体关键词并增强对应图像区域;接着构建多视角问题集,分别聚焦关系中的主体、客体及其关联;最后以交错链式顺序将问题输入模型,使前序步骤的图文记忆(如主体定位结果)为后续推理(如关系判断)提供上下文支持,形成渐进式推理链条。该方法无需训练,通过动态积累多模态记忆实现关系推理的自我修正。
在多个大视觉语言模型(如LLaVA、BLIP-2)和基准测试(如MMHal-Bench)上的实验表明,ChainMPQ将关系幻觉率平均降低12.8%,在复杂关系任务中提升尤为显著。消融实验验证了三个模块的协同作用:移除多视角问题会使性能下降9.5%,取消记忆链机制导致错误率上升15.2%。
ChainMPQ通过结构化的问题链和记忆增强机制,为大视觉语言模型的关系幻觉问题提供了可解释的解决方案。其训练无关的特性使其具备广泛适用性,推动了多模态推理从静态识别向动态因果推断的演进,为构建可靠的多模态AI系统提供了新范式。