PoSh:利用场景图引导大语言模型作为评判者进行详细图像描述评估 PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions
核心要点
提出PoSh评估方法,通过场景图结构化标准指导大语言模型评判图像描述质量,在艺术图像数据集上超越现有指标。
大白话解释
这篇论文想解决电脑生成的图片描述好坏难判断的问题。他们设计了一个新评分方法,先用场景图列出图片里该有的内容,再让大语言模型对照检查描述是否准确,最后给出分数。
Detailed Analysis
当前视觉语言模型能生成详细图像描述,但评估这些长文本面临挑战。传统指标如CIDEr和SPICE专为短文本设计,无法有效捕捉属性关联错误。人工评估成本高且主观性强,需要一种能精确定位错误、可解释且与人类判断一致的自动化评估方法。
PoSh方法核心是双阶段评估:首先将参考描述转换为场景图作为结构化评分标准,然后引导大语言模型根据场景图逐项检查生成描述的准确性。创新点包括:1)利用场景图明确评估维度;2)通过大语言模型实现细粒度错误定位;3)设计DOCENT艺术数据集验证方法,包含专家标注和人工评分。
在DOCENT数据集上,PoSh与人类评分的斯皮尔曼相关性达+0.05,优于最佳开源模型。在CapArena网络图像数据集上保持稳健性。作为奖励函数微调模型时,效果超越标准监督微调。实验表明基础模型对复杂场景图像的描述仍存在覆盖不足问题。
PoSh提供了可复现、可解释的图像描述评估方案,解决了长文本评估难题。DOCENT数据集为艺术领域评估设立新基准。该工作推动了辅助文本生成等应用发展,为视觉语言模型进步提供了重要衡量工具。