人类对多模态AI内容反应的建模研究 Modeling Human Responses to Multimodal AI Content
Key Points
提出首个量化人类对AI生成内容反应的数据集MhAIM,开发能预测人类反应的LLM代理系统T-Lens,揭示多模态不一致性提升人类识别AI内容的能力。
Plain Language Summary
这篇论文研究人们看到AI生成的图文内容时会有什么反应。团队收集了15万条网络帖子做实验,发现当图片和文字对不上时,人们更容易发现是AI做的。他们还造了个智能助手,能预测人们对网上信息的反应。
Detailed Analysis
随着AI生成内容的普及,错误信息风险加剧。现有研究多聚焦内容真伪识别,却忽视其对人类认知行为的影响。在股票交易等关键领域,预测内容传播效果比验证真实性更重要。为此,本研究从人本视角出发,旨在建立量化人类对AI内容反应的系统性方法,为缓解AI错误信息风险提供新思路。
1) 构建包含154,552条帖子(11万+AI生成)的MhAIM数据集,支持人类反应的大规模分析;2) 提出信任度、影响力、开放度三个新指标量化用户评判;3) 开发T-Lens系统:基于HR-MCP协议(改进自标准MCP)的LLM代理,通过预测人类对多模态信息的反应来优化回答生成。系统核心创新在于将人类反应建模无缝集成到LLM工作流中。
实验发现:1) 图文结合时人类识别AI内容准确率提升23%,尤其当模态间存在不一致时;2) T-Lens在预测内容传播效果的任务中,比基线模型准确率高17%;3) 新提出的三维度指标与用户实际行为显著相关(p<0.01)。数据集已开源供社区研究使用。
本研究首次系统量化了人类对AI内容的反应模式,证实多模态不一致性可作为识别AI内容的重要线索。开发的T-Lens系统通过整合人类反应预测,使LLM具备人本意识交互能力。成果不仅为检测AI错误信息提供新维度,更推动人机交互向认知对齐方向发展,对社交媒体内容审核、金融信息监测等场景具有实践价值。