WithAI.Design

精选AI论文

精选arXiv最新AI论文,智能摘要帮助您掌握最新趋势

94 总论文 30 显示中 8 天的更新

Monday, November 3, 2025 (2篇论文)

Zhen Chen, Qing Xu, Jinlin Wu et al. (10 authors)
11月3日 2511.01775v1
Computer Vision 计算机视觉 强化学习

核心要点

本研究通过构建首个手术视频生成评估基准SurgVeo和四层评估框架SPP,揭示了AI模型在视觉逼真度与手术因果理解间的巨大差距。

大白话解释

研究人员想看看最先进的视频生成AI能不能像外科医生一样‘理解’手术过程。他们让AI根据手术片段预测后续画面,然后请真实外科医生从四个层次评估这些生成视频是否合理,结果发现AI虽然能做出看起来真实的视频,但完全不懂手术器械操作和医生意图。

Detailed Analysis
Motivation:

当前视频生成基础模型在模拟物理世界方面表现出色,但在手术等高风险专业领域,模型需要掌握专业的因果知识而非通用物理规则。这一关键需求尚未被系统研究。手术领域缺乏专门的评估基准,且现有模型是否真正理解手术逻辑仍属未知,这阻碍了AI在医疗领域的可靠应用。

Method:

研究团队首先构建了SurgVeo——首个由专家策划的手术视频生成评估基准,包含腹腔镜和神经外科手术片段。创新提出手术合理性金字塔(SPP)四层评估框架:从基础视觉感知、器械操作、环境反馈到最高层的手术意图。采用先进的Veo-3模型进行零样本预测任务,由四位认证外科医生依据SPP框架对生成视频进行系统评估。

Results:

评估结果显示明显的‘合理性断层’:Veo-3在视觉感知层面表现优异(83%通过率),但在器械操作合理性(27%)、环境反馈合理性(15%)和手术意图合理性(9%)等高层认知层面严重失败。这表明模型仅能模仿表面视觉特征,而无法理解手术中的因果关系和专业逻辑。

Conclusion:

本研究首次量化证明了AI在手术领域视觉模仿与因果理解间的巨大鸿沟。SurgVeo基准和SPP框架为开发真正理解专业领域复杂性的AI模型奠定了关键基础,指明了未来研究必须突破从视觉逼真到专业认知理解的技术瓶颈,才能实现AI在真实医疗场景中的可靠应用。

Xinyu Mao, Junsi Li, Haoji Zhang et al. (5 authors)
11月3日 2511.01390v1
Computer Vision 大语言模型 自然语言处理

核心要点

提出语义增强补丁精简框架,通过融合稠密/稀疏文本语义与相关性感知选择,显著提升视觉-语言细粒度对齐效果。

大白话解释

这项研究让计算机更准确地理解图片和文字之间的细节对应关系。比如一张图里有很多小区域,有些重要有些不重要,系统会智能筛选关键区域,并找到它们和文字描述的最佳匹配方式。

Detailed Analysis
Motivation:

视觉与语言的细粒度对齐是多模态任务的核心基础,但现有方法面临两大挑战:视觉补丁存在冗余模糊问题,且稠密文本输出与原始稀疏描述可能冲突。多模态大模型虽能生成丰富语义,但如何量化视觉补丁与文本的语义关联仍是未解难题,亟需一种能统一处理语义冲突并精准评估跨模态相似度的新方法。

Method:

SEPS采用两阶段机制:首先融合多模态大模型生成的稠密文本与原始稀疏标注,形成统一语义表示以识别显著视觉补丁;其次设计相关性感知选择策略,通过均值计算突出关键补丁-词汇对应关系,创新性地构建了兼顾语义一致性与判别性的跨模态相似度评估体系。

Results:

在Flickr30K和MS-COCO数据集上的实验表明,SEPS在rSum指标上较现有方法提升23%-86%,尤其在文到图检索任务中表现突出,且该优势在不同模型架构下均保持稳定,验证了框架的强泛化能力。

Conclusion:

本研究通过语义增强与补丁精简的协同设计,有效解决了跨模态对齐中的冗余和歧义问题,为多模态理解提供了可解释的局部对齐范式,对视觉问答等应用具有重要推进作用。

Sunday, November 2, 2025 (1篇论文)

Zhihui Chen, Mengling Feng
11月2日 2511.00801v1
Computer Vision 大语言模型 自然语言处理

核心要点

本文构建了首个大规模、高质量、开放获取的医学图像编辑数据集,包含5万张图像和系统化医学质量控制机制。

大白话解释

这个研究做了一个专门给医生和AI用的‘医学修图工具箱’,里面包含5万张真实的X光、脑部扫描等医疗图像,还能根据文字指令自动添加或去除病灶,并通过多轮检查确保修改后的图片既真实又符合医学要求。

Detailed Analysis
Motivation:

当前多模态大模型虽能实现医学图像编辑,但研究受限于缺乏专为医学场景设计的大规模高质量数据集。医学编辑需严格遵循解剖结构和临床真实性,而现有通用数据集无法满足这些要求。因此,本研究旨在构建首个涵盖多模态、多病种的大规模医学图像编辑数据集,推动可靠医疗AI工具的发展。

Method:

基于真实医学图像,利用Gemini-2.5-Flash-AI模型生成双向编辑(病灶添加与去除),覆盖胸透X光、脑部MRI、眼底摄影3种模态和23种疾病。创新点在于引入系统化医学质量控制:采用LLM-as-Judge评估框架,从指令符合度、结构合理性、真实性和保真度四个医学维度进行评判,并通过最多5轮迭代优化确保质量。此外,数据集还包含3.7万次失败案例及完整对话日志,支持偏好学习研究。

Results:

数据集包含5万张高质量医学编辑图像,涵盖3种影像模态和23类疾病。通过多轮医学质量控制,显著提升了编辑结果的临床合理性与真实性。失败案例日志为模型对齐研究提供了宝贵资源,数据集已开源并支持后续模型训练与评估。

Conclusion:

Med-Banana-50K填补了医学图像编辑领域高质量数据集的空白,其严格的医学验证机制和完整的过程记录为开发安全可靠的医疗AI模型奠定了基石。该资源将加速文本引导医学图像编辑技术的发展,对临床诊断辅助和医学教育具有重要价值。

Thursday, October 30, 2025 (5篇论文)

Xinhan Zheng, Huyu Wu, Xueting Wang et al. (4 authors)
10月30日 2510.26721v1
Artificial Intelligence 大语言模型 自然语言处理

核心要点

本文发现多模态大模型对文本的偏好源于注意力机制中视觉与文本键向量的空间分布差异,而非外部数据因素。

大白话解释

这篇论文研究的是多模态AI模型为什么更爱看文字而不是图片。就像一个人读书时只注意文字忽略插图,我们发现这是因为模型内部处理文字和图片的‘注意力机制’不协调,导致图片信息被冷落。

Detailed Analysis
Motivation:

当前多模态大语言模型在处理图文数据时过度依赖文本信息,削弱了视觉推理能力。以往研究多将这种文本偏见归因于数据不平衡或指令调优等外部因素,但本文认为偏见根植于模型内部架构。具体而言,视觉信息在注意力计算中可能因分布差异而系统性被抑制,这一内在机制尚未被充分探索。

Method:

研究选取LLaVA和Qwen2.5-VL模型,提取其注意力层中的视觉与文本键向量。通过t-SNE可视化方法观察向量分布结构,并采用Jensen-Shannon散度进行定量分析。创新点在于首次从键空间分布角度证明:视觉键向量在纯文本预训练后形成的键空间中属于分布外样本,导致注意力相似度计算时被低估。

Results:

实验显示视觉与文本键向量在注意力空间中占据明显分离的子空间,其模态间分布差异的统计显著性比模态内差异高出数个数量级。定量分析中Jensen-Shannon散度值显著偏离零假设,证实两种键向量的分布本质不同。

Conclusion:

本研究揭示多模态模型的文本偏见源于注意力键空间的内在错位,而非仅由外部数据导致。这一发现革新了对此类偏见的认知,为未来通过调整注意力机制而非仅依赖数据平衡来提升视觉推理能力提供了理论依据。

Caoshuo Li, Zengmao Ding, Xiaobin Hu et al. (16 authors)
10月30日 2510.26114v1
Computer Vision 大语言模型 自然语言处理

核心要点

本文提出首个甲骨文研究智能体系统,通过融合多模态知识库与工具编排,显著提升甲骨文信息管理效率与推理能力。

大白话解释

这个研究就像给甲骨文专家配了个AI助手,它能自动整理甲骨碎片图片和文字资料,帮专家快速查资料、分析文字含义,省去翻书找资料的麻烦。

Detailed Analysis
Motivation:

甲骨文作为最古老的文字体系之一,其研究面临两大难题:一是文字解读需经过图像分析、文献比对等复杂流程;二是学者需耗费大量时间手工整理分散的拓片与释文资料。现有技术缺乏针对甲骨文多模态特性的结构化管理工具,严重制约研究效率。

Method:

构建包含140万单字拓片图像和8万释文的多模态知识库,基于大语言模型开发可灵活调度甲骨文分析工具集的智能体系统。通过工具编排机制整合字符识别、文献检索等模块,支持对拓片图像与文本的跨模态联合推理。

Results:

在多模态推理任务中全面超越主流模型(如GPT-4o),案例研究表明可将甲骨文研究时间成本降低约60%,在字符检索、释文生成等任务中准确率达90%以上。

Conclusion:

该系统实现了甲骨文研究从手工操作到智能辅助的转变,为古文字数字化研究树立了新范式,对文化遗产的智能保护与传承具有重要实践意义。

Minjoon Jung, Junbin Xiao, Junghyun Kim et al. (5 authors)
10月30日 2510.26113v1
Computer Vision 大语言模型 检索增强

核心要点

提出EgoExo-Con基准和View-GRPO强化学习框架,解决视频大模型在多视角下时序理解不一致的问题。

大白话解释

这篇论文研究当同一个事件被不同角度的摄像头拍摄时,视频AI模型能否保持一致的判断。比如第一人称和第三人称视频中,模型对‘谁先碰到球’这种时间顺序问题的答案应该相同。

Detailed Analysis
Motivation:

现有视频大模型在单一视角下表现良好,但面对同一事件的多视角视频(如无人机视角和头盔相机视角)时,时序理解结果常出现矛盾。这限制了模型在自动驾驶、体育分析等现实场景的应用可靠性。研究旨在解决视角变化导致的模型判断不一致问题。

Method:

首先构建EgoExo-Con基准数据集,包含严格同步的第一/第三人称视频对和人工精炼的文本查询。针对模型一致性缺陷,提出View-GRPO强化学习框架:通过设计视角特异性奖励函数,同时优化单视角时序推理能力和跨视角一致性,避免简单微调导致的性能下降。

Results:

实验发现:现有模型跨视角一致性误差比单视角高41%;传统微调虽提升一致性但牺牲单视角性能。View-GRPO在时序验证和时序定位任务上,一致性指标比基线方法提升19.3%,且单视角性能保持最优。

Conclusion:

研究证实视角一致性是视频大模型的关键瓶颈,提出的基准和方法为多视角视频理解奠定基础。成果对安防监控、人机交互等需要多源视频分析的领域具有重要推进作用。

Xiaosen Wang, Zhijin Ge, Shaokang Wang
10月30日 2510.26105v1
Computer Vision 自然语言处理 计算机视觉

核心要点

本文提出首个仅通过对抗图像攻击多模态扩散模型的PReMA方法,揭示文本-图像对齐不足导致NSFW内容生成风险。

大白话解释

这篇论文发现现在的文字转图片AI有个漏洞:即使输入正常的文字描述,只要稍微改动一下参考图片,就能让AI生成不合适的图片。研究者开发了一种新攻击方法,专门利用这个漏洞来操控AI的输出结果。

Detailed Analysis
Motivation:

当前文本到图像等多模态扩散模型虽取得显著进展,但其对抗输入脆弱性研究不足。研究发现现有模型中文本与图像模态对齐存在缺陷,这种不对齐可能被恶意利用生成不当内容(如NSFW),尤其在图像编辑等固定提示词场景下构成严重安全威胁。因此需深入探究多模态对齐漏洞及其安全影响。

Method:

提出Prompt-Restricted Multi-modal Attack (PReMA)方法:通过优化对抗性扰动直接修改输入图像,在保持提示词不变前提下操控生成内容。该方法仅需生成对抗图像(无需修改文本),利用扩散模型中的跨模态注意力机制,通过梯度反向传播优化扰动,使生成图像偏离预期内容。创新点在于首次实现纯图像端攻击,突破了传统依赖对抗提示词的方法局限。

Results:

在图像修复和风格迁移任务上对多个模型测试表明,PReMA能有效生成NSFW内容,成功率显著高于基线方法。定量评估显示攻击在保持图像质量(FID指标相近)同时实现高目标内容生成率,跨模型迁移实验证实了方法的泛化能力,凸显多模态模型普遍存在的对齐漏洞。

Conclusion:

研究证实多模态扩散模型存在严重的文本-图像对齐缺陷,PReMA作为首个纯图像对抗攻击方法,揭示了模型在固定提示词应用场景中的新型安全威胁。该工作推动了多模态安全研究,对开发更鲁棒的对齐机制和防御方法具有重要指导意义。

Hoyeon Chang, Seungjin Kim, Yoonseok Choi
10月30日 2510.26052v1
Computer Vision 自然语言处理 计算机视觉

核心要点

提出一种动态负向提示技术,利用视觉语言模型在去噪过程中自适应生成负向提示,提升扩散模型生成质量。

大白话解释

这篇论文就像给AI画画加了个智能纠错助手。传统方法是用固定提示词告诉AI不要画什么,而新方法会在生成过程中实时分析画面内容,动态调整纠错指令,让AI更听话地画出符合要求的图片。

Detailed Analysis
Motivation:

传统扩散模型使用固定的负向提示词来引导图像生成,但这种方法缺乏对生成过程中图像内容的适应性。当生成复杂场景时,固定的负面提示可能无法准确反映当前图像存在的问题,导致生成质量下降或文本-图像对齐不佳。研究旨在通过动态调整负向提示来解决这一局限性。

Method:

该方法在扩散模型的去噪过程中插入关键步骤:首先在特定去噪阶段生成中间图像预测,然后使用视觉语言模型(VLM)分析这些中间图像,根据图像内容动态生成上下文相关的负向提示。这种动态反馈机制使负向指导能够实时适应生成过程,相比固定提示能更精准地纠正生成偏差。核心创新在于将VLM的视觉理解能力与扩散模型的生成过程相结合。

Results:

在多个基准数据集上的实验表明,该方法在负向指导强度和文本-图像对齐之间取得了更好的平衡。与固定负向提示方法相比,动态负向提示在保持图像质量的同时显著提升了文本描述的符合程度,特别是在复杂场景生成任务中表现突出。

Conclusion:

本研究证明了动态负向提示在扩散模型中的有效性,通过引入视觉语言模型的实时反馈机制,解决了固定负向提示的适应性不足问题。这一方法为提升扩散模型的可控生成能力提供了新思路,对图像生成领域的技术发展具有重要推动作用。

Wednesday, October 29, 2025 (5篇论文)

Ali Rasekh, Erfan Bagheri Soula, Omid Daliran et al. (5 authors)
10月29日 2510.26027v1
Computer Vision 大语言模型 计算机视觉

核心要点

提出在视频大语言模型的视觉编码器中集成堆叠时序注意力模块,显著提升对视频动作序列和时间演进的理解能力。

大白话解释

这个研究让AI看视频时能更好地理解动作的先后顺序和变化过程。就像给人眼加上‘时间感知’功能,让AI不再只关注单张画面,而是能串联起前后动作的关系。

Detailed Analysis
Motivation:

当前视频大语言模型虽在多模态理解取得进展,但对视频中复杂的时序动态(如动作演进、事件因果关系)理解仍存在明显缺陷。实验表明现有模型在需要精细分析动作序列的任务中表现不佳,这限制了视频问答、行为识别等实际应用效果。

Method:

在视觉编码器内部嵌入堆叠时序注意力模块,通过多层时序感知机制提取帧间动态特征。该设计使模型在生成视觉特征令牌前,先对视频帧序列进行时序关系建模,捕获动作演进规律,再将富含时序信息的特征传递给大语言模型进行语义推理。

Results:

在VITATECS、MVBench和Video-MME三大基准测试中,视频问答任务准确率最高提升5.5%,尤其在动作识别任务上显著优于现有模型。实验验证了时序注意力模块对提升时序推理能力的有效性。

Conclusion:

通过增强视觉编码器的时序建模能力,解决了视频大语言模型在时序理解方面的关键瓶颈。该工作为视频理解提供了新的架构设计思路,对智能监控、人机交互等需要精细时序分析的应用具有重要价值。

Bilal Hassan, Areg Karapetyan, Aaron Chung Hin Chow et al. (4 authors)
10月29日 2510.26017v1
Computer Vision 深度学习 自然语言处理

核心要点

提出轻量级CNN模型,在考虑海平面上升和海岸适应策略下,实现跨区域洪水深度预测,平均误差降低20%。

大白话解释

这篇论文开发了一个智能洪水预测工具,能快速算出海边城市在不同海平面上升和防护措施下的淹水情况。它像手机APP一样轻便,还能用在世界不同地方,帮助政府提前做好防洪准备。

Detailed Analysis
Motivation:

气候变化导致海平面持续上升,沿海城市洪水风险加剧。传统洪水模拟方法计算成本高昂,难以支撑城市级规划需求。现有深度学习方案受限于数据不足和高维输出挑战,亟需开发兼顾精度与效率的预测工具,以支持气候适应决策。

Method:

基于视觉驱动的低资源深度学习框架,构建新型轻量卷积神经网络。模型通过编码海平面上升预测和海岸线适应方案(如堤坝建设),直接生成洪水深度图。创新性地采用跨区域验证策略,使用阿布扎比和旧金山数据集测试模型泛化能力,突破地理条件限制。

Results:

在阿布扎比和旧金山数据集上,模型在洪水深度预测中的平均绝对误差(MAE)比现有最佳方法降低近20%。跨区域测试表明模型能有效适应不同地理特征,验证了其泛化性能和稳定性。

Conclusion:

本研究证实轻量级CNN可成为沿海洪水管理的可扩展工具,为决策者提供直观的气候适应方案评估。其跨区域泛化能力突破了传统模型的地域局限性,对推进全球沿海城市韧性规划具有重要实践意义。

Roman Beliy, Amit Zalcher, Jonathan Kogman et al. (5 authors)
10月29日 2510.25976v1
Computer Vision 计算机视觉 注意力机制

核心要点

提出Brain-IT框架,通过脑交互Transformer实现功能脑区集群与图像特征的直接交互,显著提升fMRI图像重建的准确性和数据效率。

大白话解释

这项研究就像是通过扫描大脑活动来‘读心’,把人看到的图片还原出来。新方法让大脑不同区域的信息更好地协作,用很少的数据就能训练出效果更好的模型,还原的图片更接近真实看到的画面。

Detailed Analysis
Motivation:

当前基于扩散模型的fMRI图像重建方法虽取得进展,但重建结果常偏离实际看到的图像内容。现有技术缺乏对大脑功能集群协同机制的建模,且依赖大量个体训练数据。本研究旨在通过模拟大脑内部交互机制,提升重建保真度并降低数据需求。

Method:

核心创新是脑交互Transformer(BIT):1)将功能相似的脑体素聚类为共享功能集群,作为跨被试信息整合的基础单元;2)设计统一模型架构,所有集群和被试共享参数,实现小样本高效训练;3)同步预测高层语义特征(引导图像内容)和低层结构特征(初始化图像布局),通过直接映射机制将脑区活动关联到局部图像特征。

Results:

在视觉保真度和客观指标上均超越现有最佳方法:1)重建图像与真实图像在语义和结构上高度一致;2)仅用1小时fMRI数据即可达到传统方法40小时训练的效果;3)在像素级相似度(SSIM)和语义匹配度等指标上显著提升。

Conclusion:

该研究通过神经启发的交互机制建模,突破了fMRI图像重建的保真度与数据效率瓶颈。其跨被试共享的集群范式为脑解码提供了新思路,对脑机接口和认知科学研究具有重要推进作用。

Nicolas Dufour, Lucas Degeorge, Arijit Ghosh et al. (5 authors)
10月29日 2510.25897v1
Computer Vision 自然语言处理 计算机视觉

核心要点

提出多奖励条件预训练方法MIRO,通过同时优化多个用户偏好奖励,显著提升图像生成质量、语义保真度和训练效率。

大白话解释

这篇论文让AI画画时不再只追求数量,而是学会直接理解人们喜欢的风格。通过在训练时参考多个'评分标准',它既能画出更符合心意的图片,又学得更快更准。

Detailed Analysis
Motivation:

当前文本生成图像模型依赖海量未筛选数据训练,虽能生成多样内容,却与用户偏好存在偏差。现有方法通常采用后处理筛选机制,但会丢弃大量数据且仅优化单一奖励,导致生成多样性下降、语义失真和训练效率低下。研究旨在通过训练阶段直接融合多维度用户偏好,从根本上解决对齐问题。

Method:

提出MIRO多奖励条件预训练框架,核心创新在于将多个专用奖励模型(如审美评分、语义对齐等)作为训练条件信号。通过联合优化多奖励目标,使模型在生成过程中动态学习用户偏好分布。采用条件扩散模型架构,将奖励向量与文本提示共同嵌入到去噪过程中,实现端到端的多目标对齐,无需后处理筛选。

Results:

在GenEval组合生成基准测试中达到最优性能,用户偏好评分(PickAScore/ImageReward/HPSv2)显著超越基线。相比传统方法,训练速度提升约2倍,生成图像在视觉质量、语义一致性方面均有突破,同时保持更好的多样性。

Conclusion:

研究证实多奖励条件预训练能有效统一生成质量与用户偏好,为对齐问题提供新范式。MIRO框架兼具高效性与扩展性,对推动可控生成技术发展和实际应用具有重要价值。

Tianyu Yang, Terry Ruas, Yijun Tian et al. (6 authors)
10月29日 2510.25668v1
Artificial Intelligence 自然语言处理 计算机视觉

核心要点

提出ALDEN强化学习框架,将视觉语言模型训练为能主动导航长文档的交互式智能体,实现多页信息整合与高效证据收集。

大白话解释

这篇论文教AI像人类一样主动翻阅长文档:它不再被动地按固定顺序读文件,而是学会快速跳转到关键页面,把散落在各处的信息拼凑起来回答问题。

Detailed Analysis
Motivation:

现有视觉语言模型虽擅长解读文本图像,但面对多页长文档时,因信息分散且视觉布局复杂,常陷入被动解析模式。传统方法依赖固定推理模板,既无法灵活跨页整合证据,又难以适应多样文档结构,导致理解效率与泛化能力受限。亟需让模型具备主动导航能力,模拟人类‘翻阅-定位-关联’的认知过程。

Method:

ALDEN采用多轮强化学习框架微调视觉语言模型:1)设计新型‘按页跳转’动作,直接通过页码索引访问目标页,与经典搜索动作互补以利用文档结构;2)提出基于规则的跨层级奖励机制,同时提供回合级与词元级训练信号;3)针对长文档视觉词元过多引发的训练不稳定问题,引入视觉-语义锚定机制,通过双路径KL散度约束分别稳定视觉与文本表征。训练数据融合三个开源数据集构建的语料库。

Results:

在五个长文档基准测试中,ALDEN均达到最先进性能:相比基线模型,在证据定位准确率提升12-18%,多跳推理任务F1分数提高9.7%;视觉锚定机制使训练稳定性提升3.2倍,跨文档类型的泛化误差降低21%。

Conclusion:

ALDEN突破了被动文档解析范式,首次实现智能体对长文档的自主导航与跨页推理。其强化学习框架与结构感知动作为复杂文档理解提供了新路径,对法律分析、医疗报告解读等需多源证据整合的领域具有重要应用价值。

Tuesday, October 28, 2025 (8篇论文)

Ruiyang Zhang, Jiahao Luo, Xiaoru Feng et al. (6 authors)
10月28日 2510.24820v1
Computer Vision 大语言模型 自然语言处理

核心要点

提出多轮安全编辑框架SafeEditor,通过构建专用数据集和统一MLLM模型,在降低过度拒绝的同时优化安全性与实用性的平衡。

大白话解释

这个研究就像给AI绘画软件加了个‘安全审查员’,能自动检查生成的图片是否包含不良内容,并智能修改有问题的地方,既保证安全又不影响正常创作。

Detailed Analysis
Motivation:

随着文生图模型快速发展,其生成内容的安全性日益重要。现有推理阶段安全方法虽成本低,但存在过度拒绝合法请求、安全性与实用性失衡等问题。亟需一种既能有效过滤有害内容,又能最大限度保留创作自由的高效解决方案。

Method:

提出多轮安全编辑框架:首先构建MR-SafeEdit多轮图文交错数据集,模拟人类识别和修正不安全内容的认知过程;然后开发统一多模态大语言模型SafeEditor,支持对生成图像进行多轮安全编辑。该框架作为即插即用模块,可适配任何文生图模型,实现模型无关的后处理安全对齐。

Results:

实验表明,SafeEditor在降低过度拒绝率方面显著优于现有方法,将过度拒绝案例减少约30%,同时在安全性与实用性的平衡指标上取得最佳表现,在多个基准测试中安全过滤准确率提升15%以上。

Conclusion:

本研究确立了后处理安全编辑新范式,通过多轮交互式修正机制实现了更精细化的内容安全控制。SafeEditor作为首个统一多模态安全编辑模型,为文生图系统的安全部署提供了可扩展的解决方案,推动了生成式AI的安全对齐技术发展。

Cui Yakun, Fushuo Huo, Weijie Shi et al. (8 authors)
10月28日 2510.24816v1
Computer Vision 大语言模型

核心要点

提出首个多模态视频虚假新闻检测基准MVFNDB,包含10项任务和9730个人工标注问题,系统评估大模型的感知、理解和推理能力。

大白话解释

这个研究就像给AI系统设计了一套考试题,专门测试它们识别视频假新闻的能力。通过看视频内容、理解文字信息、分析拍摄手法等题目,全面考察AI的判断过程,而不是只看最终答案对不对。

Detailed Analysis
Motivation:

当前视频虚假新闻检测研究过于关注最终准确率,缺乏对检测过程的细粒度评估,使得模型决策成为黑箱。多模态大模型的发展为深入分析检测过程提供了可能,但现有基准无法系统评估模型在感知、理解和推理等关键环节的能力。

Method:

基于实证分析构建MVFNDB基准,包含10个精心设计的任务和9730个视频相关问题,覆盖视频假新闻检测的完整能力体系。提出MVFND-CoT框架,整合创作者添加内容和原始拍摄素材的双重推理,验证多特征融合对检测效果的影响。深入分析视频处理策略、特征与模型能力对齐等深层因素。

Results:

基准测试揭示了多模态大模型在视频假新闻检测中的能力局限,特别是在复杂推理任务上表现不佳。MVFND-CoT框架通过多特征融合显著提升了检测性能,实验证明视频处理策略和特征-模型匹配度对最终准确率有重要影响。

Conclusion:

该研究填补了视频假新闻检测领域缺乏系统性评估基准的空白,为多模态大模型的能力诊断和优化提供了重要工具。基准的细粒度任务设计有助于揭示模型决策机制,推动可解释AI发展,对提升网络内容安全具有实际意义。

Phi-Hung Hoang, Nam-Thuan Trinh, Van-Manh Tran et al. (4 authors)
10月28日 2510.24814v1
Computer Vision 深度学习 机器学习

核心要点

提出三阶段深度学习框架,通过特征优化与集成学习将鱼类新鲜度评估准确率提升至85.99%,显著优于现有方法。

大白话解释

这项研究就像给鱼拍照片然后让电脑判断新不新鲜。科学家先让五种不同的智能看图模型学习认鱼,再把它们看到的特点组合起来,最后挑出最有用的特征进行判断,这样比人眼判断更准更快。

Detailed Analysis
Motivation:

海鲜行业长期依赖人工感官评估鱼类新鲜度,存在主观性强、效率低下且结果不一致的问题。虽然深度学习技术能实现自动化视觉评估,但现有方法在准确性和特征可解释性方面仍有不足。本研究旨在开发一个可靠的特征优化框架,解决传统方法可靠性差与深度学习模型透明度低的双重挑战。

Method:

研究设计了三阶段框架:首先微调ResNet-50等五种先进视觉架构建立基准模型;然后从这些骨干网络提取多层次深度特征,输入支持向量机等七种传统机器学习分类器实现深度与传统决策机制融合;最后采用LightGBM、随机森林和Lasso三种特征选择方法筛选出紧凑且信息量大的特征子集,形成最优特征组合。

Results:

在FFE数据集上的实验表明,采用Swin-Tiny特征、极端随机树分类器和LightGBM特征选择的最优组合达到85.99%的准确率,较同一数据集上现有研究提升8.69-22.78%。所有特征选择方法均能显著降低特征维度同时保持模型性能。

Conclusion:

该研究证实了深度特征优化框架在视觉质量评估任务中的有效性和泛化能力,为食品工业提供了更可靠、可解释的自动化检测方案。特征融合与选择策略不仅提升了性能,还为理解深度学习决策机制提供了新视角。

Binbin Li, Guimiao Yang, Zisen Qi et al. (5 authors)
10月28日 2510.24813v1
Computer Vision 自然语言处理 计算机视觉

核心要点

提出DualCap方法,通过图像-图像检索生成视觉提示,结合文本提示增强图像特征,在减少参数量的同时提升轻量级图像描述性能。

大白话解释

这篇论文想让电脑更准确地描述图片内容。它先找一些相似的图片,从中提取关键文字信息,再把这些信息和原图特征结合起来,让生成的描述更丰富详细,而且用的计算资源更少。

Detailed Analysis
Motivation:

当前轻量级检索增强图像描述模型主要依赖文本提示,忽略了视觉特征的直接增强,导致对物体细节和复杂场景的描述能力不足。这种语义鸿沟限制了模型在资源受限环境下的实用性。研究旨在通过融合视觉和文本双重信息,提升轻量级模型的描述准确性和细节捕捉能力。

Method:

DualCap采用双重检索机制:标准图像-文本检索提供文本提示,创新性引入图像-图像检索获取视觉相似场景。从相似图像的描述中提取关键词语和短语,编码后通过轻量级可训练特征融合网络与原图特征集成。该方法避免了复杂视觉编码器,仅需少量参数即可实现视觉表示的增强。

Results:

在多个基准数据集上的实验表明,DualCap在CIDEr、SPICE等指标上达到竞争性性能,同时相比先前视觉提示方法减少约30%可训练参数。在复杂场景和细节描述任务中表现尤为突出,验证了双重检索的有效性。

Conclusion:

DualCap通过双重检索机制成功弥合了视觉与文本语义鸿沟,为轻量级图像描述提供了新思路。其低参数需求使模型更适用于移动端和边缘设备,对推动高效多模态应用发展具有重要价值。

Wentao Tan, Bowen Wang, Heng Zhi et al. (18 authors)
10月28日 2510.24161v1
Artificial Intelligence 大语言模型 自然语言处理

核心要点

提出BLM$_1$模型,通过两阶段训练实现数字与物理空间无缝操作,在跨具身与跨任务场景中性能超越四类基线模型。

大白话解释

这个研究造了一个能同时在电脑世界和现实世界工作的智能模型。它既能理解语言和图像,又能控制不同形态的机器人完成复杂任务,比如让机器人在虚拟和真实环境中自主搬运物品。

Detailed Analysis
Motivation:

当前多模态大模型存在三大局限:数字与物理空间泛化能力差;视觉-语言-动作模型仅支持低级动作控制;具身大模型多局限于数字空间。现有技术缺乏能统一处理数字与物理空间、适应不同机器人形态并兼顾高级推理与精准控制的通用模型。

Method:

采用两阶段训练框架:第一阶段通过精选数字语料向多模态大模型注入具身知识,保留语言能力;第二阶段设计意图桥接接口,从大模型提取高级语义指导策略模块训练,冻结大模型主干参数。训练数据涵盖四种机器人形态和六类渐进式任务组成的跨具身演示库。

Results:

在数字与物理基准测试中,单一BLM$_1$模型在数字任务上相对MLLMs等四类模型家族提升约6%,物理任务提升约3%,且在所有测试场景均优于专门化模型。

Conclusion:

BLM$_1$首次实现跨数字-物理空间的统一认知与控制,通过解耦语义推理与动作执行的架构设计,为具身智能提供兼具通用性与适应性的基础模型范式,推动机器人技术向通用人工智能发展。

Kang Zhang, Trung X. Pham, Suyeon Lee et al. (6 authors)
10月28日 2510.24103v1
cs.SD 计算机视觉 生成模型

核心要点

提出MGAudio框架,通过模型引导的双角色对齐机制,在开放域视频生成音频任务中实现最先进性能。

大白话解释

这个研究让电脑看视频自动配声音。它设计了一个聪明系统,既能理解画面内容,又能保证生成的声音真实自然,比现有方法配得更准更好听。

Detailed Analysis
Motivation:

现有视频生成音频方法多依赖分类器引导,存在生成质量受限和跨模态对齐不精准的问题。开放域场景下视频内容复杂多样,需要更高保真度的音频生成技术。本研究旨在通过自引导机制突破传统引导方式的局限,提升音画同步性和音频真实感。

Method:

构建基于流模型的Transformer架构,核心创新是双角色对齐机制:视觉编码器同时承担条件输入和特征对齐双重功能。通过专门设计的模型引导训练目标,使生成过程自监督优化音画一致性,无需外部分类器。三组件协同工作:可扩展流模型处理多模态数据,双角色编码器增强特征融合,自引导目标提升跨模态连贯性。

Results:

在VGGSound数据集上FAD指标降至0.40,显著超越最佳无分类器引导基线。FD、IS和对齐指标全面领先现有方法,在UnAV-100挑战性基准上也展现优秀泛化能力。所有量化指标均证实其在音频质量和音画同步方面的优势。

Conclusion:

模型引导的双角色对齐为条件视频音频生成提供了可扩展新范式,证实自引导机制在跨模态生成任务中的有效性。该框架兼具高性能与强泛化能力,为多媒体内容生成领域提供了技术突破,代码开源促进后续研究。

Peiyang Xu, Minzhou Pan, Zhaorun Chen et al. (6 authors)
10月28日 2510.23960v1
Computer Vision 大语言模型 计算机视觉

核心要点

提出SafeVision图像护栏系统,通过类人语义推理实现动态策略适配与可解释风险评估,无需重训练即可应对新兴威胁。

大白话解释

这个研究就像给图片内容加了个智能安检员,不仅能自动识别暴力、色情等危险内容,还能像人一样解释判断理由。当出现新类型危险时,系统不用重新学习就能立刻适应。

Detailed Analysis
Motivation:

随着数字媒体爆炸式增长,传统图像安全检测模型存在明显局限:仅依赖预设类别和特征学习,缺乏语义理解导致误判;面对新型危险内容需频繁重训练;现有评测数据集覆盖风险类型有限。亟需开发能动态适应策略变化、具备推理能力的透明化防护系统。

Method:

构建包含数据采集生成、策略遵循训练、定制损失函数的完整框架。创新点包括:1)采用多样化问答生成策略增强学习效果;2)设计政策遵循训练流程使模型在推理时动态对齐更新策略;3)提出VisionHarm高质量数据集,含第三方标注和综合标注两个子集,覆盖多维度有害类别;4)通过语义推理机制突破传统纯特征学习的局限。

Results:

在VisionHarm基准测试中全面领先:相比GPT-4o在VisionHarm-T和VisionHarm-C上分别提升8.6%和15.5%,推理速度加快16倍以上。在多种有害内容检测任务中达到最先进性能,同时保持精准的风险评估和解释能力。

Conclusion:

SafeVision建立了兼具策略动态适配、语义推理和可解释性的图像安全防护新范式。其技术框架解决了传统模型僵化、不透明的根本问题,VisionHarm数据集为领域评测提供新标准。该研究对构建适应快速演变网络环境的智能内容治理系统具有重要推动意义。

Alejandro Escontrela, Shrinu Kushagra, Sjoerd van Steenkiste et al. (8 authors)
10月28日 2510.23956v1
Computer Vision 计算机视觉 生成模型

核心要点

提出神经USD框架,通过结构化场景表示实现精确的对象级迭代编辑,解决生成模型中全局变化干扰问题。

大白话解释

这篇论文就像给图片编辑加了个‘智能图层’系统。现在想单独修改图中某个物体(比如把红椅子变蓝)时,不会影响其他部分,还能反复调整,就像用PS图层一样方便。

Detailed Analysis
Motivation:

当前可控生成模型在对象级编辑时存在严重缺陷:修改特定对象(如改变颜色或背景)会引发整个场景的意外全局变化。这种耦合效应阻碍了精细创作流程,亟需一种支持迭代调整且保持编辑隔离的解决方案。受计算机图形学中通用场景描述符(USD)标准的启发,研究旨在构建能解耦对象属性的神经网络框架。

Method:

核心是构建分层结构化场景表示:1)将场景分解为对象级组件,建立类似USD的层次关系图;2)每个对象独立编码外观、几何和姿态属性;3)采用微调策略解耦控制信号,确保修改单一属性时不相互干扰;4)支持通过增量更新实现迭代编辑流程,最小化模型架构约束。

Results:

实验验证了框架在多种编辑任务中的有效性:修改特定对象颜色时背景保持率超过90%,姿态调整的物体识别一致性达87%,显著优于基线方法。分层表示使编辑操作延迟降低40%,支持超过10轮迭代而不产生语义失真。

Conclusion:

神经USD首次将工业级场景描述标准引入生成模型,确立了对象中心编辑的新范式。其解耦表征为影视特效、虚拟现实等领域提供了可解释的创作工具,推动了生成式AI从整体生成向结构化控制的范式转变。

Monday, October 27, 2025 (4篇论文)

Eddison Pham, Prisha Priyadarshini, Adrian Maliackel et al. (6 authors)
10月27日 2510.23907v1
Computer Vision 大语言模型 自然语言处理

核心要点

提出DynaStride框架,通过动态窗口选择和思维链推理,自动生成教学视频中连贯的多场景描述,无需人工分割。

大白话解释

这个研究让电脑自动给教学视频的不同片段写文字说明。它像人一样观察视频中的关键动作变化,把相关的画面组合起来,生成容易理解的步骤描述,避免重复或遗漏重要细节。

Detailed Analysis
Motivation:

教学视频的场景描述需要同时理解画面内容和时间顺序,才能支持技能学习。但现有方法常忽略场景结构,导致描述不连贯、质量差,影响教学效果。传统方法依赖人工划分场景片段,效率低下。本研究旨在开发自动生成高质量、结构清晰的多场景描述技术,提升教学视频的实用价值。

Method:

基于YouCookII数据集的场景标注,DynaStride首先进行自适应帧采样和多模态窗口划分,捕捉场景内的关键过渡。采用多模态思维链技术生成多个动作-对象对,通过动态步长窗口选择算法优化这些结果,自适应平衡时间上下文与冗余信息。该算法动态调整窗口大小和步长,确保覆盖重要内容的同时减少重复。最终整合视觉语义和时间推理,生成单一的教学描述。

Results:

在YouCookII数据集上,与VLLaMA3、GPT-4o等强基线模型对比,DynaStride在BLEU、METEOR等N-gram指标和BERTScore、CLIPScore等语义相似度指标上均取得一致提升。定性分析显示,生成的描述在时间连贯性和信息丰富度上更优,能准确反映视频中的动作序列。

Conclusion:

DynaStride通过动态窗口和思维链推理,实现了教学视频多场景描述的自动生成,显著提升描述的连贯性和质量。该方法为AI辅助教学内容生成提供了新方向,支持更高效的多模态学习和程序性知识传递,具有广泛的教育应用潜力。

Gauthier Grimmer, Romain Wenger, Clément Flint et al. (6 authors)
10月27日 2510.23798v1
Computer Vision 深度学习 计算机视觉

核心要点

提出结合几何建模与深度学习的自动化监测流程,实现城市河流漂浮垃圾的精准量化与实时追踪。

大白话解释

这项研究就像给城市河流装了个‘智能监视器’,用摄像头自动识别水面上漂的塑料瓶、垃圾袋,还能估算垃圾大小,帮环保部门省时省力做清理。

Detailed Analysis
Motivation:

河流中漂浮人造垃圾(如塑料制品)激增严重破坏生态平衡,威胁水质、生物多样性及航运娱乐活动。传统人工监测成本高、覆盖范围有限,亟需开发低成本、自动化的持续监测方案。本研究旨在通过固定摄像头与智能算法,解决复杂环境下垃圾精准识别与量化难题。

Method:

构建基于深度学习的双阶段框架:首先采用多种神经网络模型(如YOLO、SSD)在复杂光照、水流条件下检测漂浮垃圾,对比精度与推理速度;其次设计几何投影模型,结合相机内外参数将2D图像坐标转换为真实世界尺寸,并通过回归校正提升测量准确性。创新点包括引入负样本与时序防泄漏策略优化数据集,确保方法可复现性。

Results:

在多样化环境测试中,最优模型实现超过90%的检测准确率,推理速度满足实时处理需求。几何尺寸估计误差低于15%,显著优于传统方法。实验揭示数据泄漏会导致性能高估,验证了负样本与时间分割策略的必要性。

Conclusion:

本研究证实了几何校正与深度学习结合可实现漂浮垃圾的度量化监测,为城市水域提供了鲁棒、低成本的自动化解决方案。其可复现流程与防偏差设计对遥感环保应用具有普适意义,推动智能环境监测技术落地。

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen
10月27日 2510.23785v1
Computer Vision 计算机视觉 强化学习

核心要点

提出CountFormer框架,通过自监督基础模型感知物体重复结构与空间关系,实现无需类别先验的通用物体计数。

大白话解释

这个研究让电脑像人一样数东西——不管是什么物体,只要长得重复或结构相似就能数清楚。比如数一堆乱放的积木或重叠的树叶,不需要提前知道它们是什么类别。

Detailed Analysis
Motivation:

人类计数依赖视觉重复模式和结构关系而非物体类别,但现有模型对复杂形状、对称或重叠物体计数效果差。当前方法过度依赖类别标注或示例图像,限制了通用计数能力。本研究旨在开发无需类别先验的计数系统,模拟人类的结构化感知机制。

Method:

基于CounTR架构改进:1)用自监督基础模型DINOv2替换原视觉编码器,生成空间一致性强、细节丰富的特征;2)引入位置嵌入融合技术,在解码前保留几何关系;3)通过轻量卷积解码器将特征转换为密度图。核心创新在于利用Transformer捕捉长程依赖,结合基础模型的通用表征能力。

Results:

在FSC-147数据集上达到当前最优方法可比性能,在结构复杂(如对称物体)和密集场景(如重叠实例)中表现更优。定量指标显示对内部结构敏感场景的计数误差显著降低,验证了模型对视觉重复模式的捕捉能力。

Conclusion:

融合DINOv2等基础模型可使计数系统逼近人类的结构感知水平,推动实现真正无需示例的通用计数范式。该框架为计算机视觉中的结构化理解提供了新思路,具有跨领域应用的潜力。

Aryan Mathur, Asaduddin Ahmed, Pushti Amit Vasoya et al. (6 authors)
10月27日 2510.23775v1
Computer Vision 自然语言处理 计算机视觉

核心要点

提出结合轻量卷积分类器和视觉语言模型的可解释检测系统,在低分辨率图像中实现96.5%准确率的AI生成图像识别与伪影定位。

大白话解释

这个研究就像给手机装了个火眼金睛,能快速识别电脑生成的假图片,还能用红圈标出图片里不自然的地方,并用大白话告诉你哪里不对劲。

Detailed Analysis
Motivation:

随着AI生成图像越来越逼真,如何快速鉴别图片真伪成为迫切需求。现有方法要么准确率不足,要么缺乏解释性,难以在手机等边缘设备上部署。本研究旨在开发兼具高精度、可解释性和低计算成本的检测方案,应对社交媒体取证、工业质检等场景的实用需求。

Method:

采用双模型架构:1)轻量卷积网络‘Faster-Than-Lies’负责快速分类,通过自编码器重构误差生成伪影热力图;2)视觉语言模型Qwen2-VL-7B接收热力图和图像,将70种视觉异常归纳为8类语义组,生成自然语言解释。创新点在于将视觉定位与语言推理结合,在保持175ms推理速度的同时实现像素级可解释性。

Results:

在包含对抗样本的扩展CiFAKE数据集上达到96.5%分类准确率,在8核CPU上单图推理耗时175ms。生成的热力图能精确定位32x32低分辨率图像中的伪造痕迹,视觉语言模型成功对70种伪影进行语义归类并生成易懂的文本描述。

Conclusion:

证明了视觉-语言融合模型在边缘设备上实现可解释鉴伪的可行性,为法医鉴定、工业检测等领域提供了兼顾性能与透明度的解决方案。所提出的伪影分类体系为跨领域伪造检测建立了可迁移的评估基准。

Sunday, October 26, 2025 (2篇论文)

Aleksandar Pramov
10月26日 2510.22829v1
Computer Vision 大语言模型 自然语言处理

核心要点

提出基于Gemma-3大语言模型的多模态融合系统,通过生成解释性提示指导特征融合,显著提升广告记忆度预测的鲁棒性和泛化能力。

大白话解释

这个研究就像给广告做‘记忆力测试’,通过结合广告的画面和文字信息,让AI系统学会预测哪些广告更容易被人记住。他们用先进的语言模型来理解广告内容,并参考专家总结的记忆规律来提升预测准确性。

Detailed Analysis
Motivation:

在MediaEval 2025竞赛的广告记忆度预测任务中,现有方法对多模态信息融合不够充分,且缺乏对记忆机制的理解。广告记忆度直接影响营销效果,但传统模型难以捕捉视觉、文本特征的复杂交互,且容易过拟合。需要开发能融合多模态特征并引入认知先验的鲁棒预测系统。

Method:

以Gemma-3大语言模型为骨干,通过多模态投影层整合预计算的视觉特征(ViT)和文本特征(E5)。采用LoRA进行高效微调,核心创新是引入LLM生成的理性提示——基于专家总结的记忆度维度(如情感冲击、品牌显著性等)构建提示词,指导模型关注关键特征。同时使用精心调参的梯度提升树集成模型作为基线对比。

Results:

在最终测试集上,基于LLM的融合系统相比梯度提升树基线表现出更强的鲁棒性和泛化性能。具体指标显示多模态融合模型在记忆度预测任务上取得显著提升,且对未见数据的适应能力更好,验证了理性提示机制的有效性。

Conclusion:

研究表明大语言模型能有效融合多模态特征并引入领域知识,为广告记忆度预测提供了新范式。通过理性提示将认知科学原理融入模型决策,增强了可解释性。该工作推动了多模态理解在营销分析中的应用,为MediaEval竞赛提供了领先的解决方案。

Mahiro Ukai, Shuhei Kurita, Nakamasa Inoue
10月26日 2510.22571v1
Computer Vision 计算机视觉 少样本学习

核心要点

本文提出了首个专门评估视觉语言模型理解物体状态变化的严格基准STATUS Bench,并创建大规模训练数据集STATUS Train。

大白话解释

这个研究就像给AI视觉系统出了一套专门测试题,看看它们能不能准确分辨物体状态的变化,比如门是开是关、灯是亮是灭。通过设计三个关联任务和大量测试图片,发现现有AI模型在这方面的表现还很差。

Detailed Analysis
Motivation:

当前视觉语言模型虽然能处理多种图像理解任务,但在识别物体细微状态变化(如位置状态、功能状态)方面的能力尚不明确。缺乏专门的评估基准使得模型在这方面的性能难以准确衡量,阻碍了物体状态理解研究的进展。

Method:

研究团队构建了STATUS Bench基准,包含三个协同任务:物体状态识别、图像检索和状态变化识别。基于手工标注的图像对及其状态描述构建测试集,同时创建了包含1300万条半自动生成描述的STATUS Train训练集。创新性地采用多任务联合评估方案,确保模型理解的全面性和一致性。

Results:

实验表明,在严格的评估标准下,当前最优的视觉语言模型在识别物体状态变化方面表现不佳,多数开源模型在零样本设置下仅达到随机猜测水平。经过STATUS Train微调后,Qwen2.5-VL模型性能显著提升,达到与Gemini 2.0 Flash相当的水平。

Conclusion:

该研究揭示了现有视觉语言模型在物体状态理解方面的严重不足,证明了STATUS Bench基准的必要性。提出的基准和训练数据集将为推动该领域研究提供重要基础设施,促进模型对现实世界物体状态变化的精确理解。

Thursday, October 23, 2025 (3篇论文)

Jiahao Meng, Xiangtai Li, Haochen Wang et al. (11 authors)
10月23日 2510.20579v1
Computer Vision 自然语言处理 计算机视觉

核心要点

提出首个融合显式时空证据的视频推理框架,通过标注关键时间点与空间位置实现可验证的推理过程。

大白话解释

这个研究让AI看视频回答问题时,不仅能说出答案,还能指出是视频里哪个时间段的哪个物体帮它得出的结论,就像给推理过程加了时间戳和定位框。

Detailed Analysis
Motivation:

现有视频推理模型仅生成文本推理链,无法定位关键证据的时空位置。虽然OpenAI-o3在图像领域实现了证据中心推理,但视频需要同时处理动态场景的时间追踪和空间定位。当前数据集缺乏统一的时空标注与推理轨迹,制约了可验证视频推理的发展。

Method:

构建两个高质量数据集:STGR-CoT-30k用于监督微调(含时空标注),STGR-RL-36k用于强化学习。采用冷启动强化学习策略,设计多目标奖励函数联合优化答案准确性、时间对齐度和空间定位精度,使模型能同步输出答案、关键时间戳、物体及边界框。

Results:

在V-STAR基准上实现最优性能:相比Qwen2.5-VL基线,mAM提升14.4%,mLGM提升24.2%。在VideoMME、WorldSense等5个视频理解基准中均取得一致提升。推理轨迹还可用于测试时置信度校准,提升答案可靠性。

Conclusion:

开创了显式时空证据与视频推理的结合范式,通过可验证的推理轨迹增强了模型透明度。为视频理解领域提供了首个统一时空监督的数据集与训练框架,推动可信AI在动态场景中的发展。

Guowei Zhong, Junjie Li, Huaiyu Zhu et al. (5 authors)
10月23日 2510.20256v1
Computer Vision 自然语言处理 计算机视觉

核心要点

提出校准多模态共识模型,通过伪标签生成和无参数融合解决模态冲突与文本主导问题,提升情感识别准确性。

大白话解释

这篇论文研究如何让电脑更准确地理解人的情绪。比如一个人说的话和表情可能不一致,现在的方法太依赖文字了。他们设计了一个新系统,先让每个渠道单独学习,再让它们公平合作,最后得出更可靠的判断。

Detailed Analysis
Motivation:

当前多模态情感识别方法存在两个核心问题:一是不同模态间可能出现语义冲突,例如文本表达开心而视觉表情悲伤;二是文本模态因其强大表征能力常主导决策过程,压制其他模态贡献。这些不一致性和模态不平衡严重影响了情感识别的鲁棒性和准确性。现有方法缺乏有效机制协调模态间矛盾并平衡各模态影响。

Method:

CMC模型采用两阶段架构:首先,伪标签生成模块通过自监督学习为各模态生成伪标签,实现单模态预训练;其次,在微调阶段引入无参数融合模块动态整合多模态特征,避免参数学习导致的模态偏差,同时设计多模态共识路由器评估各模态可靠性,引导融合过程趋向更可信的共识。该方法创新性地将模态校准与共识达成相结合,无需额外参数即可缓解文本主导问题。

Results:

在CH-SIMS、CH-SIMS v2、CMU-MOSI和CMU-MOSEI四个数据集上的实验表明,CMC达到或超越了现有最优方法性能。特别是在CH-SIMS和CH-SIMS v2的语义不一致场景中表现出显著优势,准确率提升明显,验证了模型在处理模态冲突和平衡模态贡献方面的有效性。

Conclusion:

本研究通过校准多模态共识机制,有效解决了情感识别中的模态不一致和文本主导问题。贡献在于提出了端到端的自监督训练框架和无参数融合策略,为多模态学习提供了新的模态协调范式,对提升跨模态任务的鲁棒性具有重要理论价值和实践意义。

Ziheng Zhang, Xinyue Ma, Arpita Chowdhury et al. (12 authors)
10月23日 2510.20095v1
Computer Vision 大语言模型 自然语言处理

核心要点

提出BIOCAP模型,通过多模态大模型生成合成描述文本,增强生物图像语义理解,提升物种分类和检索性能。

大白话解释

这篇论文教电脑更聪明地理解生物图片。它不用简单的标签,而是自动生成详细描述(比如'这只鸟有红色羽毛和长喙'),让电脑学会抓住关键特征,减少错误判断。

Detailed Analysis
Motivation:

生物多模态基础模型通常依赖简单类别标签,但标签无法充分表达物种的形态多样性,易引入虚假关联。自然语言描述能补充图像信息,揭示潜在形态空间结构,但真实描述数据稀缺。本研究旨在利用合成描述解决监督数据不足问题,推动生物多模态模型发展。

Method:

采用多模态大语言模型生成合成描述:首先从维基百科提取视觉信息作为内容指导,结合分类学定制格式示例控制生成结构;通过领域特定上下文减少幻觉,产生准确、实例化的描述文本;基于CLIP架构训练BIOCAP模型,将图像与合成描述在共享潜在空间中对齐,强化诊断性特征学习。

Results:

BIOCAP在物种分类任务中准确率显著提升,较基线模型提高5-8%;文本-图像检索任务中,Recall@1指标达到78.3%,优于仅使用标签的模型;消融实验验证合成描述有效抑制虚假相关性,增强模型对形态特征的语义理解。

Conclusion:

合成描述突破了生物领域标注数据瓶颈,使多模态模型能学习更丰富的语义表示;BIOCAP证明了超越简单标签的监督方式在生物计算中的价值,为构建更可靠的生物基础模型提供了新范式。

1/4 · 1-30/94