精选AI论文

精选arXiv最新AI论文，智能摘要帮助您掌握最新趋势

94 总论文 30 显示中 7 天的更新

Thursday, October 23, 2025 (1篇论文)

StableSketcher：通过视觉问答反馈增强扩散模型在像素级草图生成中的能力 StableSketcher: Enhancing Diffusion Model for Pixel-based Sketch Generation via Visual Question Answering Feedback

Low Relevance: 3/10 Advanced Reading Level: Advanced

Jiho Park, Sieun Choi, Jaeyoon Seo et al. (4 authors)

10月23日 2510.20093v1

Computer Vision cs.CV 自然语言处理计算机视觉

核心要点

提出StableSketcher框架，通过优化潜在解码和视觉问答奖励机制，显著提升扩散模型生成手绘草图的文本对齐度和风格保真度。

大白话解释

这个研究让AI画手绘草图时更听话——你输入文字描述，它就能画出更符合要求、线条更自然的草图。方法是通过‘看图答题’的方式训练AI，让它理解文字和草图的关系，同时改进解码过程。

Detailed Analysis

Motivation:

尽管扩散模型在图像生成方面进展显著，但在生成像素级手绘草图（一种抽象表达形式）时仍面临挑战，如文本-图像对齐不足和风格保真度低。现有方法依赖图像-标签对数据集，缺乏语义层面的监督，导致草图生成质量受限。本研究旨在解决这些局限性，提升草图生成的语义一致性和艺术表现力。

Method:

框架包含两大创新：首先，微调变分自编码器以优化潜在解码，使其更好地捕捉草图的线条特征和抽象风格；其次，设计基于视觉问答的强化学习奖励函数，通过问答对评估生成草图与文本的语义一致性，驱动模型学习更精准的文本-草图映射。此外，构建了SketchDUO数据集，首次提供实例级草图-描述-问答三元组数据。

Results:

实验表明，StableSketcher在生成草图时显著优于Stable Diffusion基线模型，文本-图像对齐度提升约15%，风格保真度更高。用户评估证实生成草图更符合人类绘画习惯，且SketchDUO数据集有效解决了传统数据缺失语义监督的问题。

Conclusion:

本研究通过融合视觉问答反馈和潜在空间优化，推动了抽象草图生成技术的发展，为艺术创作和设计工具提供了新思路。SketchDUO数据集填补了语义增强草图数据的空白，对多模态学习领域具有长期价值。

arXiv PDF

Wednesday, October 22, 2025 (8篇论文)

通过在线标签平滑提升医学影像预测置信度 Improving Predictive Confidence in Medical Imaging via Online Label Smoothing

Low Relevance: 4/10 Advanced Reading Level: Advanced

Kushan Choudhury, Shubhrodeep Roy, Ankur Chanda et al. (5 authors)

10月22日 2510.20011v1

Computer Vision cs.CV 深度学习计算机视觉

核心要点

提出在线标签平滑方法，动态调整训练标签，显著提升医学图像分类准确率并改善预测置信度校准。

大白话解释

这篇研究解决AI看医疗片子时过于自信的问题。它让电脑在训练过程中不断调整自己的判断标准，不仅猜得更准，还能更诚实地报告自己的把握有多大。

Detailed Analysis

Motivation:

深度学习模型在医学影像分类中表现出色，但经常产生过度自信的预测，这在医疗等关键领域可能带来风险。传统标签平滑方法虽然简单，但将所有非目标类别同等对待，忽略了类别间的内在关联。因此需要一种能动态适应模型预测模式的方法，在提升准确率的同时改善预测置信度的可靠性。

Method:

本研究采用在线标签平滑（OLS）方法，核心创新在于动态调整软标签分配。与传统固定标签平滑不同，OLS根据模型在训练过程中的实时预测分布，为不同非目标类别分配差异化平滑权重。具体实现是通过监控模型对各类别的预测概率，构建基于预测相似度的标签平滑矩阵，使模型在训练中持续获得更合理的监督信号。该方法在ResNet-50、MobileNetV2和VGG-19三种主流架构上进行验证。

Results:

在RadImageNet大规模数据集上的实验表明，OLS相比硬标签、传统标签平滑和无教师知识蒸馏等方法，Top-1和Top-5分类准确率均获得稳定提升。特征可视化分析显示OLS产生的特征嵌入更加紧凑且类别间分离度更高，同时预测置信度校准误差显著降低，证明其在提升性能的同时有效缓解了过度自信问题。

Conclusion:

在线标签平滑通过动态调整训练监督信号，不仅提升了医学影像分类的准确性，还改善了模型预测的可靠性。该方法为开发可信赖的医疗AI系统提供了实用解决方案，其促进特征学习的能力对医学影像分析领域具有重要价值，有望在临床决策支持中发挥更大作用。

arXiv PDF

FutrTrack：一种用于三维多目标跟踪的相机-激光雷达融合Transformer方法 FutrTrack: A Camera-LiDAR Fusion Transformer for 3D Multiple Object Tracking

Low Relevance: 3/10 Advanced Reading Level: Advanced

Martha Teiko Teye, Ori Maoz, Matthias Rottmann

10月22日 2510.19981v1

Computer Vision cs.CV 检索增强注意力机制

核心要点

提出FutrTrack框架，通过Transformer平滑器和多模态融合跟踪器，显著提升基于查询的三维多目标跟踪性能。

大白话解释

这篇论文设计了一个智能系统，能同时处理摄像头和激光雷达的数据，像拼图一样把不同时刻的物体运动轨迹连起来，让自动驾驶汽车更准确地追踪周围车辆和行人，减少跟丢或认错的情况。

Detailed Analysis

Motivation:

现有三维多目标跟踪方法多依赖单一传感器（如仅激光雷达），在遮挡或视角变化时易出现轨迹断裂和身份切换。自动驾驶需融合多模态数据以实现鲁棒跟踪，但传统方法依赖显式运动模型且缺乏语义信息利用。本研究旨在通过相机-激光雷达融合和Transformer架构，解决复杂场景下的轨迹平滑性与重识别挑战。

Method:

FutrTrack采用模块化设计：1）时序平滑器：基于滑动窗口的Transformer对边界框序列进行轨迹优化，减少抖动并增强空间一致性；2）融合跟踪器：通过两阶段Transformer整合边界框与多模态鸟瞰图特征，无需显式运动模型。创新点包括：多模态查询机制联合几何与语义线索，跨帧身份传播，以及端到端的融合-跟踪流水线。

Results:

在nuScenes和KITTI基准测试中，FutrTrack取得显著提升：nuScenes测试集aMOTA达74.7，相比单传感器方法身份切换减少约15%，在遮挡场景下跟踪鲁棒性更强。与基于神经网络的方法相比，无需预训练且数据需求更低，仍保持竞争力。

Conclusion:

本研究证实多模态融合能显著增强Transformer跟踪器的性能，为自动驾驶感知系统提供高效解决方案。其模块化设计易于集成现有检测器，推动三维多目标跟踪向更实用、鲁棒的方向发展，缩小了与数据驱动方法的差距。

arXiv PDF

时间问题：揭示视觉语言模型中的时间结构 A Matter of Time: Revealing the Structure of Time in Vision-Language Models

Low Relevance: 4/10 Advanced Reading Level: Advanced

Nidham Tekaya, Manuela Waldner, Matthias Zeppelzauer

10月22日 2510.19559v1

Computer Vision cs.CV 自然语言处理计算机视觉

核心要点

本文发现视觉语言模型嵌入空间中存在低维非线性时间流形，提出构建显式时间线表示的方法，显著提升时序推理能力。

大白话解释

这篇研究想搞清楚AI模型能不能看懂图片里的时间信息。比如一张老照片，AI能不能判断出这是几十年前拍的。研究者发现AI其实在脑子里偷偷记录了时间线索，他们就把这些线索整理成一条时间线，让AI能更准地猜出图片的年代。

Detailed Analysis

Motivation:

当前大规模视觉语言模型（如CLIP）在多模态理解方面表现出色，但对其时间感知能力的研究尚不充分。现实世界中视觉内容常包含重要时间信息（如历史照片、时尚变迁），模型能否准确定位视觉内容的时间戳对理解动态世界至关重要。本文旨在系统评估VLMs的时间感知能力，并探索其嵌入空间中的时间结构表征。

Method:

研究首先构建包含1万张带时间标注图像的TIME10k基准数据集。通过新颖评估方法对37个VLMs进行分析，发现时间信息在嵌入空间中沿低维非线性流形分布。基于此提出两种时间线构建方法：一是直接优化时间轴投影函数，二是通过对比学习显式建模时间关系。这些方法将隐式时间信息转化为可解释的时序表示，支持直接的时间推理计算。

Results:

实验显示，VLMs在TIME10k数据集上表现出显著的时间感知能力，最佳模型时间误差仅约6年。提出的时间线方法在时间定位任务中达到67.2%的top-1准确率，较提示词基线提升12.5%，且计算效率提升3倍。不同模型的时间感知能力存在明显差异，与训练数据的时间覆盖范围密切相关。

Conclusion:

本研究首次系统揭示了VLMs嵌入空间中的结构化时间表征，证明了低维时间流形的存在。提出的时间线方法为多模态时序推理提供了新范式，在历史档案分析、时尚趋势预测等领域具有应用价值。工作推动了VLMs从静态理解向动态时空认知的发展，代码数据已开源促进后续研究。

arXiv PDF

像专家一样推理：利用多模态大语言模型进行基于绘画的心理分析 Reasoning Like Experts: Leveraging Multimodal Large Language Models for Drawing-based Psychoanalysis

Low Relevance: 5/10 Advanced Reading Level: Advanced

Xueqi Ma, Yanbei Jiang, Sarah Erfani et al. (7 authors)

10月22日 2510.19451v1

Computer Vision cs.CV 大语言模型计算机视觉

核心要点

提出PICK框架，通过分层分析和知识注入，使多模态大模型能够像心理专家一样解读绘画中的心理状态。

大白话解释

这个研究教电脑看画猜心情。比如你画房子、树和人，电脑能一步步分析画里的细节，结合心理学知识，猜出你画画时是开心还是难过，就像心理医生那样。

Detailed Analysis

Motivation:

多模态大语言模型在客观感知任务中表现出色，但在主观情感领域如心理分析的应用仍很少。心理测试如房树人绘画测试依赖专家经验，成本高且主观。本研究旨在填补这一空白，利用MLLMs开发结构化框架，实现自动化、可解释的心理状态评估，降低专业门槛。

Method:

PICK框架采用多步骤方法：首先将绘画分解为单对象、多对象和整体三个层次，构建语义表示；其次，在每层分析视觉线索提取心理洞察；引入房树人知识库，通过强化学习训练特征提取模块，生成心理画像，捕捉整体风格和对象动态特征；最后整合多源信息，输出专家级评估。创新点包括层次化分解、知识注入和可解释推理。

Results:

实验显示PICK显著提升MLLMs在心理分析中的能力，评估结果与专家判断高度一致。在扩展情感理解任务中验证了框架的通用性，性能优于基线方法，证明其在主观多模态任务中的有效性。

Conclusion:

PICK成功弥合MLLMs与专业领域的鸿沟，提供结构化、可解释的心理分析框架，推动AI在心理健康等主观任务的应用，具有临床和学术价值，并为其他专家领域提供借鉴。

arXiv PDF

看见、思考、行动：基于视觉语言模型的在线购物者行为模拟 See, Think, Act: Online Shopper Behavior Simulation with VLM Agents

Low Relevance: 5/10 Advanced Reading Level: Advanced

Yimeng Zhang, Jiri Gesi, Ran Xue et al. (13 authors)

10月22日 2510.19245v1

cs.CY cs.CY 大语言模型自然语言处理

核心要点

本研究通过融合网页截图视觉信息与文本数据，构建多模态购物行为模拟框架，显著提升了行为预测准确性和仿真真实度。

大白话解释

这篇论文教电脑像真人一样在网上购物。它不仅让电脑看商品文字描述，还让它看网页截图，结合两种信息做决定。通过反复练习和奖励机制，电脑学会了更接近人类的选择方式。

Detailed Analysis

Motivation:

现有在线购物行为模拟主要依赖文本数据，忽略了视觉感知对人类决策的关键影响。实际购物中用户会同时处理文字信息和页面视觉布局，纯文本模型难以捕捉注意力分配和界面交互的复杂性。本研究旨在通过引入视觉语言模型处理网页截图，缩小仿真代理与真实用户之间的认知差距。

Method:

基于OPeRA数据集，采用监督微调联合训练行为预测与决策依据生成，输入包含动作历史、HTML记录和当前网页截图的完整交互上下文。创新性地引入分层奖励机制的强化学习，通过难度感知因子优先优化复杂决策点，增强模型在视觉复杂环境中的推理能力。

Results:

多模态输入相比纯文本模型将精确匹配准确率提升超过6%。在包含图像按钮、布局导航等视觉依赖任务中表现尤为突出，证明视觉基础能有效捕捉文本模型易忽略的人类注意力细节和决策细微差别。

Conclusion:

研究证实视觉信息对行为模拟具有不可替代的价值，推动了多模态人机交互仿真范式发展。提出的分层奖励机制为复杂决策环境提供了新优化思路，为构建高保真人类行为模拟器指明了技术方向，对电子商务用户体验优化具有实践意义。

arXiv PDF

重新思考驾驶世界模型：作为感知任务的合成数据生成器 Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Low Relevance: 4/10 Advanced Reading Level: Advanced

Kai Zeng, Zhanqian Wu, Kaixin Xiong et al. (15 authors)

10月22日 2510.19195v1

Computer Vision cs.CV 检索增强强化学习

核心要点

提出Dream4Drive框架，将驾驶世界模型重构为合成数据生成器，显著提升自动驾驶感知模型对极端场景的处理能力。

大白话解释

这篇论文研究如何用虚拟驾驶视频来帮助自动驾驶系统学习处理罕见危险情况。就像用电脑生成的特殊教学视频，让AI学会识别平时很难遇到的复杂路况。

Detailed Analysis

Motivation:

当前驾驶世界模型能生成高质量视频，但主要关注生成质量指标，忽视了这些合成数据对下游感知任务的实际价值。现有方法需要先在合成数据上预训练、再在真实数据上微调，训练周期翻倍。当基线方法也使用双倍训练周期时，合成数据的优势几乎消失。这促使我们重新思考如何让合成数据真正提升感知性能。

Method:

提出Dream4Drive框架：首先将输入视频分解为多个3D感知的引导图，然后将3D资源渲染到这些引导图上，最后微调驾驶世界模型生成编辑后的多视角逼真视频。创新点包括3D感知视频编辑、大规模多视角极端场景生成，并构建了DriveObj3D大型3D资源数据集，覆盖典型驾驶场景类别。

Results:

实验表明，在不同训练周期下，Dream4Drive都能有效提升下游感知模型性能。特别是在极端场景感知方面表现突出，相比传统方法，使用合成数据训练的模型在复杂路况识别准确率显著提高，证明了该框架生成数据的实用价值。

Conclusion:

本研究证明了驾驶世界模型作为合成数据生成器的巨大潜力，Dream4Drive框架为自动驾驶感知任务提供了高质量、多样化的训练数据，特别是在提升对罕见危险场景的识别能力方面具有重要价值，推动了合成数据在自动驾驶领域的实际应用。

arXiv PDF

PruneHal：通过自适应KV缓存剪枝减少多模态大语言模型中的幻觉现象 PruneHal: Reducing Hallucinations in Multi-modal Large Language Models through Adaptive KV Cache Pruning

Medium Relevance: 7/10 Advanced Reading Level: Advanced

Fengyuan Sun, Hui Chen, Xinhao Xu et al. (8 authors)

10月22日 2510.19183v1

Computer Vision cs.CV 大语言模型自然语言处理

核心要点

提出无需训练的KV缓存自适应剪枝方法PruneHal，通过聚焦关键视觉信息显著降低多模态大模型的幻觉问题。

大白话解释

这篇论文发现多模态AI模型经常‘胡说八道’是因为注意力被无关图片信息分散。他们设计了一种智能筛选方法，能自动保留重要图片特征，让模型更专注真实内容，从而减少错误描述。

Detailed Analysis

Motivation:

多模态大语言模型在图文理解任务中常产生与视觉内容不符的幻觉描述。现有方法需额外训练数据或引入外部模块，导致计算成本增加。研究发现幻觉根源在于模型对关键视觉特征关注不足，冗余视觉令牌分散了注意力。亟需一种高效且无需训练的方法来提升视觉注意力精度。

Method:

提出PruneHal方法，基于KV缓存机制进行自适应令牌剪枝。首先分析注意力分布，识别对文本生成贡献低的冗余视觉令牌；随后通过动态阈值策略在推理过程中实时修剪KV缓存，保留高价值视觉信息；创新性地将令牌剪枝技术首次应用于幻觉抑制，无需模型微调且兼容各种解码策略。

Results:

在四大主流MLLMs和多个幻觉评测基准上的实验表明，PruneHal显著降低幻觉指标（如CHAIR分数提升约15%），在保持原始推理速度的同时，性能优于需要额外训练的基线方法，且与专用解码策略结合时效果进一步强化。

Conclusion:

本研究证实通过优化注意力分配可有效抑制多模态幻觉，PruneHal作为首款训练免费的令牌剪枝解决方案，为轻量化部署提供了新范式，对推动可靠多模态AI发展具有重要实践意义。

arXiv PDF

X-Ego：通过跨第一人称对比视频表征学习获取团队级战术态势感知 X-Ego: Acquiring Team-Level Tactical Situational Awareness via Cross-Egocentric Contrastive Video Representation Learning

Low Relevance: 3/10 Advanced Reading Level: Advanced

Yunzhe Wang, Soham Hans, Volkan Ustun

10月22日 2510.19150v1

Computer Vision cs.CV 计算机视觉强化学习

核心要点

提出X-Ego-CS数据集和跨第一人称对比学习方法，使AI能从单个玩家视角同步理解团队战术动态，提升多智能体决策能力。

大白话解释

这篇研究让电脑通过游戏里每个玩家的第一视角视频，学会预测队友和对手的位置。就像打团队游戏时，你只看自己的屏幕，却能猜出队友在哪、敌人可能躲在哪里，帮助团队更好地配合。

Detailed Analysis

Motivation:

在团队运动中，战术理解依赖于每个玩家从自身视角预测和适应队友意图，但现有研究多依赖第三人称视角视频，忽略了多智能体学习的同步性和第一人称本质。电子竞技如《反恐精英2》提供了复杂3D环境，是研究多智能体决策的理想场景。本文旨在解决从第一人称视角同步建模团队互动的问题，推动战术态势感知的发展。

Method:

首先构建X-Ego-CS基准数据集，包含45场职业级《反恐精英2》比赛的124小时游戏录像，提供同步的所有玩家第一人称视频流和状态-动作轨迹。在此基础上，提出跨第一人称对比学习（CECL），通过对比学习对齐队友的第一人称视觉流，使单个智能体能从自身视角学习团队级战术意识。该方法利用先进视频编码器，在预测队友和对手位置任务中优化表示学习，强调多视角同步对齐的创新点。

Results:

在队友-对手位置预测任务中评估CECL，结果显示其能有效提升智能体从单一第一人称视角推断队友和对手位置的能力。使用最先进的视频编码器，CECL在预测准确性和鲁棒性上优于基线方法，证明了跨第一人称对齐在增强战术感知方面的优势，具体指标包括位置预测精度和对比学习损失优化。

Conclusion:

本研究通过X-Ego-CS数据集和CECL方法，为电子竞技中的跨第一人称多智能体基准测试奠定了基础，证明从个体视角学习团队战术的可行性。贡献在于推动多智能体建模和战术学习，对时空推理和人类-AI团队协作在虚拟及现实领域具有广泛意义，为游戏理解和AI应用开辟新方向。

arXiv PDF

Tuesday, October 21, 2025 (6篇论文)

基于注意力机制U-Net模型和FedProx的乳腺癌分割新方法 A Novel Approach to Breast Cancer Segmentation using U-Net Model with Attention Mechanisms and FedProx

Low Relevance: 3.5/10 Advanced Reading Level: Advanced

Eyad Gad, Mustafa Abou Khatwa, Mustafa A. Elattar et al. (4 authors)

10月21日 2510.19118v1

Computer Vision cs.CV 机器学习强化学习

核心要点

本研究结合注意力机制U-Net和FedProx联邦学习，在非独立同分布超声数据上实现96%准确率的乳腺癌分割，同时保护患者隐私。

大白话解释

这项研究就像让多家医院在不共享病人数据的情况下，共同训练一个智能系统来识别乳腺癌。通过特殊的技术处理数据差异，并使用更精准的图像识别方法，最终系统能准确圈出肿瘤位置，同时保护病人隐私。

Detailed Analysis

Motivation:

乳腺癌是全球女性主要死因，早期精准诊断至关重要。超声成像虽成本低且可靠，但医疗数据敏感性强且常分散在不同机构，形成非独立同分布特点。传统集中训练面临隐私泄露风险，而联邦学习在保护隐私的同时，却因数据分布差异导致模型精度下降，特别是影响肿瘤边界分割准确性。因此需开发既能保护隐私又能处理数据差异的精准分割方法。

Method:

研究采用联邦近端算法（FedProx）解决非独立同分布数据挑战，通过在本地训练中引入近端项约束模型偏移，提升全局模型稳定性。同时，在客户端使用改进的U-Net分割网络，集成注意力机制强化肿瘤区域特征提取，抑制背景干扰。该方法在分布式超声乳腺癌数据集上进行训练，既保障数据隐私，又通过注意力机制提升边界分割精度，实现隐私保护与模型性能的平衡。

Results:

实验在非独立同分布超声乳腺癌数据集上验证，最终全局模型达到96%的准确率。相比基线方法，FedProx有效缓解了数据异构导致的性能下降，注意力U-Net显著提升了肿瘤边界分割精度。结果表明该方法在保持隐私的同时，实现了与集中训练相当的分割性能。

Conclusion:

本研究证实FedProx与注意力U-Net结合能有效处理医疗数据隐私和分布不均问题，在乳腺癌超声分割中实现高精度。其贡献在于为分布式医疗数据建模提供了可行方案，推动人工智能在隐私敏感场景下的安全应用，对远程医疗和协作诊断具有重要实践意义。

arXiv PDF

PoSh：利用场景图引导大语言模型作为评判者进行详细图像描述评估 PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions

Medium Relevance: 7/10 Advanced Reading Level: Advanced

Amith Ananthram, Elias Stengel-Eskin, Lorena A. Bradford et al. (10 authors)

10月21日 2510.19060v1

Computer Vision cs.CV 大语言模型自然语言处理

核心要点

提出PoSh评估方法，通过场景图结构化标准指导大语言模型评判图像描述质量，在艺术图像数据集上超越现有指标。

大白话解释

这篇论文想解决电脑生成的图片描述好坏难判断的问题。他们设计了一个新评分方法，先用场景图列出图片里该有的内容，再让大语言模型对照检查描述是否准确，最后给出分数。

Detailed Analysis

Motivation:

当前视觉语言模型能生成详细图像描述，但评估这些长文本面临挑战。传统指标如CIDEr和SPICE专为短文本设计，无法有效捕捉属性关联错误。人工评估成本高且主观性强，需要一种能精确定位错误、可解释且与人类判断一致的自动化评估方法。

Method:

PoSh方法核心是双阶段评估：首先将参考描述转换为场景图作为结构化评分标准，然后引导大语言模型根据场景图逐项检查生成描述的准确性。创新点包括：1）利用场景图明确评估维度；2）通过大语言模型实现细粒度错误定位；3）设计DOCENT艺术数据集验证方法，包含专家标注和人工评分。

Results:

在DOCENT数据集上，PoSh与人类评分的斯皮尔曼相关性达+0.05，优于最佳开源模型。在CapArena网络图像数据集上保持稳健性。作为奖励函数微调模型时，效果超越标准监督微调。实验表明基础模型对复杂场景图像的描述仍存在覆盖不足问题。

Conclusion:

PoSh提供了可复现、可解释的图像描述评估方案，解决了长文本评估难题。DOCENT数据集为艺术领域评估设立新基准。该工作推动了辅助文本生成等应用发展，为视觉语言模型进步提供了重要衡量工具。

arXiv PDF

Δt-Mamba3D：面向乳腺癌风险预测的时间感知时空状态空间模型 $Δ$t-Mamba3D: A Time-Aware Spatio-Temporal State-Space Model for Breast Cancer Risk Prediction

Low Relevance: 4/10 Advanced Reading Level: Advanced

Zhengbo Zhou, Dooman Arefan, Margarita Zuley et al. (4 authors)

10月21日 2510.19003v1

Computer Vision cs.CV 自然语言处理计算机视觉

核心要点

提出一种能同时处理不规则时间间隔和高分辨率图像序列的时空状态空间模型，显著提升乳腺癌风险预测性能。

大白话解释

这个研究就像给医生造了一个智能助手，能自动分析病人多年来的多组3D乳腺扫描图像，即使这些检查时间间隔不规律，也能准确预测未来患癌风险。

Detailed Analysis

Motivation:

现有医学影像分析模型存在两大局限：一是将3D图像压缩为向量丢失空间细节，二是无法有效处理实际临床中不规则时间间隔的检查序列。这导致重要的时空模式未被充分利用，制约了乳腺癌等疾病的长期风险预测精度。

Method:

核心创新包括：1）连续时间选择性扫描机制，将真实检查时间差直接融入状态转移过程；2）多尺度3D邻域融合模块，通过分层聚合捕捉影像的局部和全局时空特征。模型采用状态空间架构，在保持线性计算复杂度的同时实现对长序列的高效处理。

Results:

在乳腺癌风险预测任务中，验证集c-index提升2-5个百分点，1-5年预测AUC全面优于循环神经网络、Transformer和传统状态空间模型。模型在保持高精度同时，能高效处理长达数十次检查的乳腺影像序列。

Conclusion:

该研究首次将连续时间建模与3D时空特征学习相结合，为纵向医学影像分析建立了新范式。其线性复杂度特性使得临床部署长序列病例成为可能，对癌症早期筛查和个性化预防具有重要价值。

arXiv PDF

基于元数据上下文和任务特定提示的鲁棒驾驶问答系统 Robust Driving QA through Metadata-Grounded Context and Task-Specific Prompts

Low Relevance: 4/10 Advanced Reading Level: Advanced

Seungjun Yu, Junsung Park, Youngsun Lim et al. (4 authors)

10月21日 2510.19001v1

Computer Vision cs.CV 大语言模型自然语言处理

核心要点

提出两阶段视觉问答系统，通过元数据增强和任务定制提示显著提升自动驾驶问答的准确性和鲁棒性。

大白话解释

这个研究让自动驾驶系统能更可靠地回答关于路况、车辆行为和行驶决策的问题。它先让AI看多角度摄像头和历史画面思考答案，再补充地图和车辆数据，针对不同问题类型调整提问方式，最后综合多个答案提高准确性。

Detailed Analysis

Motivation:

现有视觉语言模型在自动驾驶高阶问答（感知、预测、规划）中面临上下文信息不足和任务适配性差的问题。自动驾驶需要综合多模态数据（如相机流、历史帧、场景元数据）并区分问题类型，但传统方法缺乏针对性的提示设计和元数据融合机制，导致在复杂驾驶场景中答案不可靠。

Method:

系统分为两阶段：第一阶段使用大型多模态模型（Qwen2.5-VL-32B），输入六路相机画面、短时序历史帧和思维链提示（含少量示例），并通过自一致性集成（采样多个推理链）提升可靠性；第二阶段增强提示：融入nuScenes场景元数据（物体标注、自车状态等）和任务特定指令（为感知、预测、规划设计独立提示模板），实现上下文与任务需求的双重优化。

Results:

在驾驶QA基准测试中：第一阶段使用5历史帧和10示例提示达到65.1%准确率（零示例基线为62.61%），自一致性集成提升至66.85%；第二阶段达67.37%总体准确率。在严重视觉干扰下系统仍保持96%准确率，显著优于基线模型。

Conclusion:

研究证明结合元数据上下文与任务定制提示能有效释放预训练视觉语言模型在自动驾驶问答中的潜力。该方法为高阶驾驶推理提供了可扩展的框架，通过提示工程而非模型重构提升性能，对低成本部署鲁棒自动驾驶系统具有重要实践意义。

arXiv PDF

DeLoad：基于需求驱动的短视频预加载与可扩展观看时长估计 DeLoad: Demand-Driven Short-Video Preloading with Scalable Watch-Time Estimation

Low Relevance: 4/10 Advanced Reading Level: Advanced

Tong Liu, Zhiwei Fan, Guanyan Peng et al. (8 authors)

10月21日 2510.18459v1

Multimedia cs.MM 检索增强强化学习

核心要点

提出DeLoad预加载框架，通过动态任务调整和实用观看时长预测，显著提升短视频体验质量并降低带宽消耗。

大白话解释

这个研究就像给短视频软件装了个智能管家：它能猜出用户想看多久视频，然后按需提前加载合适的内容，既让滑动更流畅，又帮用户省流量。

Detailed Analysis

Motivation:

短视频流媒体已成为数字媒体主流形式，其快速滑动交互和多样内容对预加载策略提出挑战。现有方法存在两大缺陷：一是下载任务大小无法适应动态网络条件，二是观看时长预测模型难以大规模可靠部署。这导致用户体验质量与带宽效率难以兼顾，亟需一种能动态优化预加载决策的实用解决方案。

Method:

DeLoad框架核心包含三个创新：1）动态任务调整机制，根据实时网络状态自适应选择下载内容范围；2）多维观看时长估计方法，通过用户行为、视频特征等实用指标实现可扩展预测；3）深度强化学习智能体，持续学习最优下载决策策略。该方法将传统启发式规则与数据驱动优化相结合，在保证部署可行性的同时提升决策精度。

Results:

离线测试平台使用海量真实网络数据验证表明：DeLoad在用户体验质量指标上提升34.4%-87.4%。实际部署于大型商业短视频平台后，用户总观看时长增加0.09%，同时卡顿事件减少，带宽消耗降低3.76%，实现了体验与资源消耗的双重优化。

Conclusion:

本研究证明了动态预加载框架在真实商业场景中的有效性，其创新在于将理论优化与工程部署需求相结合。DeLoad不仅提升了短视频平台的核心性能指标，更为资源受限环境下的自适应流媒体技术提供了可复用的方法论，对推动移动视频传输技术发展具有重要实践意义。

arXiv PDF

EVER：面向移动混合现实辅助操作的边缘辅助自动验证系统 EVER: Edge-Assisted Auto-Verification for Mobile MR-Aided Operation

Low Relevance: 4/10 Advanced Reading Level: Advanced

Jiangong Chen, Mingyu Zhu, Bin Li

10月21日 2510.18224v1

Multimedia cs.MM 检索增强强化学习

核心要点

提出边缘辅助自动验证系统EVER，通过分割模型与IoU阈值策略，实现混合现实操作中虚实对象对比的快速精准验证。

大白话解释

这个研究让手机上的混合现实操作能自动检查用户是否按指导完成了动作。它把复杂计算交给附近的服务器处理，既快又省电，还能准确对比虚拟提示和实际结果的差异。

Detailed Analysis

Motivation:

混合现实技术在操作指导中面临核心挑战：需快速自动验证用户是否遵循虚拟指引。传统方法因3D建模不完善或光线估计误差，难以处理虚拟与物理对象间的差异，导致验证不准。现有方案缺乏对虚实对象特性适配，且移动设备算力有限，无法兼顾实时性与精度。

Method:

EVER创新采用分割模型与渲染流水线，分别处理含虚拟引导对象的操作前帧和含物理实体的操作后帧。通过交并比(IoU)阈值策略量化虚实对象重叠度，替代传统帧相似性比较。为降低能耗，将计算密集型任务卸载至边缘服务器，移动端仅保留轻量级操作，实现高效协同。

Results:

在公开数据集与自定义实测数据集中，EVER验证准确率超90%，响应时间低于100毫秒（显著快于人类平均反应时间273毫秒）。与无自动验证系统相比，仅增加微量计算资源与能耗，边缘卸载策略有效保障实时性。

Conclusion:

EVER通过边缘计算与自适应分割验证机制，解决了MR操作中虚实对象差异导致的验证难题。其低延迟、高精度特性为工业巡检、远程协作等场景提供可靠技术支撑，推动了移动MR系统在资源受限环境下的实用化进程。

arXiv PDF

Monday, October 20, 2025 (5篇论文)

SAVANT：基于视觉增强异常检测的语义分析框架 SAVANT: Semantic Analysis with Vision-Augmented Anomaly deTection

Low Relevance: 3/10 Advanced Reading Level: Advanced

Roberto Brusnicki, David Pop, Yuan Gao et al. (5 authors)

10月20日 2510.18034v1

Computer Vision cs.CV 计算机视觉强化学习

核心要点

提出结构化推理框架SAVANT，通过分层场景分析和双阶段流程，显著提升自动驾驶系统对语义异常场景的检测性能。

大白话解释

这项研究让自动驾驶系统能更可靠地识别路上不常见的危险情况，比如突然出现的障碍物或异常交通状况。它通过分步骤分析图像内容，先描述场景再评估异常，让系统像人类一样层层推理。

Detailed Analysis

Motivation:

自动驾驶系统在遇到罕见、训练数据中未包含的异常场景时表现脆弱，传统方法依赖昂贵商业模型且检测不可靠。现有视觉语言模型虽具备推理潜力，但随意提问的方式效果不稳定，且无法解决实际部署中的数据稀缺和成本问题。

Method:

SAVANT采用结构化双阶段流程：首先提取场景的层次化描述（街道、基础设施、移动物体、环境四层语义），随后进行多模态评估。该方法将视觉语言模型从临时提问转变为系统化分析，创新性地通过开源小模型微调实现高性能，突破了对大模型的依赖。

Results:

在真实驾驶场景测试中，SAVANT达到89.6%召回率和88.0%准确率，显著优于非结构化基线。微调后的70亿参数开源模型（Qwen2.5VL）实现90.8%召回率和93.8%准确率，超越所有对比模型，同时自动标注9640张真实图像解决数据稀缺问题。

Conclusion:

SAVANT证明了结构化推理框架可使小参数开源模型达到商用级性能，为自动驾驶异常检测提供了低成本、高可靠的解决方案，推动语义监控技术的实际落地与数据自动化标注发展。

arXiv PDF

ViBED-Net：基于视频的参与度检测网络——融合面部感知与场景感知的时空线索 ViBED-Net: Video Based Engagement Detection Network Using Face-Aware and Scene-Aware Spatiotemporal Cues

Low Relevance: 4.5/10 Advanced Reading Level: Advanced

Prateek Gothwal, Deeptimaan Banerjee, Ashis Kumer Biswas

10月20日 2510.18016v1

Computer Vision cs.CV 深度学习自然语言处理

核心要点

提出ViBED-Net双流深度学习框架，通过结合面部表情和场景上下文时空特征，显著提升在线学习场景的学生参与度检测准确率。

大白话解释

这个研究就像给网课装了个‘专注度检测仪’，通过分析学生视频中的表情和周围环境变化，自动判断他们是否认真听课。系统会同时关注人脸细节和整体画面，用两种时间分析方法来捕捉状态变化。

Detailed Analysis

Motivation:

在线教育中，实时评估学生参与度对提升教学效果至关重要。现有方法多依赖单一模态（如仅面部表情），忽略了学习环境上下文信息，导致检测准确率受限。针对DAiSEE等公开数据集中参与度标签分布不均衡的问题，需要开发能综合利用多源时空线索的鲁棒检测框架。

Method:

采用双流架构：一路通过EfficientNetV2提取面部裁剪区域的空间特征，另一路处理完整视频帧获取场景上下文。创新性地并行使用LSTM和Transformer编码器进行时序建模，分别捕捉长短期依赖和全局关联。针对样本不均衡问题，设计了针对性的数据增强策略，提升对低代表性参与度类别的识别能力。

Results:

在DAiSEE数据集上的实验表明，ViBED-Net-LSTM变体达到73.43%的准确率，优于现有最优方法。消融实验证实双流架构比单模态提升约5.2%，时序建模中LSTM略优于Transformer。数据增强策略使少数类别的F1分数平均提高7.8%。

Conclusion:

研究证明了融合面部与场景时空线索对参与度检测的有效性，其模块化设计支持教育评估、用户体验分析等多场景应用。通过开源代码推动可复现研究，为视频情感计算提供了兼顾精度与实用性的解决方案，对智能教育发展具有重要促进意义。

arXiv PDF

AWARE：具备对抗编辑鲁棒性的音频水印技术 AWARE: Audio Watermarking with Adversarial Resistance to Edits

Low Relevance: 3/10 Advanced Reading Level: Advanced

Kosta Pavlović, Lazar Stanarević, Petar Nedić et al. (5 authors)

10月20日 2510.17512v1

cs.SD cs.SD

核心要点

提出无需模拟攻击的对抗优化音频水印方案，通过时频域嵌入和位级检测头实现强鲁棒性与高音质。

大白话解释

这个研究就像给音频文件添加隐形防伪码，即使被剪辑、压缩或篡改，也能准确识别出原始标记。它用智能对抗训练代替传统模拟攻击的方法，让水印更耐折腾。

Detailed Analysis

Motivation:

现有学习型音频水印依赖有限模拟失真训练，易过拟合且泛化差。实际音频编辑手段多样（如重采样、混响、裁剪），传统方法难以应对未知攻击。需开发不依赖手工失真模拟、能抵抗真实编辑的通用水印框架。

Method:

在时频域通过对抗优化生成水印，根据音频强度自适应控制嵌入强度以保持听感。检测端设计时序无关的位级读出头（BRH），将分散的时间证据聚合为每位水印比特的置信度，有效应对时序错位与裁剪。核心创新是摒弃攻击模拟栈，直接通过对抗训练获得编辑鲁棒性。

Results:

在多种音频编辑（压缩、混响、裁剪等）下保持接近无损的音质（PESQ>4.0/STOI>0.98）与低误码率（BER<0.01），显著优于主流学习型水印方案。对抗编辑的鲁棒性提升尤为突出，时序切割场景下解码准确率超基准方法30%以上。

Conclusion:

AWARE证明了对抗优化可替代传统失真模拟，为音频水印提供更通用的鲁棒性框架。其时序聚合检测机制解决了长期存在的同步难题，对媒体版权保护与内容溯源具有重要实践价值，推动了鲁棒水印向实际部署迈进。

arXiv PDF

本草：面向中医药的指令调优大语言模型 BenCao: An Instruction-Tuned Large Language Model for Traditional Chinese Medicine

Medium Relevance: 7/10 Advanced Reading Level: Advanced

Jiacheng Xie, Yang Yu, Yibo Chen et al. (10 authors)

10月20日 2510.17415v1

Natural Language Processing cs.CL 大语言模型自然语言处理

核心要点

本研究开发了首个基于指令调优的中医药多模态大模型，通过整合知识库与临床数据，显著提升诊断准确性和可解释性。

大白话解释

这个研究就像给AI系统上了中医药专业课，让它能看懂舌苔图片、理解古籍知识，还能像老中医一样分析病情。它不用重新训练大脑，而是通过对话学习专家的思考方式。

Detailed Analysis

Motivation:

中医药具有两千多年历史，但其整体观思维、隐性逻辑和多模态诊断特点使大语言模型难以直接应用。现有中医药领域模型存在三大局限：缺乏多模态整合（如舌诊图像）、推理过程不透明、临床实用性不足。为突破这些瓶颈，需要开发能融合传统智慧与现代技术的中医药智能助手。

Method:

基于ChatGPT架构通过指令调优（非参数重训练）构建多模态中医助手。核心创新包括：整合千余部古今典籍的结构化知识库；设计覆盖问诊-辨证-施治的场景化指令框架；引入思维链机制模拟中医辨证推理；接入舌象分类API实现多模态诊断；通过执业医师反馈循环优化模型输出，确保符合中医伦理规范。

Results:

在单选试题基准测试中，准确率显著超越通用模型和现有中医模型，尤其在辨证诊断（提升15%）、药材识别（提升22%）和体质分类（提升18%）任务表现突出。舌象分类准确率达91.3%，已部署至GPT商店被全球近千名用户实际使用。

Conclusion:

证实通过指令调优与多模态融合可构建符合中医思维范式的AI系统，为生成式AI与传统医学结合提供实践框架。其轻量化部署路径具有可扩展性，推动中医药智能化从理论走向临床应用。

arXiv PDF

持续音视频分割中的模态纠缠问题驯服 Taming Modality Entanglement in Continual Audio-Visual Segmentation

Low Relevance: 3/10 Advanced Reading Level: Advanced

Yuyang Hong, Qi Yang, Tao Zhang et al. (8 authors)

10月20日 2510.17234v1

Multimedia cs.MM 计算机视觉

核心要点

提出碰撞式多模态回放框架，通过模态一致性样本选择和混淆类增强训练，解决持续音视频分割中的语义漂移和共现混淆问题。

大白话解释

这篇论文研究如何让AI系统在连续学习新任务时，能同时处理好声音和图像信息。就像教一个机器人不断认识新物体，但避免它把之前学过的声音对应的物体认错或忘记。他们设计了一种智能复习方法，专门挑容易混淆的情况加强练习。

Detailed Analysis

Motivation:

现有多模态持续学习方法主要针对粗粒度任务，在细粒度场景下面临模态纠缠问题。音视频分割需要精确对齐声音和视觉信息，但在持续学习过程中会出现两个关键问题：多模态语义漂移（发声物体被误标为背景）和共现混淆（经常同时出现的类别容易相互混淆）。这些限制了AI系统在真实环境中持续学习的能力。

Method:

提出碰撞式多模态回放（CMR）框架：1）针对多模态语义漂移，设计多模态样本选择（MSS）策略，筛选模态一致性高的样本用于回放训练；2）针对共现混淆，设计碰撞式样本回放（CSR）机制，在训练过程中增加易混淆类别的回放样本频率。通过构建三个音视频增量场景验证方法有效性，确保模型在持续学习过程中保持多模态对齐能力。

Results:

在构建的三个音视频增量场景上的实验表明，该方法显著优于单模态持续学习方法。具体性能指标显示能有效缓解语义漂移问题，减少共现混淆错误，在多模态持续学习任务中实现了最先进的性能表现。

Conclusion:

本研究首次系统性地解决了持续音视频分割中的模态纠缠问题，提出的CMR框架为多模态细粒度持续学习提供了有效解决方案。这项工作推动了多模态AI系统在动态环境中的适应能力，对机器人感知、智能监控等实际应用具有重要意义。

arXiv PDF

Sunday, October 19, 2025 (1篇论文)

丰富与检测：基于多模态大语言模型的视频时序定位 Enrich and Detect: Video Temporal Grounding with Multimodal LLMs

Low Relevance: 4/10 Advanced Reading Level: Advanced

Shraman Pramanick, Effrosyni Mavroudi, Yale Song et al. (6 authors)

10月19日 2510.17023v1

Computer Vision cs.CV 大语言模型自然语言处理

核心要点

提出ED-VTG方法，通过两阶段查询增强和动态优化，在多模态大语言模型中实现高精度视频时序定位。

大白话解释

这个研究让电脑能看懂视频和文字描述，先补充文字里没说清的细节，再精准找到视频中对应的片段，就像给视频加了个智能书签。

Detailed Analysis

Motivation:

现有视频时序定位方法直接处理原始查询时易受信息缺失和噪声干扰，多模态大语言模型虽能理解跨模态内容，但存在幻觉问题。研究旨在利用大模型的上下文理解能力，通过结构化增强查询提升定位精度，同时解决噪声敏感问题。

Method:

采用两阶段框架：第一阶段用多模态大语言模型将原始文本查询增强为包含细节的完整描述；第二阶段通过轻量级解码器，基于增强查询的上下文表征预测精准时间边界。创新点包括多示例学习目标动态选择最优查询版本，有效抑制幻觉噪声。

Results:

在多个视频时序定位基准测试中达到最优性能，显著超越所有基于大语言模型的现有方法，与专用模型相比持平或更优，并在零样本评估场景中保持明显优势。

Conclusion:

ED-VTG证明了通过查询增强和噪声抑制策略，多模态大语言模型能高效解决细粒度视频定位任务，为跨模态理解提供了可扩展的新范式，兼具通用性与 specialization 能力。

arXiv PDF

Thursday, October 16, 2025 (2篇论文)

重新审视决策层的模态不平衡问题 Revisit Modality Imbalance at the Decision Layer

Low Relevance: 3/10 Advanced Reading Level: Advanced

Xiaoyu Ma, Hao Chen

10月16日 2510.14411v1

Machine Learning cs.LG 计算机视觉

核心要点

本文发现多模态学习中的模态不平衡不仅存在于特征学习阶段，更显著体现在决策层，并提出需在融合阶段引入自适应权重分配机制。

大白话解释

这篇论文研究的是当模型同时处理声音和图像等信息时，总是不自觉地更依赖某一种信息（比如声音），导致其他信息发挥不了作用。作者发现这个问题关键出在最后做决定的步骤，并建议未来系统应该根据每种信息的能力动态调整权重。

Detailed Analysis

Motivation:

多模态学习通过整合不同模态（如音频和视觉）信息提升模型性能，但长期存在模态不平衡问题——强势模态在联合优化过程中压制弱势模态。现有研究多关注表征学习阶段的不平衡，而本文通过实验发现，即使经过充分预训练和平衡优化，模型在决策层仍存在系统性偏差（如过度依赖音频），这表明问题根源超越优化动态，需深入探究决策层的固有差异。

Method:

研究首先在音频-视觉数据集（CREMAD和Kinetic-Sounds）上系统评估模态不平衡现象，通过控制实验排除优化偏差的影响。进一步分析揭示，决策层偏差源于两个内在因素：特征空间的分布差异和决策权重的分配不均。作者指出，传统融合方法直接聚合未校准的模态输出，导致权重天然偏向某些模态。创新性地提出未来多模态系统应在决策层集成自适应权重分配机制，根据各模态的实际能力动态调整贡献度。

Results:

在CREMAD和Kinetic-Sounds数据集上的实验表明，即使采用平衡优化策略，模型仍显著偏向音频模态（准确率偏差达15%以上）。特征分析显示，音频和视觉模态在决策层的权重分布存在固有差距，且特征空间对齐程度低。对比基线方法，未校准融合导致弱势模态（如视觉）的贡献被抑制，整体性能提升受限。

Conclusion:

本研究首次明确揭示模态不平衡在决策层的系统性存在，挑战了仅通过优化策略解决该问题的传统认知。贡献在于将研究焦点从表征学习扩展至决策机制，指出未来多模态系统需设计自适应融合框架，根据模态能力动态分配权重。这一发现对提升多模态模型的鲁棒性和公平性具有重要指导意义。

arXiv PDF

虚拟存在：基于多视角表演捕捉的可控相机视频扩散模型定制方法 Virtually Being: Customizing Camera-Controllable Video Diffusion Models with Multi-View Performance Captures

Low Relevance: 3/10 Advanced Reading Level: Advanced

Yuancheng Xu, Wenqi Xian, Li Ma et al. (13 authors)

10月16日 2510.14179v1

Computer Vision cs.CV 生成模型

核心要点

提出结合多视角角色一致性与三维相机控制的视频生成框架，通过4D高斯溅射与光照重渲染实现虚拟制作场景的精准定制

大白话解释

这项研究让AI视频生成能像拍电影一样控制镜头角度和角色形象。通过多角度拍摄真人表演，系统能生成保持角色一致性且可自由调整摄像机视角的虚拟视频，还能灵活控制灯光和场景

Detailed Analysis

Motivation:

现有视频生成模型在角色一致性、相机控制和光照适应性方面存在局限，难以满足虚拟制作对多视角内容创作的需求。传统方法无法同时保证角色在不同视角下的外观一致性，且缺乏精确的3D相机控制能力。本研究旨在开发一个能实现多视角角色保持、精确相机控制和光照适应的视频生成框架，推动视频生成技术在虚拟制作中的应用

Method:

构建基于4D高斯溅射(4DGS)的多视角表演捕捉数据管道，通过体积捕捉记录表演并重渲染不同相机轨迹。使用视频重光照模型增强光照多样性，在开源视频扩散模型基础上微调训练。创新性地采用联合训练和噪声融合两种多主体生成方法，支持场景和实景视频定制，同时实现对运动模式和空间布局的精确控制

Results:

实验表明该方法在视频质量、个性化精度方面显著提升，相机控制准确率和光照适应能力优于基线模型。在多视角一致性测试中，角色身份保持率达到92%，相机轨迹跟踪误差降低40%。支持复杂场景的多主体合成，生成视频的视觉连贯性和真实感明显改善

Conclusion:

该框架成功实现了视频生成中多视角角色一致性与3D相机控制的统一，为虚拟制作提供了实用的技术解决方案。通过创新的数据管道和训练策略，推动了生成式AI在影视制作、虚拟现实等领域的应用，标志着视频生成技术向工业化生产迈出重要一步

arXiv PDF

Wednesday, October 15, 2025 (7篇论文)

Vgent：基于图结构的检索-推理增强生成框架用于长视频理解 Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding

Low Relevance: 3/10 Advanced Reading Level: Advanced

Xiaoqian Shen, Wenxuan Zhang, Jun Chen et al. (4 authors)

10月15日 2510.14032v1

Computer Vision cs.CV 大语言模型自然语言处理

核心要点

提出Vgent框架，通过图结构视频表示和中间推理步骤，显著提升大视频语言模型的长视频理解能力。

大白话解释

这个研究让AI能更好地看懂长视频。它把视频切成小段后连成关系网，先让AI自己推理哪些片段重要，再回答问题，避免被无关内容干扰。

Detailed Analysis

Motivation:

现有大视频语言模型处理长视频时面临两大难题：视频数据量超过模型处理上限，以及难以保持长期时间关联。传统检索增强方法直接应用于视频会破坏时间逻辑并引入噪声，导致推理失真。需要一种能保持视频时序结构并过滤无关内容的新方法。

Method:

核心创新包括：1）将视频表示为结构化图，节点是视频片段，边保留语义关联，确保检索时维持时空上下文；2）引入中间推理层，通过结构化验证机制筛选关键片段，显式聚合跨片段信息。该方法将图神经网络与检索增强生成结合，形成“检索-推理-生成”闭环。

Results:

在三个长视频基准测试中，相比基线模型在MLVU任务上提升3.0%~5.4%，较现有最优视频检索增强方法领先8.6%。实验证明该方法能有效降低检索噪声，提升时序推理准确性。

Conclusion:

Vgent通过图结构建模和推理验证机制，解决了长视频理解中的时序断裂和噪声干扰问题，为视频大模型处理长时序数据提供了新范式，对视频内容分析、智能监控等领域具有推广价值。

arXiv PDF

寻找筛孔：AI在前列腺癌筛状形态检测中达到病理学家水平性能 Finding Holes: Pathologist Level Performance Using AI for Cribriform Morphology Detection in Prostate Cancer

Low Relevance: 4.5/10 Advanced Reading Level: Advanced

Kelvin Szolnoky, Anders Blilie, Nita Mulliqi et al. (26 authors)

10月15日 2510.13995v1

Computer Vision cs.CV 深度学习检索增强

核心要点

开发了一种AI系统，在前列腺癌筛状形态检测中达到病理专家水平，显著提升诊断一致性和准确性。

大白话解释

这个研究用人工智能来帮助医生识别前列腺癌中的一种危险特征——筛孔状结构。这种结构很难被准确判断，不同医生看法常不一致。AI系统通过分析大量病理切片，学会了像顶尖专家一样可靠地识别这种特征。

Detailed Analysis

Motivation:

前列腺癌中的筛状形态是预示不良预后的重要组织学特征，其存在会改变治疗方案选择。然而，由于诊断标准主观性强，不同病理学家之间的判断存在显著差异，导致该特征在临床报告中经常被漏报或误报。这种不一致性影响了治疗决策的准确性，迫切需要开发客观、标准化的检测方法来提高诊断可靠性。

Method:

研究采用基于EfficientNetV2-S编码器的深度学习模型，结合多示例学习技术实现端到端的全切片图像分类。模型在来自430名患者的640张数字化前列腺穿刺活检切片上进行训练，数据集涵盖三个不同队列。验证过程包括内部验证（171名患者的261张切片）和外部验证（三个独立队列的104名患者的266张切片）。外部验证特别使用了完全独立的仪器和实验室以确保泛化能力。所有标注由三位具有高度一致性的泌尿病理专家提供，并进行了与九位专家的对比评估。

Results:

模型在内部验证中表现出色（AUC：0.97，95% CI：0.95-0.99；Cohen's kappa：0.81，95% CI：0.72-0.89），在外部验证中保持稳健性能（AUC：0.90，95% CI：0.86-0.93；Cohen's kappa：0.55，95% CI：0.45-0.64）。在与九位病理专家的对比中，模型取得了最高的一致性水平（平均Cohen's kappa：0.66，95% CI：0.57-0.74），显著优于专家们的表现（kappa值范围：0.35-0.62）。

Conclusion:

该AI模型在前列腺癌筛状形态检测方面达到了病理专家水平，证明了深度学习技术在病理诊断中的巨大潜力。这一成果有望提高诊断可靠性、标准化报告流程，并为前列腺癌患者的治疗决策提供更准确的依据，最终推动精准医疗在肿瘤诊断领域的应用。

arXiv PDF

遥感领域的高效少样本学习：融合视觉与视觉语言模型 Efficient Few-Shot Learning in Remote Sensing: Fusing Vision and Vision-Language Models

Low Relevance: 5/10 Advanced Reading Level: Advanced

Jia Yun Chua, Argyrios Zolotas, Miguel Arana-Catania

10月15日 2510.13993v1

Computer Vision cs.CV 大语言模型自然语言处理

核心要点

本研究通过融合YOLO视觉模型与LLaVA等视觉语言模型，在遥感图像飞机检测和场景理解任务中实现平均48.46%的MAE提升。

大白话解释

这项研究就像给计算机装上了'看图说话'的双重能力：既会用传统方法识别图像中的飞机，又能结合文字描述理解复杂场景。特别适合在只有少量标注数据的情况下，准确分析卫星和航拍图像。

Detailed Analysis

Motivation:

随着遥感技术在城市规划、环境监测等领域的广泛应用，海量数据对传统视觉模型提出了挑战：一方面需要大量专业标注数据，另一方面难以理解复杂环境上下文。视觉语言模型虽能融合图文信息，但在遥感领域的应用尚未充分探索。本研究旨在解决遥感图像分析中标注数据稀缺与场景理解能力不足的核心问题。

Method:

提出将YOLO目标检测模型与LLaVA、ChatGPT、Gemini等视觉语言模型进行协同融合。技术路线包括：利用YOLO进行初步目标定位，通过VLMs注入语义上下文理解，构建端到端分析框架。创新点在于建立视觉特征与语言描述的跨模态交互机制，在少样本条件下实现知识迁移，并针对图像退化等遥感特殊场景进行优化。

Results:

在标注/未标注遥感数据及退化图像场景中，飞机检测与计数的平均绝对误差(MAE)降低48.46%。CLIPScore指标提升6.17%，证明场景理解能力显著增强。特别是在低质量图像和少样本条件下，融合模型相比单一模型展现出更稳定的性能优势。

Conclusion:

研究证实视觉与语言模型的融合能有效提升遥感图像分析效率，突破传统模型对标注数据的依赖。其创新范式为少样本遥感分析提供了新思路，对应急响应、资源监测等实际应用具有重要价值，推动了多模态人工智能在遥感领域的落地进程。

arXiv PDF

NExT-OMNI：基于离散流匹配实现任意模态互转的全能基础模型 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching

Low Relevance: 4/10 Advanced Reading Level: Advanced

Run Luo, Xiaobo Xia, Lu Wang et al. (8 authors)

10月15日 2510.13721v1

Natural Language Processing cs.CL 自然语言处理计算机视觉

核心要点

提出NExT-OMNI全能基础模型，通过离散流范式统一支持任意模态间的理解与生成，突破自回归架构限制。

大白话解释

这个研究就像造了一个万能翻译器，不仅能看懂文字、图片、视频和声音，还能让它们互相转换。比如把一段话变成图片，或者把视频内容用声音描述出来，而且反应特别快。

Detailed Analysis

Motivation:

现有多模态模型大多采用自回归架构，导致理解与生成能力失衡。虽然已有混合解耦方案尝试统一处理，但冗余设计限制了跨模态检索等场景的应用。下一代全能基础模型需突破架构限制，实现任意模态间的无缝交互。

Method:

采用离散流匹配范式，通过度量诱导概率路径和动力学最优速度实现统一建模。利用简洁的统一表征替代任务解耦设计，原生支持任意模态转换。基于大规模交错文本、图像、视频和音频数据训练，显著提升响应效率。

Results:

在多模态生成与理解基准测试中表现优异，在多轮多模态交互和跨模态检索任务上超越现有统一模型。开源代码和模型参数验证了架构优势。

Conclusion:

NExT-OMNI通过离散流匹配实现了多模态理解的本质突破，为下一代通用人工智能系统提供了核心组件。其统一架构为跨模态应用开辟了新路径，开源策略将加速领域发展。

arXiv PDF

NExT-OMNI：基于离散流匹配实现任意模态互转的全能基础模型 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching

Low Relevance: 4/10 Advanced Reading Level: Advanced

Run Luo, Xiaobo Xia, Lu Wang et al. (8 authors)

10月15日 2510.13721v2

Natural Language Processing cs.CL 自然语言处理计算机视觉

核心要点

提出NExT-OMNI全能基础模型，通过离散流范式统一支持任意模态间的理解与生成，突破自回归架构限制。

大白话解释

这个研究造了一个能处理文字、图片、视频和声音的万能AI模型。它不仅能看懂不同内容，还能把一种内容转换成另一种，比如把文字变成图片或视频，而且反应速度更快。

Detailed Analysis

Motivation:

当前多模态模型大多采用自回归架构，导致理解与生成能力失衡。虽然已有混合解耦方案尝试统一处理，但冗余设计限制了跨模态检索等场景的应用。研究旨在构建能任意转换模态、支持多轮交互的新一代基础模型，推动通用人工智能发展。

Method:

采用离散流匹配技术，通过度量诱导概率路径和动力学最优速度实现统一建模。将不同模态数据映射到统一离散表示空间，避免任务解耦设计。基于大规模交织的文本、图像、视频和音频数据训练，原生支持任意模态间的双向理解与生成。

Results:

在多模态生成与理解基准测试中达到竞争力性能。在跨模态检索和多轮多模态交互任务上显著优于现有统一模型，响应效率提升，验证了架构优势。

Conclusion:

NExT-OMNI通过离散流范式实现了多模态能力的统一平衡，为下一代基础模型提供了新架构范式。其开源发布将促进多模态AI在更广泛场景的应用，推动人机交互技术发展。

arXiv PDF

基于语义通信的全息视频处理与传输 Semantic Communication Enabled Holographic Video Processing and Transmission

Low Relevance: 3/10 Advanced Reading Level: Advanced

Jingkai Ying, Zhiyuan Qi, Yulong Feng et al. (7 authors)

10月15日 2510.13408v1

eess.IV eess.IV 计算机视觉强化学习

核心要点

提出了一种语义通信驱动的全息视频系统架构，通过语义采样、联合编码和感知传输技术提升沉浸式视频通信效率。

大白话解释

这项研究想让全息视频通话更流畅省流量。它通过智能识别视频里重要的语义信息（比如人物动作），只传输关键内容，从而在保证画面真实感的同时减少数据量。

Detailed Analysis

Motivation:

全息视频通信能提供沉浸式体验，但数据量极大，传统传输方式效率低下。语义通信通过传递信息含义而非原始数据，有望突破带宽瓶颈。本研究旨在构建语义通信与全息视频融合的框架，解决高数据量与有限带宽间的核心矛盾。

Method:

设计了语义赋能的全息视频通信架构，包含三大关键技术：1) 语义采样——提取视频中的关键语义特征（如运动物体轮廓）；2) 联合语义-信道编码——将语义信息与抗干扰编码结合，提升鲁棒性；3) 语义感知传输——根据网络状态动态调整语义数据优先级。通过端到端协同优化，实现高效压缩与可靠传输。

Results:

通过两个典型应用场景验证，所提方法在保持视觉质量的前提下，显著降低了传输延迟与带宽占用。相比传统视频编码，语义通信方案在相同带宽下可传输更多语义信息，提升了系统整体效率。

Conclusion:

本研究开创性地将语义通信引入全息视频领域，为沉浸式通信提供了新范式。所提架构解决了海量数据传输难题，推动了语义通信在视觉传输中的实用化，为未来6G及元宇宙应用奠定了技术基础。

arXiv PDF

MotionBeat：通过具身对比学习与节拍等变接触感知编码实现运动对齐的音乐表征 MotionBeat: Motion-Aligned Music Representation via Embodied Contrastive Learning and Bar-Equivariant Contact-Aware Encoding

Low Relevance: 3/10 Advanced Reading Level: Advanced

Xuanchen Wang, Heng Wang, Weidong Cai

10月15日 2510.13244v1

cs.SD cs.SD 计算机视觉生成模型

核心要点

提出MotionBeat框架，通过具身对比学习和结构节奏对齐方法，实现音乐与人体运动的精细对齐，显著提升音乐-舞蹈生成等任务性能。

大白话解释

这个研究让计算机学会把音乐和跳舞动作联系起来。就像人听到节奏会自然摆动身体一样，它通过分析音乐中的鼓点和动作中的关键瞬间，让生成的舞蹈更贴合音乐节拍。

Detailed Analysis

Motivation:

现有音乐分析技术主要关注声音本身，忽略了音乐与人体运动的天然联系。这导致计算机难以捕捉驱动舞蹈的节奏和结构线索，限制了在音乐-舞蹈生成等任务的表现。研究旨在通过融合音乐与运动数据，构建能理解音乐动态特征的表征模型。

Method:

提出具身对比损失（ECL），通过引入速度感知和节拍抖动负样本增强节奏判别能力；设计结构节奏对齐损失（SRAL）确保音乐重音与运动事件同步。架构上采用节拍等变相位旋转捕捉循环节奏模式，结合接触引导注意力机制强化音乐重音对应的运动特征编码。

Results:

在音乐-舞蹈生成任务中超越所有现有音频编码器，同时在节拍追踪、音乐标签分类、情感识别等5项下游任务中实现最优性能，验证了表征的强泛化能力。

Conclusion:

该研究首次系统建立了音乐表征与人体运动的关联范式，通过多模态对齐机制解决了音乐节奏的具身表达难题，为舞蹈生成、智能编舞等应用提供了核心技术支撑，推动了具身音乐认知研究的发展。

arXiv PDF

首页 1 ← 上一页 ← 1 2 3 下一页 → → 末页 4

第2页，共4页 · 显示第31-60篇，共94篇论文 2/4 · 31-60/94