面向数据高效动作检测的组相对增强方法 Group Relative Augmentation for Data Efficient Action Detection
Key Points
提出结合参数高效调优和可学习特征增强的策略,显著提升视频语言模型在少样本动作检测中的性能。
Plain Language Summary
这篇论文研究如何用少量视频样本教AI识别复杂场景中的多人动作。就像老师用不同角度讲解同一个知识点帮助学生理解,他们开发了一种智能数据增强方法,让AI能自己生成有用的训练变体,同时通过比较不同变体的预测结果来筛选最有效的学习材料。
Detailed Analysis
当前大型视频语言模型(VLMs)在动作检测任务上面临两个主要挑战:一是直接用少量样本微调容易过拟合,二是模型预训练时的场景级理解与任务需要的人物中心化分析存在粒度不匹配。现有方法要么需要大量标注数据,要么难以适应复杂的多人多标签场景。本研究旨在开发一种数据高效的适应策略,使VLMs能够仅用有限样本就能准确识别视频中多个人的不同动作。
方法包含三个创新点:1) 采用参数高效的LoRA调优技术,仅更新少量参数;2) 在冻结的VLM骨干网络中通过FiLM模块实现可学习的内部特征增强,直接生成与任务相关的多样化特征变体;3) 提出组加权损失函数,根据每个增强样本预测与组平均值的差异动态调整其训练权重。该方法优先选择信息量适中且合理的增强样本,通过组相对比较机制提升模型鲁棒性。
在AVA和MOMA两个复杂多人动作检测数据集上的实验表明:1) 在mAP指标上显著优于基线方法,AVA数据集达到35.2 mAP;2) 仅需10%训练数据即可达到全数据训练的90%性能;3) 在跨数据集迁移实验中表现出优异的泛化能力,验证了方法的数据高效性。
该研究提出了一种创新的视频语言模型少样本适应框架,通过可学习特征增强和组相对训练机制,有效解决了数据稀缺场景下的动作检测难题。其核心贡献在于:1) 实现了内部特征空间的智能增强;2) 开发了基于预测一致性的动态样本加权策略。这项工作为视频理解领域的高效迁移学习提供了新思路,特别适用于标注成本高的现实应用场景。