OmniMER:通过辅助增强的大语言模型适配实现印度尼西亚语多模态情感识别 OmniMER: Indonesian Multimodal Emotion Recognition via Auxiliary-Enhanced LLM Adaptation
核心要点
本文构建了首个印尼语多模态情感识别基准数据集IndoMER,并提出了OmniMER框架,通过引入模态特定的辅助任务显著提升了模型性能。
大白话解释
这篇论文主要做两件事:一是创建了一个印尼语的视频数据集,里面有带文字、声音和画面的情感标注;二是设计了一个新方法,让AI模型能更好地看懂、听懂这些视频,从而更准确地判断里面的人是什么心情。
Detailed Analysis
印尼语使用者超过2亿,在东南亚社交媒体上占据主导地位,但其多模态情感识别研究却严重不足。现有研究缺乏针对印尼语及文化特点的基准数据集,且面临跨模态信息不一致、数据分布不均衡等现实挑战。因此,本研究旨在填补这一空白,构建首个印尼语多模态情感识别基准,并开发能够有效应对这些挑战的鲁棒识别框架。
本文提出了OmniMER框架,其核心是基于Qwen2.5-Omni大语言模型进行多模态适配。创新点在于引入了三个模态特定的辅助感知任务来增强模型对情感线索的捕捉:针对文本模态的情感关键词提取、针对视频模态的面部表情分析,以及针对音频模态的韵律分析。这些辅助任务迫使模型在融合多模态信息之前,先深入理解每个单一模态中的情感相关特征,从而减少在数据稀缺情况下对虚假相关性的依赖,提升模型鲁棒性。
在新建的IndoMER数据集上,OmniMER在情感分类(二分类)任务上取得了0.582的宏F1分数,在细粒度情绪识别(七分类)任务上取得了0.454的宏F1分数,分别比基础模型显著提升了7.6和22.1个百分点。此外,在中国汉语数据集CH-SIMS上的跨语言评估进一步证明了该框架具有良好的泛化能力。
本研究贡献了首个印尼语多模态情感识别基准数据集IndoMER,并提出了有效的OmniMER框架。该工作不仅推动了资源匮乏语言的情感计算研究,其通过辅助任务增强模态感知的技术路线,也为解决多模态融合中的噪声与不一致问题提供了新思路,具有重要的学术价值与应用潜力。