IML-Spikeformer:面向语音处理的输入感知多级脉冲Transformer IML-Spikeformer: Input-aware Multi-Level Spiking Transformer for Speech Processing
Key Points
提出IML-Spikeformer脉冲Transformer架构,通过创新脉冲机制和注意力模块,在语音任务上实现与ANN相当的性能且能耗降低4倍以上。
Plain Language Summary
这篇论文设计了一种新型的类脑神经网络,专门用来处理语音识别任务。它通过聪明的方式模拟大脑神经元放电,既保持了高准确率,又比传统方法省电得多。
Detailed Analysis
脉冲神经网络(SNN)因其生物启发特性和高能效优势,被视为替代传统人工神经网络(ANN)的潜力方向。然而在语音处理领域,现有SNN面临两大瓶颈:多时间步脉冲计算带来的训练开销过大,以及缺乏针对语音任务优化的SNN架构。这些问题导致SNN在语音任务上的性能长期落后于ANN。本研究旨在开发兼具高性能和低能耗的SNN架构,推动类脑计算在语音处理领域的实用化。
提出IML-Spikeformer架构,核心创新包括:1) 输入感知多级脉冲(IMLS)机制,通过自适应阈值方案在单时间步内模拟多时间步脉冲发放,显著降低计算开销;2) 重参数化脉冲自注意力(RepSSA)模块,结合分层衰减掩码(HDM)形成HD-RepSSA模块,提升注意力图精度并建模语音信号的多尺度时序依赖。该架构首次将Transformer成功引入大规模语音SNN,实现计算效率与模型性能的平衡。
在AiShell-1和Librispeech-960数据集上分别取得6.0%和3.4%的词错误率,性能与ANN Transformer相当,同时理论推理能耗降低4.64倍和4.32倍。实验验证了IMLS机制的有效性,HD-RepSSA模块相比基线注意力机制提升显著,且模型参数量与计算复杂度得到良好控制。
IML-Spikeformer首次证明SNN在大规模语音任务上可达到ANN水平的性能,同时保持类脑计算的能效优势。该工作为开发实用化神经形态语音处理系统提供了新架构范式,其IMLS机制和HD-RepSSA模块的设计思路可推广至其他时序信号处理领域。研究成果推动了类脑计算从理论到应用的跨越。