目前,以脑电信号为基础结合其他多模态信号的相关研究不断深入,同时大模型出色的表现也引起了脑电领域相关研究者的注意。如何利用多模态大模型的能力来解决脑电研究的相关问题,论文《Exploring Large-Scale Language Models to Evaluate EEG-Based Multimodal Data for Mental Health》给出了一个较为新颖的结合方式。
一、本文的出发点: 1、多模态数据联合的必要性:结合访谈音频数据可以更好地了解患者的情况,模拟医生的诊断场景 2、利用大模型的zero-shot/few-shot能力:通过少量注入提示信息,把EEG和常见的LLM信息结合在一起。
二、本文的研究背景: 随着LLM相关模型研究的发展,已经有将EEG转为文本形式用于LLM的prompt注入以此来进行脑电分类的先例,因此本文考虑将更多模态的信息转为已有的LLM能接受的输入形式,然后进行zero-shot/few-shot的推理。
三、本文的创新点: 多模态数据的形式转换以结合LLM的能力:将脑电信号转换为LLM能理解的图形数据;将音频信号通过梅尔倒谱系数的计算输入特征的文本数据;同时将对话内容利用ASR转为文本数据输入。
四、本文采用的数据集: MODMA: 抑郁二分类数据集;音频数据+EEG数据 PME4: 愤怒、恐惧、厌恶、悲伤、快乐、惊讶和中性状态七种情绪分类数据集;音频+视频(未公开)+EEG+EMG数据 LUMED-2: 中性、快乐、悲伤三种情绪分类数据集;面部表情+EEG+皮肤电反应数据
五、利用GPT大模型进行few-shot learning的示例:
六、实验结果
|