基于多模态的音乐推荐系统
作者:龚志 邵曦
来源:《南京信息工程大学学报(自然科学版)》2019年第01期
        摘要 使用传统协同过滤的方式进行推荐往往会忽视音乐底层特征.通过将音乐的音频特征与歌词信息进行多模态融合,并将融合后的特征信息作为协同过滤推荐的补充,提出了一种基于多模态的音乐推荐系统.主要探讨了音频特征与歌词信息的提取,并在提取歌词信息时利用LDA主题模型进行特征降维.针对多模态融合问题,使用一种特征级联早融合法(EFFC)融合方式,并将多模态融合后的结果与单模态结果进行了比较.对于结果的推荐,以多模态特征信息为依据建立用户兴趣模型,并将该模型通过LSTM神经网络,以过滤与优化协同推荐的用户组.结果表明,基于多模态的音乐推荐系统将推荐结果的误差项平方和(SSE)由传统的2.009降至0.388 6,验证了该方法的有效性.
        关键词音乐推荐;协同过滤;LDA主题模型;多模态融合;LSTM神经网络
林志炫        中图分类号TN912
        文献标志码A
        0引言
        随着物质生活水平的不断提高,人们对文化产品尤其是高品质音乐产品的需求日渐提
高.借由互联网规模的扩大和数字存储技术的进步,音乐产业不断发展,音乐数量也以几何级数激增.一方面,网络中海量音乐资源出现了信息过载现象,这些音乐通过自身携带的标签(如演唱者、年代、音乐流派等)与其他音乐进行区分,但这种分类标准不统一且缺乏开放性;另一方面,用户被这些海量音乐所包围着,传统的检索方式无法满足用户需求,无法从中有效获取自己所需的音乐资源.
        推荐系统作为一种“信息推送”模式,是解决信息过载问题的主要手段,它能够在分析预测用户需求的基础上主动推送其可能需要但又无法获取的有用信息,并能够以用户为中心,通过研究用户行为、兴趣和环境等,为用户推荐更具针对性的信息,即实现信息的“按需定制服务”[1].然而,目前绝大部分已成熟商用的推荐系统都采用了传统的基于协同过滤的推荐方式,该方法忽视了音乐内容本身,无法满足用户的实际需求.通过进一步研究发现,将融合音乐的音频特征与歌词信息的多模态特征作为协同推荐方式的补充,可使音乐推荐的结果更加客观与准确.所以,本文提出了一种基于多模态的音乐推荐系统,在进行音乐推荐时使用音乐的多模态特征来提高协同推荐的准确率.
        多模态音乐推荐系统框架如图1所示.
        1协同过滤与用户兴趣模型
        协同过滤技术是信息推荐系统中最为成功的技术之一,也是信息推荐和信息服务领域的研究热点[2].该方法主要通过用户之间的相互协同来选择有价值的信息,比如利用用户之间对资源的评分进行推荐,目前比较具有代表性的是基于用户的协同过滤推荐方法.
        基于用户的协同过滤推荐方法,首先计算出目标用户与其他用户的相似度,在用户社区中到与目标用户最相似的部分用户(邻居),再由邻居用户对指定音乐的评分来预测目标用户对该资源的评分,从而产生推荐结果.
        基于用户的协同过滤推荐方法的核心就是计算用户之间的相似度.假设:U={U1,U 2,…,UA}是所有用户的集合,I={I1,I2,…,IM}
        是所有音乐的集合,每个用户对每首歌曲都存在一个评分,用于构建“用户-音乐”评分矩阵并代表用户对该歌曲的喜爱程度.传统的协同过滤推荐在构建评分矩阵后,便直接使用该矩阵来进行相似度计算.
        这里引入用户兴趣模型的概念,相较评分矩阵而言用户兴趣模型反映了用户对某些特
征而不是对某些歌曲的喜爱程度,方便协同推荐时引入音乐自身的特征.同时,用户的兴趣会随时间发生变化,评分矩阵无法做到实时更新,而通过建立用户即时(短期)兴趣模型与稳定(长期)兴趣模型,即可实现用户模型的动态维护,从而达到音乐推荐的客观性与实时性.
        由于用户兴趣模型可以更好地契合本文的思想,故将用户兴趣模型贯穿整个推荐流程的始终,以实现多模态的音乐推荐.
so close张恒郑爽事件        2音乐特征的提取与多模态融合萧敬腾 王妃
        音乐特征提取与分析是本音乐推荐系统的基础.特征的提取包括音频特征的提取、歌词信息的提取以及歌词信息的降维3个部分,将得到的多个音乐特征经多模态融合后建立音乐数据库并以此为依据构建用户兴趣模型.
        2.1音乐特征的提取与多模态融合
        音频特征的提取过程主要分为以下2个阶段:
        1)预处理过程.将所有音频文件转化为统一的AAC音乐格式,并从每首歌中取出20 s(第50~70 s)转化为单声道信号并进行下一步分析.
        2)声学特征提取过程.该过程主要提取一些描述音乐频率、节奏与音等底层的声学特征.常用的声学特征包括20维的Mel频率倒谱系数(MFCC)、21维的感知线性预测系数(PLP)以及9维的PLP倒谱相关系数.本文选择MFCC参数作为声学特征.
        MFCC是基于模仿人耳的听觉特性所提取的短时特征.对人耳而言,1 kHz以下的声音频率与人的感知能力呈线性关系,1 kHz以上则呈非线性的对数关系,而MFCC正是模拟了这种特性,将其线性频谱映射到基于聽觉感知的非线性Mel频谱中并最终转换到倒谱上,因此能很好地反映人耳对于音频信息的感知[3].
        MFCC提取过程包括以下步骤:
        1)归一化Mel滤波器组的系数及倒谱提升窗口,并设置预加重滤波器;
        2)对语音信号进行分帧,计算每帧的MFCC参数;
梦醉西楼
        3)进行快速傅里叶变换(FFT)将信号从时域转换到频域上,再进行Mel滤波并计算倒谱;
        4)求取一阶差分系数,合并MFCC参数和一阶差分MFCC参数;
        5)去除一阶差分参数为0的首尾两帧.
        最终每一首歌曲得到5 506帧×K维的MFCC参数,对这5 506帧的结果求均值后可得出每一首歌曲的1×K维“音频-特征”向量.
        2.2歌词信息的提取
        由于歌词信息是文本的形式,为了便于计算机的保存与处理,需将歌词进行数字化转换.向量空间模型(VSM)是由Salto等[4]提出的一种文本表示方法,该方法将歌词文档表示成高维空间中的向量,每篇文档对应一个向量,该向量中的每一维对应文档的每一个特征项.
        VSM的主要步骤包括:
        1)预处理过程.
        对每一篇歌词文档进行分词,使得句子中的每一个词语分开,并去除掉某些没有意义且浪费空间的词语(停用词).比如一篇文档d经过分词、去除停用词后还剩下n个特征词,便可建立一个1×n维的“文档-词语”向量dj=(t1,t2,…,tn),其中,ti表示特征词,ti的值代表该特征词在本篇歌词中出现的次数.
        2)计算特征词的权重.
        特征词在该歌词中出现的次数能反映出音乐的情感趋势,但不同的歌曲的歌词总数不同,只计算特征词出现次数的方式显得不够“公平”.为了能够反映出某特征词是否具有代表性,本文采用词频-逆文档频率(TF-IDF)来计算特征词的权重.
        Salton等[5]提出了TF-IDF算法.该算法主要体现了以下思想:一个词在特定的文档中出现的频率越高,说明它在区分该文档内容属性方面的能力越强(TF);一个词在文档中出现的范围越广,说明它区分文档内容的属性越低(IDF)[6].公式如下:
        其中,TFIDFi,j表示特征词ti在文档dj中所占的权重,Nij表示特征词ti出现在文档dj中
的次数,N*j表示文档dj中所有词的个数,D表示文档总数,Di表示文本集中包含特征词ti的文档数.
        2.3歌词信息的降维
dj奶奶
        在实际操作中,由于表示音频特征的MFCC参数只有几十维,而一首歌的歌词中可能出现上百个特征词(几百维),多模态融合后的特征信息一定会偏向反映歌词信息而疏远音频特征.为了解决音频与歌词之间的不平衡,还需要对歌词信息进行降维,这里将“文档-词语”向量的维度降至与MFCC参数相同的K维即可.
        降维的方法有很多,传统的有奇异值分解(SVD)、非负矩阵分解(NMF)等.1990年Deer wester等[7]提出采用奇异值分解SVD方法来过滤文档中的噪声,即潜在语义分析(LSA),将文档从稀疏的高维特征词空间映射到一个低维的向量空间上.LSA采用基于数学的方式进行矩阵分解以达到降维的目的,故分解出的矩阵缺乏解释性.随着对LSA的深入优化,主题模型逐渐发展起来.