探索计算机视觉与⾳频的交叉:基于视觉的⾳乐相关研究
房东的猫Review(声源分离Beyond)...一人一花歌词
本⽂转⾃知乎,已获作者授权转载,请勿⼆次转载。
⽂章略有修改。
01
前⾔盛蕙子
近年来计算机视觉和深度学习的快速进展已经不必再多赘述,当传统(深度)vision,(和audio)的各个领域已经⼏乎饱和并疯狂内卷的当今,关注合适的,Promising的⽅向,⽆论是对⼼怀憧憬刚刚⼊门的新Researcher还是对已经饱经风霜的科研⽼⼿都是⾄关重要的。
在这⾥介绍⼀个近年来逐渐兴趣,依然⼩众却⼜充满前景的领域——探索视觉和⾳频(听觉)的联合学习任务(Audio-Visual Learning)。本⽅向相⽐纯视觉领域有以下⼏点值得⼤家关注:
⾃然的多模态信息。⼈类⽣来就有视觉和听觉两种感官接受信息,期待在研究中将两种信息融合⽤于对世界的理解各个任务中可以获得提升可谓⾮常⾃然。
竞争压⼒⼩,⼤量⽅向未被探索。由于领域不⼤,⽬前audio-visual的研究集中在有限的⼏个⽅向,甚⾄都处于发展初期,⽅向探索⼀⽚蓝海。
⼤佬背书。领域虽⼩,却并不是完全缺乏关注。William T. Freeman,Antonio Torralba,Andrew Zisserman和Alexei A. Efros都也在此领域深耕多年。这⼏位在计算机视觉领域的地位⼤家应该都懂。
社区友好。在内卷的领域内,reviewer和author相爱相杀互相diss,audio-visual领域却是⼩⽽精致,researcher们和和⽓⽓⼼⼼相惜。
整个Audio-Visual领域内的⽅向⽬前已经发展壮⼤,⼀个⽐较comprehensive的review可以参考朱昊同学的 Deep Audio-Visual Learning: A Survey。
虽然严格来讲并不能严谨地对细分⽅向进⾏分类,但是从研究对象来说,⽬前的研究⽅向还是可以简单地分为(1)⼈脸和语⾳(2)乐器和⾳乐(3)⼀切⾃然场景和⾃然声。当然各个research work也
并不会完全限制在某⼀个⽅⾯,很多论⽂会同时对乐器和⼈声甚⾄⾃然声进⾏效果的展⽰。
However,在⾳乐⽅⾯的研究侧重点和语⾳⼜存在明显的区别。为了精炼内容,本⽂将会着重于对实验主要 conducted on 乐器和⾳乐数据的研究⼯作做⼀个简单的介绍。
02
视觉引导的声源分离
声源分离问题是⾳频信号处理中的⽼问题,在语⾳中所对应就是著名的鸡尾酒会效应。⽽在⾳乐和乐器的关系中,视觉信息分别被作为乐器种类,位置信息的承载者和⾳乐运动信息的提供者,被⽤于在⾳乐数据中引导声源分离。
这⼀领域的兴起和推动主要源于在 ECCV 2018 赵⾏博⼠和⾼若涵学长⼀作发表的⼯作,这⼆位也是笔者⾮常尊重和⼀直Follow的前辈。
本⽂会以 The Sound of Pixels 作为例⼦进⾏详细介绍,后⾯⼯作的数据使⽤,⽹络结构,核⼼思想都⼤同⼩异。
1. The Sound of Pixels. ECCV2018. [7]
The Sound of Pixels 是MIT的赵⾏博⼠和淦创博⼠ ECCV 2018 的⼯作,其最突出的贡献是收集了MUSIC数据集(虽然没有很好的划分训练和测试集),并很好的开源了训练代码。
MUSIC数据集信息统计
整个⼯作试图⽆监督地学习图像feature map(Image层⾯的像素块)和各个乐器声⾳的联系,并利⽤图像feature map作为引导信息辅助⾳乐的声源分离。
最后呈现的效果如上图所⽰,把吉他和⼩提琴的合奏⾳频和图像位置进⾏联系,利⽤⼩提琴位置的视觉特征可以从mix的⾳频中predict⼩提琴only的⾳频,吉他亦是如此。
Sound of Pixel训练流程
整个⼯作的框架⾮常简单。在训练时选取两段独⽴的独奏视频,将各⾃的⾳频作为ground truth,并将⼈⼯混合的结果作为audio输⼊,从⽽构建从mixed输⼊到两个solo的监督,在视觉信息的辅助下进⾏声源分离。其⽹络的细节和数据处理的细节见下图:
Sound of Pixels的⽹络结构
Audio的处理使⽤简单的短时傅⾥叶变换(STFT),将⼀维的时域⾳频信息转化为⼆维的时间-频率的频域信息。从⽽使⽤⼀个简单的U-Net将频谱映射到K个⾳频feature map。
对视频处理则是使⽤简单的ResNet18⽹络,并将最后的feature map在时空上使⽤max pooling操作得到视觉最强响应位置的feature。
接着视觉feature对K个feature map进⾏加权求和,得到两种乐器各⾃对应频谱的Mask,与输⼊频谱相乘得到⽬标频谱。最后通过iSTFT 转换回时域⾳频。
作为早期⼯作,这篇论⽂从发展的眼光看具必然有局限性,但这些正是作者们留下的坑:(1)这篇⽂章的⽹络构建,loss设置和信息使⽤都很简单(2)只能使⽤solo视频⽤作训练(3)也只能适⽤于两个乐器同时弹奏的duet场景。
2. Learning to Separate Object Sounds by Watching Unlabeled Video. ECCV 2018 (oral). [3]
Amazingly同在ECCV 2018,UTAustin的研究者若涵 et al. 同样使⽤了视觉信息指导声源分离。
不同的是这个⼯作使⽤了⽐较传统的Non-negative Matrix Factorization将频谱分成了M个Basis,并和预测的视觉信息通过MIML进⾏联系。
相⽐于Sound of Pixels,这篇⽂章除了⾳乐,在各种⾃然声上也进⾏了实验。但是这种传统的⽅法明显在效果上会逊⾊于全神经⽹络的⽅法,所以若涵本⼈在后续⼯作中也抛弃了这种pipeline。
3. Co-Separating Sounds of Visual Objects. ICCV 2019. [4]
发表于ICCV 2019的这篇⽂章中,UT Austin团队(若涵和⽼板)在ICCV 2019就换⽤了U-Net作为⽹络的backbone,不同之处是使⽤类似conditional generation的任务,将视觉信息的feature在U-Net的b
ottleneck中concatenate了进去。张雨生歌曲打包下载
open up your dream⽹络结构见下图:
这篇⽂章利⽤了乐器detection的结果直接抽取feature,并利⽤了乐器类的label作为分类监督,从⽽将duet的⾳频也⽤于训练中。
实验证明了对于duet和solo混合的场景中,⽂章⽅法⽐Sound of Pixels有较⼤提升。
4. Recursive Visual Sound Separation Using Minus-Plus Net. ICCV 2019. [6]
这篇ICCV 2019的⽂章来⾃(我们)CUHK MMLab,⼀作是徐旭东同学。这篇⽂章基于Sound of Pixels,对⽹络的loss进⾏改
进,recursive地对预测的频谱进⾏finetune。
⽂章证明对于三个混合的声源,⽂章相⽐Sound of Pixels有提升,同时在⾃然声数据集上也验证⽂章效果。
分爱易欣5. The Sound of Motions. ICCV 2019. [8]
同样在ICCV 2019中,赵⾏博⼠和淦创博⼠对Sound of Pixels进⾏了亲⼿改进,把运动信息作为引导融⼊⾳乐声源分离任务。
事实上之前列举的所有⼯作都只是注重于静态图像信息和⾳频的对应关系,其利⽤的实际信息其实只有乐器的外形和种类。
这篇⽂章使⽤dense flow定义了⼀种特殊的dense运动轨迹,并与video的外观feature进⾏融合。⽽视觉信息和⾳频信息的融合也被放⼊了U-Net的bottleneck位置。