数字人需求应用材料

1、3D和动作捕捉技术

主要应用与影视创作、动画、VR\AR\MR、虚拟偶像等场景。原来你只是一个过客

上限很高。比如《阿凡达》、《魔兽世界》的CG制作。

明星事件优势明显，所有的动作、表情、声音都和真人一致。缺点是需要真人参与，而最终效果取决于真人和技术，二者缺一不可，成本高。比较适合大成本制作和互动强需求的场景，如电影、虚拟偶像（跳舞、和真人互动）。

2、虚拟形象+语音交互（TTS、ASR）+自然语言理解（NLU）

爱的起跑线主要应用于主播、特定业务场景播报。比较适合单向播报场景以及标准交互场景。

江疏影和张天爱事件应用场景广泛，现有的自助设备、电器都可以升级到此种方案。主要场景有虚拟主播、虚拟教师、虚拟客服、虚拟助手、虚拟导游、IP品牌营销、金融行业面签（双录）等。

3、虚拟形象+语音交互（TTS、ASR）+自然语言理解（NLU）+深度学习

在2基础上，通过深度学习，更自然的和真人交互。优势是不用人参与，可以应用于强交互场景，存在于虚拟网络的数字人。缺点是成本高，周期长。

现阶段上述3种方式将会长时间并存。因此我们也在此基础上做方案的优化。

第1种，加上声音转换技术，可以让后台真人替换，而面对虚拟数字人的人感知不到。

声音转换基于深度学习和迁移学习技术，精准将原说话人的声音转换为目标说话人，同时保留原说话人的风格特。让声音有更多的表现形式。

声音体验高自然度，转换的目标人声音高度接近真人发音，效果更加真实自然。

第一滴泪歌词转换效果高度稳定，相同性别、不同性别，不同年龄，不同地域，转换后音稳定统一。

说话人风格高保留，保留原说话人的语气、语调、停顿，保留更多原说话人风格情感特。

第2、3种，加上高保真TTS，可以让面向虚拟数字人的人获得更自然的听感。根据形象以及场景需求，定制音库，打造一个独有的音。胡云芸

通过深度学习技术，合成高音质、更饱满的音效果，效果更接近人声，同时提供百种音选择。包含男童声、女童声、成年女声、成年男声；根据应用场景有：新闻播报、智能客服、有声阅读、语音交互、英文场景、童声场景、方言场景、明星模仿。

4、超写实虚拟数字人，1分钟视频4小时神经网络学习创建数字分身