周董元宇宙梦幻联动!揭秘大厂数字人背后的「黑科技」
1 八月, 2022 单位
idavidyu

【新智元导读】是不是《最伟大的作品》MV首播瞬间你热血沸腾?在那之前,周董还曾和一位从平行宇宙穿越而来的虚拟人同台演出同样刷爆全网。


等了6年,周董《最伟大的作品》MV首播,直接刷爆全网。周杰伦一首钢琴曲化身时空旅人,瞬间回到了1920年代与艺术家们相遇。

杰迷们看后热血沸腾,纷纷等着数字专辑正式上线的那一刻。不过,在那之前,周董就曾和一位特殊的粉丝「橙络络」同台演出。在熟悉的旋律中,网友们纷纷刷弹幕表示「爷青回」、「YYDS」、「全体起立」。

她穿着橙色连衣裙,伴随着轻快动感的旋律起舞,网友们为她纷纷打CALL。

除了橙络络,如下这些数字人,你可认得?从平行宇宙破空而来的新生代唱作人李叙白。

新华社全球首位3D AI合成主播「新小微」。

2022北京冬奥会上,冬奥手语播报数字人聆语。

还有……而刚刚所有这些数字人的实现,都是少不了一个看似「名不见经传」的公司——原⼒数字科技股份有限公司。在数字人的领域,字节跳动,腾讯,商汤、讯⻜、OPPO、百度,甚至还有清华⼤学等等,也都和这家公司展开了合作。那么,这到底是什么神奇的魔力,让大厂们如此趋之若鹜呢?自研数字人技术


数字人的模型采集

记得当年的「假老黄」么,也就用上百个相机拍几千张照片吧。

还是,衣服都不能放过的那种。

‍别看只是咔咔一顿拍,这可是数字⼈的核⼼技术之⼀!

就连3D技术首屈一指的英伟达,想临时起兴做一套模型,也是不行的。之前提到的「假老黄」,便是由名为「The Scan Truck」的移动工作室制作出来的。我们熟知的「奇异博士2」、「毒液」、「复仇者联盟:终局之战」等等,都有他们的参与。现在,这种通过照相机整列采集的技术已经相当普及了。为了得到更好的效果,原⼒数字科技⾃主研发设计了精度更高的重光照(光场)扫描软硬件系统,在性能上要远远超过传统的相机整列技术。这套系统由⾃主设计球形矩阵光照空间硬件和⾃研数据算法软件组成,设计指标直接对标业界巨头谷歌的同类系统。在这个直径3.5⽶的球形矩阵光照空间中,原⼒用331块⾃主设计编程LightForce照明灯板来保证照明的绝对可控和同步,与此同时,还可以进行高达每秒1000次的光场变换。更厉害的是,这些RGB灯珠还可以模拟出自然界中各种的光照情况。采集端则搭载了10台⾼速⼯业相机以及52台单反相机,再配合上LightForce灯头的同步照明,系统便能以超⾼的帧速率采集⾼精度⾯部动态⼏何模型(点数达到百万级别)在不同光照环境下的数据。‍

在得到原始数据后,⾃研的软件会调⽤摄影⼏何算法⾃动⽣成⾼精度拓扑模型,并分离⾼光,⽣成精度⾼达8K的颜⾊图(Diffuse贴图)、法线贴图(Normal)、⾼光贴图(Specular)、以及次表⾯散射图(Subsurface scattering贴图)。这一套流程下来,不管是演员表情、肌⾁、褶皱、还是⾎管等信息,都能被捕捉下来。如此,不仅⼤⼤缩短了制作超⾼精度写实数字⼈的周期,简化了制作流程,而且还能最⼤限度地还原演员表情精度和细节。


更进一步的,想实现超⾼精度的⾯部动态驱动,则必须得到连续的⾼质量的4D数字⼈⾯部动态数据。于是,原力在这套系统的基础上⼜扩展开发了全新的4D扫描系统,实现了高达每秒60帧的⾼精度3D⾯部动态数据采集。除此之外,原⼒已经开始利⽤系统采集巨量⼈体⾯部数据,为今后进⼀步利⽤机器学习⾃动⽣成⾼精度写实奠定了⼤数据基础。

数字人面部动画生成

数字人模型有了,如何让他们的面部动起来呢?

目前来说,业内一般采用的是面部捕捉的方式来采集面部动画的数据,例如ARkit,Faceware,DynamicXYZ等等。首先通过捕捉演员的表情动作,然后再映射到高精度的3D角色面部上。问题是,这项工作的实现过程并非易事。就拿市面比较流行的商业软件Faceware和DynamicXYZ来说,需要大量的现场人工校准。

Faceware示例为了解决这一难题,原⼒独创了⼀套区别于传统FACS(Facial Action Coding System)的表情编码系统。借⽤深度学习中编解码器(Autoencoder)的原理,研究人员设计使⽤卷积⽹络提取演员表演中的表情编码,并且在不同的人脸中实现表情编码的统一。然后通过共享表情编码隐层空间向量,便可将演员表情直接解算到数字⼈⻆⾊⾯部绑定,进而实现了⼀套基于神经⽹络的三维⻆⾊⾯部动画捕捉⽣成算法。基于此算法,原力完成了OF_DeepFace的开发——一套「⽆标记点三维⻆⾊⾯部动画制作流程」系统。

OF_DeepFace示例有了这套系统,你只需要⼀套轻型红外摄像头盔或者普通RGB摄像头,就能实现从演员表演到超写实虚拟⻆⾊动画的实时转换。既不用每帧模型做多摄像机⽴体重建⼯作,也不必⼿动校正关键点与虚拟⻆⾊的⾯部绑定,所有的工作都可以交给神经网络来完成。不仅实现了完全的自动化,顺便还节省了购置⾼端摄像硬件设备的成本。此外,由于结构轻便、推理⾼效,这套自研的神经⽹络可以兼容任意的⾯部系统,包括⽬前流⾏的MetaHuman⼈脸⽅案。而且,就算是在⾼精度的三维模型上,OF_DeepFace依然可以表现较⾼的性能,实现实际帧率达到60fps以上的推理结果果。不管是从采集质量,使用便捷性,还是兼容性上,都全面超越了国外的同类软件。事实上,原⼒正是在此系统的基础上为很多客⼾了实时直播的全新解决⽅案。除了面部表情的捕捉,很多场合是需要数字人能直接实时生成动画,而不能采用捕捉的方式,其中嘴部动画的生成也成为一个行业难题。对此,原⼒又拿出了自家的最新研发成果——从语⾳(TTS)到⾯部动画的直接⽣成⼯具OF_DeepAudio。和上⾯的⼯具⼀样,这个软件也是基于⼀个轻型的神经⽹络。

:38

OF_DeepAudio示例经过海量数据训练,神经⽹络可以从提取⾳频特征,并解算出⻆⾊⾯部控制器数值,⾃动⽣成⾃然流畅的数字⼈⾯部动画。话说回来,光靠神经网络还是不够的,由于原力使用了上面说到的表情编码系统,整个语音驱动的效果也更加的自然,并且可以在不同的面部之间转换,无需重新学习。

数字人的实时驱动

面部动起来了,那让这个数字人能够真正呈现给大家,能够实时渲染也很重要。这是交互式数字人和数字人直播的基础。说白了就是如何高速驱动⾼精度⾯部模型⽣成动画,也成为数字人流程中的技术难点之⼀。顺便提一句,驱动技术在动画制作领域的特定技术过程叫做「绑定」。而负责这项操作的技术人员通常会为⻆⾊制作极其复杂的绑定控件,以及修形变形器BlendShape。我们所熟知的虚幻引擎MetaHuman在打造数字人时,在⾯部驱动部分⽤的就是大量BlendShape的混合变形。这样带来的问题是,变形节点非常复杂,如果要复原很写实的数字人表情,软件交互速度就会⼤幅下降,后续生成的数字人也很难达到实时交互的速度,更不用说用在直播上了。

BlendShape示例针对这⼀痛点,原⼒研发团队提出了⼀种基于⼤数据的构想:抛弃使⽤各种变形器以及BlendShape的模式,直接⽤机器学习神经⽹络节点取代所有的变形计算。基于上述思路,原⼒研发团队研发出了⼀套基于神经⽹络的⾯部绑定加速系统,以及模拟⾯部肌⾁运动的⾯部实时绑定系统⸺OF_DeepRig。OF_DeepRig⼯具可以⾃动分析原始肌肉运动⽂件,并⾃动随机⽣成海量训练数据进⾏训练。训练完成后,原始⽂件中的所有与绑定相关的计算,都会被⼀个神经⽹络定制节点取代,而所有的变形也都将转换为统一的表情编码系统下的参数。这种方法可以完全复原任意的面部效果,唯⼀不同是⽐之前的⼈脸驱动⽅式⼤幅提升了驱动速度。

OF_DeepRig在引擎中运行速率(左)与原有绑定的运行速度(右)对比同样的,这个神经⽹络结构十分精简,在3D软件或者引擎中只有⼀个计算节点,推理速度可以达到实时,即使场景中有多个⻆⾊,仍然能够在场景中实现⾯部实时变形的效果。此外,得益于原力研发的表情编码系统,还可以很方便的把人脸绑定效果迁移到其他不同的角色上。目前,这项技术已经在腾讯,商汤,字节跳动,清华大学数字人的项目中得到了应用。看到这,你是不是认为原力只是一家专注于做技术的公司呢?

原力从何来?


其实早在1999年,原⼒数字科技的前身「原⼒动画」就已经成立了。目前,原⼒已经发展成为了国内最大的3D数字内容和技术的企业之一,员工超过2000人。除了之前提到的那些国内外众多知名公司外,原力甚至还为现在最热的元宇宙公司Meta提供技术和服务。

经过在3D数字动画领域的⻓期积累,原⼒数字科技从2016年起,便开始在诸如计算机视觉和机器学习的⾃主创新和技术研发上发⼒。在此过程中,⼀套颠覆传统流程的超写实数字⼈制作解决⽅案应运而生。不仅真正做到了替代⻓期被国外垄断的多项核⼼技术,而且还使⾼效能⽣产⾼品质超写实数字⼈成为可能。也展⽰出了⼀条将⼈⼯智能以及智能计算理论成功应⽤落地到数字⼈领域的道路。据公司CEO赵锐介绍,原力的目标就是在高端数字人的领域完全使用自研的科技,他坚信中国的技术一定可以超越国外。当记者问到,能否做出「老黄」那种质量的数字人的时候,他给我们展现了一段原力自己数字人的视频。

技术者,更是创作者


还记得,开头曾提到和周董同台演出的虚拟人吗?她就是中国移动的橙络络,一个来自2070年的AI元气美少女。作为动感地带全新品牌代言人的她,一出道便引发了全网热潮。据统计,她在咪咕汇年度盛典的首秀全网总播放量累计高达6.1亿,斩获11个热搜,关键词冲榜TOP 1。

橙络络的大获成功,背后离不开原力对其进行原创数字人IP的内容创制及深度的运营。原力VP,负责数字人运营业务的张苏粤介绍道:

我们坚信唯有「创意+技术」的双向赋能,才能为品牌更好地触达年轻用户服务。而我们所能提供的,正是数字人IP创制及运营的「一站式」解决方案。结合多年来为影视及游戏项目提供高端创制服务的经验,又基于公司自研的领先数字人技术,我们研发出一套以数字人IP为核心、兼顾原创性及品牌向复合诉求的全流程创制体系。


那具体是一套怎样的流程呢?首先需要做充分的市场调研,搞清楚「新时代人群最喜爱/最期待的形象是什么样的」。

其后,基于此展开对虚拟人物和故事内容的文本设定,用更直白的话说,便是为其赋予更真实的生命。这其中就包括了世界观搭建、人物小传开发、核心概念策划,以及故事总纲分纲的撰写等非常专业的内容创制环节。例如,根据广泛的深度调研以及B站用户反馈,将橙络络设定为来自未来2070年的AI人工智能少女,同时具备瞬时传输、全息场景生成功能、以及超级脑存储功能等与品牌结合度更高的设定。有了丰富准确的人物设定后,艺术家便可以开始非常关键的原画美术设计。再之后便是前文介绍的数字人CG资产制作、绑定、动作捕捉和训练。值得一提的是,原力这套新体系的最大特别之处在于:它不仅具备了更强的定制化内容策划及制作能力,能够与品牌伙伴一道,为数字人IP共创出新鲜有趣、充满科技感、又能获得特定受众喜爱的平面及视频内容,而且根据品牌的整体策略为该内容定制各个社会化媒体平台的投放及运营策略。可以看到,原力所展现出强大的虚拟直播以及大型现场XR表演的全流程制作及发布能力,橙络络与周董的首秀合作舞台便是最佳例证。

而开头我们提到的元宇宙新生代歌手李叙白,他的创制也同样由上面所提到的全流程体系所悉心打造。后续,还有两支精彩视频将在本月内发布,相信能够再度惊艳行业同仁。

张苏粤表示,「根植于公司强大技术力的全流程创制体系,使我们在行业中独树一帜,让我们逐步建立起了团队独特的品牌和定位——为品牌打造全方位数字人IP资产,全面赋能品牌的创新营销策略。」公司CEO赵锐补充说,「自研技术能为内容的传播提供更多支持,反之,优秀的内容创作还能反哺技术研发。」原力作为国内最大的3D数字内容服务提供商,2200多名员⼯每天都在⽣产和制作⼤量的3D数据。这些海量数据也成为原力在数字人领域能在技术和内容上都独树一帜的基础,数据促进技术的提升,新的技术也反哺了内容的创制。这恰恰印证了,原力数字科技不仅是技术者,更是内容创作者。未来,期待原力能够在技术和内容创作上继续大放异彩,带来更多亮眼的产品。