在连接虚拟和现实这件事儿里,或许大家从根儿上绕不开的是,如何将一个真实世界复刻出来,进行剖析、观察、交互、编辑、加工等等。除了摄像头或激光方式能帮我们记录物体信息以外,叠境数字想让光场技术也能起到更大的作用。
叠境数字掌握的光场技术主要是在光场采集、压缩,以及可视化方面。如果说magicleap的光场信息显示技术以及终端设备解决了向眼球输出的问题,那么叠境数字正在做的就是光场输入的事情,可以类比为拍摄、图片压缩与保真、预览,甚至还有一部分ps的功能。当然,这一切针对的都是光场信息,媒体除了图像也还包括视频,甚至是实时的视频。
叠境数字创始人虞晶怡教授向36氪介绍,最简单的光场记录方式,就可以采用相机阵列,它与单个相机的差别是,单个相机是在单个视角下采集到的画面,而相机阵列是从多个角度记录了真实物空间内所有的光线信息。当然现在也已经发展出了其他的光场采集方案,例如在单个传感器前方布置微透镜阵列也可以实现多个视角画面的采集。光场技术的最大差别是,它模拟了人眼记录光信息的方式,所以查看的时候是可以自由选择视角,并能够动态对焦的。也就是说,人们不再只能看到拍摄时环境对单一视角的投射,而能够看到各个视点方向叠加的全部图像,能大大提高观看的三维立体感。动态对焦能够通过人眼自动判断物体景深,自由选择聚焦平面,过滤背景信息。
显然,这样的信息采集方式带来了巨大的信息负载,所以光场压缩是其中非常核心的技术。其实无论是在存储传输层面的压缩以及显示保真层面的解压,光场之所以能够被压缩,是因为不同视角拍摄的画面有相当大的重叠,这种信息冗余就为压缩和复现提供了较大的优化空间。当然,叠境数字在面对这些海量图形信息时采用的是深度学习算法对画面进行自动地识别与处理。他们目前可以在高保真的前提下将2gbytes的光场信息压缩到5mbytes。最终的呈现则可以在pc上,当然在vive和hololens等设备上会更好。至于通过光纤阵列、光波导、还是可能的多层光场技术来将光场信息在设备层面输出,这可能就是magicleap要解决的问题了。
虞教授介绍,他们在具体的应用层面基本是朝着记录不同尺寸的光场来探索的。
在小尺寸层面上,最直接的应用就是物体光场信息的重建,但这又和现有的三维重建技术有所区别。目前广泛采用的三维重建技术,无论是用摄像头、结构光,或者激光方案,解决的都是三维信息,也就是几何的问题。有相关从业者向36氪介绍,目前国际上最好的技术完全足够呈现几何结构,但大家不好解决的是美感和真实度。所以在目前三维重建普遍采用的“皮包骨”方案里,在几何体上贴好还原度高又美丽的表面纹理是考验业内公司实现能力的重要指标之一,且大量公司依然是靠人工来解决贴图问题,能够实现自动化的又非常少。同时,上述各类方案在面对高反射物体时也都会比较无力,因为反射信号会对传感器造成严重干扰。
光场静态建模:手提包模型
上图是叠境科技去年为阿里做的demo,光场技术在实现静物建模时,由于原理从本质上不同,所以其实获取的就是完整的光影表现,不需要“拆骨贴皮”,拍摄现场什么样,纹理就什么样,逼真度可以保证,不会有违和感。那么美感的问题就回到了摄影师的审美能力上,如何打光,如何构图(当然是考虑各个视角的),如何布局色彩等等。又如叠境数字做的雅诗兰黛和兰蔻化妆品光场建模,这类产品的透明度、光泽感、以及反射性是挑战了三维重建里的诸多痛点,即便硬碰硬渲染出来,体验者很可能还是会在违和感上挑剔。而这些问题在光场方案里其实都从原理上就规避掉了。在模型精度上,叠境数字目前可以做到毫米甚至亚毫米量级。同时,他们也正在逐步构建基于unity和unreal引擎的光场插件和素材库。电商是其今年重点拓展应用的方向。
在大中尺度上,房间量级的应用场景最直接的就是房地产样板间。人体量级,最广泛的应用场景就是影视制作。无论是传统影视制作,还是目前的vr摄影机,都是基于观察者(摄影机)的单一位置,提供了局限视角或360度视角。当然光场技术依然可以记录整个空间的光信息,体验者可以在空间内漫游。叠境数字在2016年12月参与制作了财新峰会的光场视频制作,还参与录制了美国茱莉亚音乐学院的世界巡回音乐会。但是目前,他们的技术还无法像微软的holoportation技术一样进行实时直播。据虞晶怡教授介绍,微软在实时传输上走在了领先的位置,这套技术中基于其开发的kinect原理的信号采集设备还是一个主动光方案,具体而言也是结构光方案。各类传感器分别记录rgb平面信息,深度信息以及运动信息,整合在一起进行重建,优势是信息量大大减少,挑战依然还是各种信息整合重建非常考验实现能力。而叠境数字的光场记录方式从分类上是被动光,在视频精细度和效果上能大幅度提高真实感,但压缩是其需要解决的一个核心问题。今年包括mpeg标准组织等机构已经开始尝试各种方案,而叠境自己也在积极开发基于计算机视觉和深度学习的压缩方案。
目前有能力开发光场技术的公司还非常少。这一领域的开山级论文作者renng创办了红极一时的广场相机公司lytro,但这一c端消费品并没有走太远,据称renng已经回归了伯克利学界,而lytro也转型开始做b端的光场拍摄方案,2017年初获得6000万美元d轮融资,由蓝池资本领投。
同样在光场视频方面解决的较好的公司是otoy,他们通过“类似焦点渲染”的算法,仅呈现观众下一秒要看到内容的光场信息。这样的做法可以使得单个演员的流媒体数据传输速度达到1.5m/s。想要实现这样的做法,需要拍摄者,甚至导演对内容有很强的把控力,能够带领观众探索设定好的剧情,或者需要内容开发者在剧情关键线索上做出较强引导。(当然这又是探索vr拍摄的一段很长的故事了。)otoy在2016年4月获得了3亿美元的投资,估值超过10亿,hbo领投,discovery跟投。
另外,新西兰公司8i也是在这一方向重点做人物级成像技术。8i公司a轮获得了foundersfund领投,维港投资跟投的1350万美元。2017年初,该公司获得了时代华纳投资领投,百度风投、hearstventures、verizonventures、oneventures、seen&speedventures等跟投的2700万美元b轮投资。
叠境数字创始人虞晶怡是上海科技大学正教授,美国特拉华大学计算机与信息科学系正教授。曾在2000年获美国加州理工大学应用数学及计算机学士学位,2003年获美国麻省理工大学计算机与电子工程硕士学位,2005年获美国麻省理工大学计算机与电子工程博士学位。长期从事包括计算机视觉,计算机成像,视频监控,非常规成像系统等领域研究。已经发表近90篇文章,其中40多篇在顶级会议cvpr/iccv/eccv;已获得美国发明专利10项,并于2008和2009年分别获得美国国家科学基金的杰出青年奖和美国空军研究院的杰出青年奖。团队ctojasonyang也是麻省理工大学计算机与电子工程博士,曾任amd技术总监,在图形学渲染方面有多年的研发经验。团队人工智能技术负责人马毅博士曾任微软首席研究员,也是去年该领域文献引用率最高的华人学者。
叠境数字在2016年获得了上海联合投资的4500万元天使投资,估值1.2亿元。目前该公司正在展开下一轮融资。