未来媒体访谈×童欣:3D视频系统,轻松与朋友在线“确认眼神”

  在万物互联的5G时代,媒体智能化已经成为不可阻挡的趋势和发展方向。人工智能技术与媒体如何融合?智能化会带来哪些媒体伦理问题?进入智能时代,媒体如何做好社会的“瞭望者”?新浪新闻、封面新闻联合推出《未来媒体访谈》节目智能媒体专题,探讨与智能媒体相关的问题。

  童欣,现任微软亚洲研究院首席研究员,网络图形组研究主管。童欣博士主要的研究方向为计算机图形学和计算机视觉。他于1993年毕业于浙江大学计算机系,获工学学士学位;1996年获浙江大学计算机系硕士学位;1999年获清华大学计算机系博士学位,同年加入微软亚洲研究院。

  以下为访谈实录:

  主持人: Hello大家好,这里是由新浪新闻封面新闻共同推出的未来媒体访谈节目,细致入微的表情变化,自然的肌肤纹理没有一丝一毫的违和感。如果我不告诉您,您能看得出刚刚这几位参与者其实他们不在一个办公环境吗?这就是由微软亚洲研究院研究的其中项目之一。3D视频会议系统,今天我们也非常荣幸的邀请到了微软亚洲研究院首席研究员童欣博士来给我们聊一聊,在线会议的未来—3D视频会议系统。童老师好!

  童欣: 主持人好。

  主持人: 刚刚我们从小片里比较粗略的了解到了,3D视频会议系统它到底这个作用是什么,那么我们这里有一个很尖锐的问题了,在线视频会议其实已经不是一个新鲜的事物了,很多工作软件都带有在线视频会议的系统,那么我们想问的是微软的3D视频会议系统和刚刚我提到的这些有什么样的区别?

  童欣: 谢谢您,您问了一个特别好的问题,我想您看到的所有的视频会议无处不在的事情,也告诉我们说,大家有很强的在远程不同的人之间进行会议进行沟通的需求。

  那么我想大家看到目前的会议系统的时候,一方面它给大家提供了很多便利,但如果我们去和我们两个人或者多个人真正在同一个环境中,比如我们现在在一个房间中开会的时候,大家还能看到一些区别,比如最简单的今天我们两个人坐在这里,我们可以有很自然的眼神交流对吧?我可以看到你很真实的所有身体的动作等等这些东西。

  那么在多个人的交流环境中,大家如何切换话题,谁应该讲话,在一个自然的环境中共同的环境中,我们都很容易做到。但大家如果想一想,在远程的会议系统中或者视频会议系统中,目前都是非常难以做到的,那我们做这个3D会议系统,我们最终想达到的一个目标就是希望我们创建一个这样的计算机环境,让大家在做会议的时候,感觉自己就像在同一个环境中开会一样自然,同时为了达到这样一个目标,我们也希望我们的设备足够的简单,然后通过一套设备的设置能够实现不同的会议场景,比如像我们这样的对谈多人的会议,或者是大家一起工作的时候,我们叫做双边的一个大家一边看着眼前的屏幕一边交互的这样一个场景。

  主持人: 您跟我解释了以后我大概就明白了,比如说我们电话会议是1.0版本,普通的在线视频会议是2.0版本,那么微软研究出来的3D在线视频就是3.0版本,如果我们达到了3.0版本的话,这个门槛是不是很高?

  童欣:谢谢,我觉得可以叫做一个3.0版本,但同时就是说要达到一个我们说远程的非常逼真的体现这个人的所有的外观动作这样一件事情,其实一直是计算机图形学和计算机视觉的一个挑战。

  为了做到这件事情,我们有三个需求,第一个需求叫我们讲到的我们需要高保真,因为我们人在日常生活中和人交互的时候和人交流的时候,我们对人脸上的所有细微的表情,他的动作什么是真什么是假,我们有非常高的严苛的标准在我们的意识里,这是第一件事情,所以我们要必须做到能够再现他所有细微的表情动作等等这些事情。

  第二件事情我们讲到了我们是一个实时会议系统,所以所有的东西我们希望能够达到实时的需求,所有的东西必须实时的呈现给对方,对方的反馈实时呈现给我,我们才能做很好的沟通,这是第二件事情。第三件事情我们讲到了,为了实现这个目标,我们也希望我们所有的设备和捕捉手段足够的便宜,足够的方便,那么可以说在三个需求要同时达到,一直是一件非常难的事情。

  在过去几十年的图形学和视觉的研究中,大家研发了很多的技术,比如说我们在影视业中,通过非实时的大量是手工的手段,我们已经实现了可以说和真人没有差别的这样一个绘制,对吧?但是它没法实时,在游戏中我们可以做到实时,但是这个形象还达不到完全逼真对吧?在视觉中我们有一些捕捉手段,通过一些其他手段,我们可以捕捉非常逼真的人,甚至做到实时,但是它的捕捉的整个设施是非常昂贵的,所以现在我们就需要有这些三个方面同时做了突破之后,我们才能实现现在的这样一个会议的成绩。

  主持人: 我曾经在2012年看过一个报道,当时微软就说我们已经开始开发3D视频会议的系统,那么现在是2022年10年磨一剑,那么像您说的基于当时对于图形图像的研究,还没有办法实现这样的一个设想,那么所以 Virtual Cube是如何实现的?

    童欣: 就像您刚才讲到的一样,3D会议视频系统实际上在视频会议系统刚刚开始的时候,不论是心理学家还是我们的计算机视觉计算机图形学研究人员,就一直以此为目标,这也是微软一直在这方面投入了很多的精力做研究,包括您看到的2012年的这个Viewport这个系统,还有我们后来做的Holoportation都是朝着这个目标前进的,那么到现在为止,我们为了做现在这个系统我们和已有的系统有什么样的突破呢?在我们的这种系统中,我们有两个关键的技术,我们把它叫做V-Cube Assembly就是组合和一个V-Cube View的算法,一个绘制的算法。

  我们先来讲第一件事情,我们刚才讲到了说我们希望每一个人在一个标准设置中,我们能够实现所有不同的会议场景,这里面一个关键技术,我们意识到说我们需要把每一个人他的所在的空间位置和一个虚拟环境的空间位置做到一个很好的映射,有了这个映射之后,我们就意识到我们可以把空间中不同地方的人通过拍摄的视频三维视频映射到一个共享的虚拟空间中,那么他们在虚拟空间中的互相的位置关系和我们真实我们想模拟的物理位置关系是完全一致的。

  在这个情况下,我们通过不同的映射的改变,我们就可以实现不同的会议场景,这是一个关键技术。在这个关键技术下有了以后,那么可以想象到为了我们实现不同的会议者互相之间的沟通,我们就需要从不同的视角让每一个人看这个人都非常的逼真。

  这里我们实现需要一个叫3D View的技术。就是说我要显示这个视频,能够自由的切换我们的视点,从各个视点看起来都是非常逼真的。在这个方面我们要研发的技术,我们利用了传统的一些算法的基础思想,结合我们目前最先进的计算机视觉的技术,以及我们的深度学习的技术一起工作,那么实现了这样一个实时的算法,和已有的算法相比,在保证实时的前提下,很大程度上提高了整个绘制质量,那么实现了现在的效果。

  主持人: 在这10年计算机图形学这个领域,它还有哪些研究发展帮助了这一设想的实现呢?

  童欣:我们可以说在过去的几年中,我们把进展我们叫做一个智能图形学的发展,什么意思?就是说在传统中我们已经有了一些手段,这些手段通过我们的一些软件,结合艺术家大量的手工工作,我们是可以产生高质量内容的但在过去的几年中我们也参与其中的,我把它叫做一个智能图形学的研发的趋势,是说我们结合现在大家在硬件上做的大量的设备,比如说我们的普通的彩色摄像头,我们的深度摄像头这样的设备,结合我们大量的已有的大量的高质量的数据,和我们的一些深度学习或者机器学习的算法一起工作,那么方便每一个普通的用户能够产生大量的高质量的内容,自动的产生低成本的产生。

  这些技术的发展实际上或多或少都对我们整个最后Virtual Cube所用到的技术有所助益。

  主持人: 3D在线视频会议系统除了让我们有一种在线的交流感,有一种我们在场一对一交流的这种沉浸感,除了这样的应用还能应用在哪些方面?

  童欣: 其实我觉得交流这个事情或者叫会议这个事情呢,实际上是一个无所不在的场景,如果大家有兴趣的话,你用任何的搜索引擎在互联网上去搜索会议的图片,大家会发现一个非常有趣的现象,就是你会找到各种各样的场景,远远超出你的想象,除了大家正襟危坐坐在会议室的场景,那么包括两个人坐在屋子里一边喝咖啡一边聊天,它也是一种会议的场景。

  所以我觉得可能对我们Virtual Cube来讲,一个最重要的应用来说,就是提供给大家一个我们叫做泛在的或者无所不在的非常自然的一个互相沟通远程沟通的场景,这是我们的一个目标。那么再往后面一步说,为了达到这个目标所研发的技术,比如我们的捕捉设备的技术,包括我们绘制的技术,我相信对其他的内容生产,比如说我们的视频产生,高质量逼真的这个人,不论是用到影视中还是用在游戏中,我相信这个对他们都会有所助益,将来也都会推动这些技术和这些应用的发展。

  主持人: 我们通常说一个设备被广泛的应用,甚至普及的一个前提就是说成本的控制。那么我们刚刚讲到3D视频会议系统,给我们带来一对一的这种现场交流的沉浸感,达到这样的效果,是不是它的成本是很昂贵的?

  童欣: 成本我们可以从两方面说,一方面我们在设计Virtual Cube系统中,我们很注意到的一件事情,就是我们希望在达到效果的同时,探索可能性的同时,尽量的采用我们叫做一个商用的硬件,什么意思?这样英文我们叫做off-the-shelf。所有这些硬件不是定制的,而是从市场上你就可以买到的。

  所以在我们现在的Virtual Cube的系统中,我们在捕捉方面我们用了6个微软的深度摄像头,Azure Kinect摄像头,然后同时我们在整个计算上,我们用了现在比较先进的GPU来做这件事情。

  那么我们从另一方面讲,目前的所有这些设施,大家可以说要用到马上用到每个人的普通的环境中,还是相对来说成本是较高的,但是它的好处是所有这些东西都是可以量产的,那么随着硬件生产工艺的进步,这个普及,那我相信这个成本呢会得到很大的下降,未来这条路通向说每个人都能使用的,我觉得这条路是可以预见到的。

  主持人: 我们微软的创始人比尔盖茨先生曾经公开的表示,因为疫情的发展加上现在通信设备的发展,我们有可能以后会改变工作的模式,也许有一天我们都可以到元宇宙里去开会了。我知道任何事物都有它的两面性,有它的优势就有它的劣势。那么我们3D视频会议系统有什么局限性,也可以说它的短板是什么?

  童欣: 你问了一个特别好的问题,也是一个可以是一个尖锐性的问题。我们的理解是这样的就是说实际上包括像您刚才讲的疫情也好,什么也好,或者大家的需求也好,会带来一个虚拟办公环境或者远程办公的一个流行或者变得更加重要。

  但是我们的理解其实它并不是一个替代的关系,换句话说它并不会替代以前这种物理环境中大家的工作, 因为还是在一个物理环境中,我们的人的很多的交流,他需要见到真实的人。它需要有这样一个工作环境,它的很多便利我觉得是无可替代的。所以我们的理解是说到最后实际上Virtual Cube也好,还是其他技术也好,最终都是给大家提供了更多的可能性。那么还有一些环境中,比如说我们开着车的时候,这些环境中的时候,那么我们最后认为我们最后会实现一个我们叫做混合办公环境,就是说所有的技术手段,我们给人提供所有的可能性,那么大家会根据自己所在的情境,选择一个最有效的方法和别人做最有效的交流。

  就像您刚才讲到的目前的Virtual Cube,我们专注的是提供一个高质量的沉浸式的参与感很强的这样体验。但为了实现这样的一个体验,你对设备你对这个环境可能就有一定的要求,那就像我刚才讲到的,如果一个人在开着车,怎么实现一样的环境对吧?特别是我们现在需要一个很大的屏幕,如果你就是一个手机,我可能讲我们怎么努力,可能都没法实现一个沉浸式的眼神交流这样一个体验。

  这个是它的一个限制,但我觉得任何一个技术这样的限制可能都是存在的,最终的目标是说如何把这些技术融合在一起,提供给一个大家,我们叫做无差别的或者具有包容性的解决方案来实现最有效的沟通,我觉得这可能是我们最终的一个目标。

  主持人:无论是3D的视频会议,还是这种各种跨界空间的交互办公,可以看出来我们微软一直在试图打破这种真实和虚拟的技术,再追求一个关键的元素,那就是沉浸感,我们不妨天马行空的您帮我想一想,除了办公方面的应用,还有哪些这些智能媒体大显身手的地方?

  童欣: 其实我觉得办公是一个非常重要的事情,但是就像我们讲的一个人生活我们可以分成两部分,一部分是办公,一部分是普通的生活。

  比如说我们两个老人,他们生活在两个城市中,由于各种各样的原因,他们没法互相去旅行了,那么我们也希望用这样的一个系统给他们提供一个沉浸式的非常逼真的体验。我相信对他们个人的生活质量的提高,幸福感的提高都是非常有用的。

  那么同时这些技术的发展,大家可以看到在我们的日常的娱乐中,其他的媒体中包括新闻报道中。比如说有一天也许我们真的可以用远程的方式你就可以采访我,但可能我们没办法大家坐在一个屋子里,这样我相信对其他的很多的应用,很多的我们的媒体也好,或者对生活也好,都能起到很大的作用。

  主持人: 我们上面讲到的这些三D视频会议系统都是在一个显示设备上呈现出来的,比如说大屏幕,未来计算机图形学能否结合虚拟和现实的技术,将三D这个图像直接投射在我们真实的生活里,而不仅仅是屏幕上。

  童欣: 对,影响到这样是跟显示技术的发展相关的,那么可以说显示技术,如果我们把按照显示尺寸或者方式,我们可以分成两种,一种就像我们现在用的大屏幕的这样的东西,它更多的是尺寸比较大,大家的好处就是大家不需要戴任何的眼镜。

  还有另外一个大家知道最近大家研究非常热的,我们叫做增强现实的技术,那么微软也有产品,比如我们的HoloLens这样的一个产品,它通过大家戴一个眼镜,可以把这个影像呈现在大家眼前,它的好处是随着人的走动,这个影像可以跟着人去做各种移动。

  那么物理的屏幕的缺陷是你的位置比较固定,但是另外一方面你戴着眼镜的缺陷是什么?是说眼镜带着很不方便,还有很多的限制。那么其实即使在大屏幕的呈现中,大家有投影的技术或者其他的技术来做这些事情,我的理解就是最后这些技术可能都会并存,融合在一起,最后给大家提供一个无缝的虚拟和现实完全融合的这样一个场景或者体验。

  那就像我们现在新的一代人,可能他们使用iPad使用类似这样电子产品已经司空见惯了,我的一个梦想是也许过10年下一代人对他们来说不太区分什么是现实的,什么是虚拟的,在他们来说他们出生那一天起现实和虚拟就是很自然的结合在一起的,这是我们的一个愿景。

  主持人: 您刚刚提到的智能产品,我们就说现在手机已经是人所必备的一个智能的终端,未来能不能将上述我们提到的这些技术在手机上呈现,比如说我想跟朋友分享一个我刚买的一个小物件,我给他拍一张照片发给他,他就能随意的拖拽360度的观看物件。

  童欣: 这方面的技术其实我们微软包括我们研究院,包括我们的小组在过去其实都有很多的研究,那么在最近一段时间大家可以看到我们叫做一个NERF或类似的这样的捕捉的技术,可以说进展非常的快,那么可以说在目前我的感觉就是你可以看到已经有一些比较成熟的或者说比较好的应用或者产品来帮大家做这些事情,就像您讲的一样,我通过捕捉一个360度的视频,我就可以在里面很自然的实现一些拖拽,看一些物体这样的东西。

  但是在另一方面我们的技术发展目前还有一些限制,比如说我虽然能看到这个物体了,可是我不好操作这个物体,当我把这个物体放在我的家里的时候,我希望它的光照所有体现的效果跟我的家里完全一致,这些方面还有很多的技术有待于大家进一步的提高,把它变得更鲁棒(robust)变得更通用,但是另一方面我也相信这些技术很快就会得到成熟,大家很快就能把这些技术用到自己的实际生活中。

  主持人: 您认为智能媒体和对其起到支撑帮助作用的图形学未来的发展趋势是什么?

  童欣:那么从我们角度来看,我觉得未来的图形的发展,我们把它总结为几个趋势,第一个趋势我把它叫做智能化,智能化什么意思?在过去的二三十年的图形学的发展中,我们如果和人类做一个类比的话,我说我们终于实现了农业时代,什么意思?我们发明了锄头,我们发明了镰刀,那么艺术家通过学会怎么用锄头镰刀终于能把粮食种出来了,但是普通的人你是种不出来的,那么我们认为智能提供了什么,我们通过一些人工智能的技术,我们可以说实现了一个机械化,那么我们让普通的人也能通过一些智能的技术,通过简单的交互就能把他心目中想的东西创作出来,包括您说的看到的东西能够数字化成一个三维的模型带到计算机里,这个趋势我觉得是非常明显的。在未来几年中大家能看到很多技术的突破,甚至一些实用的应用产生,我们把它叫做智能化。

  第二项我们把它叫做综合化或者叫集成化。什么意思?就是说你去看很多的东西,除了我们做游戏等等这样一个三维的形体,它其实不光光有它的三维的几何或者外观存在。我们在游戏中我们要和它交互,我们每个人这样交互,比如说刚才您讲到说我扫描了一个物体,我要各个(角度)看,但是对大家来讲,我买一个东西除了看我们还有别的需求,比如我想摸一摸它的质感是怎么样的,对吧?我想和它操作一下对吧?但说明每一个物体除了它的几何外观,还有很多的属性,比如说它的物理学的属性,它的材质是什么样的,甚至我想知道它的温度是暖的还是冷的,对吧?

  所以这些属性其实在图形学或者其他的学科中,目前都是被单独处理的,每一个学科每一个领域只负责其中一小块,那么最后如果你想得到一个统一的计算的表达,满足所有的需求,那就需要这些学科人坐在一起。那么同时通过各种技术的集成,包括打通各个领域的东西,真正提供一个我们叫做一个物体的全表达,就是它既有,它的几何属性、物理属性、材质属性、各种属性坐在一起,这个物体就真正可以做到我们在它里面可以做各种操作了。我把它叫做集成化或综合化。

  那么人工智能的技术其实对综合化也会推动它的发展,因为它们的人工智能技术大家可以看到deep learning(深度学习)的技术,它提供了一种跨领域的方法论的统一的能力,那么最后一个我们可以叫做泛带化或者叫做平民化。当这样两个技术都有了以后,那么你可以看到以前的时候图形的技术还有什么的技术,大家觉得是非常离我非常远对吧?只有专业的人拿到了,然后创造一些电影游戏,我们只是消费者,我们从来不会去创作图形内容。

  我们希望以后什么呢,我们以后希望就是说每一个无论是我们的个人想创作他脑海里想象的东西,还是我们的一个企业,他想用一些图形学的技术来模拟真实的世界来做一些预测规划的时候,这些图形的东西就能变成我们的水电一样的一个资源或者一种服务无所不在,每个人都可以经过简单的学习就能使用,能得到服务的反馈,能够在他日常的生活和他的所有的工业的应用中无所不在的起到它的作用,这是我们对未来的一个期望或者我们的一个愿景。

  栏目制片人:智惠群

  本期嘉宾:童欣 微软亚洲研究院 首席研究员

责任编辑:田甜雨