吴文俊人工智能科学技术奖
FRONTAL OBSERVATION
前沿观察

赵沁平院士 | 虚拟现实技术研究进展

2016年11月09日    来源:中国人工智能学会     
1161
[导读] 本文分析了虚拟现实VR的发展过程、基本特点和主要应用,从VR设备、VR内容、VR交互3个方面概述了VR当前的主要研究目标和研究成果,探讨了VR 进一步研究的技术方向。

  虚拟现实(virtual reality,VR)是以计算机技术为核心,生成与一定范围真实环境在视听触感等方面近似的数字化环境它是人类在探索自然认识自然过程中创造产生逐步形成的一种用于认识自然模拟自然,进而更好地适应和利用自然的科学方法和技术[1]用户借助必要的装备与其进行交互,可获得如临其境的感受和体验VR涉及心理学控制学计算机图形学计算机图像处理计算机视觉数据库设计实时分布系统电子学和多媒体等多个学科,具有较强的学科综合性和交叉性,已成为科学技术探索过程中除理论研究科学实验之外的第3种手段。

  由于VR的综合性和不可替代性,世界各国均重视VR 技术的战略研究美国工程院2008年公布了经评选产生的21世纪人类在工程技术领域所面临的14个重大挑战性问题,其中2个重要问题与VR 技术密切相关英国2006 年12 月发布了20152020 年8个新兴科学技术集群的战略报告,其中6个涉及VR的研究内容日本政府2007年5月发布了创新2025长期战略报告,其中第5方面指出了VR对未来的重要性澳大利亚政府投入11亿澳元的超级科学计划涵盖了3大优先领域的科研基础设施建设,其中信息通信技术领域的主要发展方向涉及VR研究中国2006年颁布的国家中长期科技规划纲要(20062020)也将VR列为信息领域优先支持的3个方向之一。

1
VR 发展过程基本特点及主要应用

  1) VR 产生与发展现状

  VR从产生萌芽,到形成思想,再到独立发展,先后经历了以下主要阶段。

  第一阶段集中在20世纪5060年代,主要代表包括1956 年Morton Heileg 开发的摩托车模拟器Sensorama1965年Ivan Sutherland提出的终极显示(ultimate display)概念[2]等由于受计算机技术本身发展的限制,这一阶段VR 技术发展不是很快,处于思想概念和技术的酝酿形成阶段。

  第二阶段发源于20世纪80年代,主要代表包括1983 年美国DARPA(Defense Advanced Research Projects Agency)的SIMNET 计划2002 年NVIDIA和ATI等公司推出图形处理器GPU单元等该阶段VR 进入快速发展期,VR主要研究内容及基本特征初步明朗,在军事演练航空航天复杂设备研制等重要应用领域产生了典型应用。

  中国科研人员自20世纪90年代开始对VR进行研究,其中有一批重点实验室长期开展基础研究,如北京航空航天大学虚拟现实技术与系统国家重点实验室浙江大学计算机辅助设计与图形学国家重点实验室北京理工大学光电学院研究团队中国科学院计算技术研究所清华大学中国科学技术大学及中国人民大学等十二五期间,科技部设置了虚拟现实与数字媒体主题,科技部和国家自然科学基金从VR 显示VR 内容感知VR 内容智能处理VR内容生成VR内容呈现VR交互等方面,部署了多项国家重点基础研究发展计划(973计划)项目国家高新技术研究发展计划(863 计划)项目和重大项目。

  目前,计算机技术得到了高速发展,互联网移动终端等改变了人类生活工作的方式,VR正处于第三阶段前期该阶段的标志性事件是2014 年Oculus Rift 头盔显示器的研制以及Facebook以20亿美元收购Oculus这一阶段VR 研究和应用向高端和民用两个方向拓展,特别是在民用领域得到极大发展,VR技术开始普及化和商业化为促进VR产学研用等协同发展,2015年12月成立了中国虚拟现实与可视化产业技术创新战略联盟自2016年起,江西南昌山东青岛福建福州等政府部门,均开始筹备VR产业基地VR研发热潮正在兴起,2016年更被称为VR元年。

  2) VR 的基本特点

  VR 典型的特征被概括为3I,即沉浸感(immersion)交互性(interaction)和构想性(imagination)其中沉浸感是指虚拟环境欺骗人体视觉听觉嗅觉味觉触觉等多种感官,给参与者带来临场感;交互性是指在虚拟环境中提供参与者适人性化的人机操作界面和自然反馈;构想性是指通过沉浸感和交互性,使参与者随着环境状态和交互行为的变化而对未来产生构想,增强创想能力近年来,随着大数据和互联网等研究和应用的兴起,利用对图像视频行业大数据的分析和学习以高效建模成为热点,提升虚拟环境的自适应性日益受到关注,智能化(intelligence)成为新时期VR研究与应用的重要特征。

  3) VR 的主要应用

  VR从产生之初就受到许多行业的高度关注,特别是需要消耗大量人财物以及具有危险性的应用领域例如,在军事航空航天等领域研制了分布式虚拟战场环境和哈勃望远镜的维修训练系统等,并取得令人瞩目的成功除上述领域外,VR被广泛应用于公共安全工业设计医学规划交通和文化教育等行业和部门[3],开发了多种类型的应用系统,产生了巨大的经济和社会效益

  互联网在不断的发展过程中,与电子政务电子商务行业信息化深度融合,产生了互联网+,在促进应用发展的同时,对自身技术也产生了需求与互联网+一样,VR也是各行业都可以采用并助力自身发展的一项重要技术,VR+X(应用领域)成为一种新的发展趋势,VR 进入了+时代目前VR 技术也在融入互联网,形成互联网+VR的模式。

2
VR 主要技术方向

  1) VR 硬件

  VR硬件包括显示设备力触觉交互设备专用芯片等。

  VR显示设备直接影响了用户对于虚拟环境的感受目前主要的VR 显示设备有头盔显示器3D立体眼镜真三维显示全息和环幕等头盔显示器(head-mounted display,HMD)是VR中最典型的显示设备[4]一般而言,HMD上均安装有头部运动跟踪装置用户佩戴上HMD 后,在其头部运动时,HMD可以计算出对应于用户当前姿态的虚拟对象的位姿并将其显示在HMD的屏幕上HMD 的近期典型代表包括:1)谷歌于2014年6月推出的纸壳式眼镜Cardboard这类设备内部没有计算平台和显示屏,使用时可将智能手机放入镜片后的托盘中,通过一对凸透镜将手机画面传送至双眼以提供三维观看效果,并通过手机内置螺旋仪检测头部转动以改变显示内容此类设备成本低但效果一般2)三星和OculusVR 于2014 年9 月联手设计的Gear VR该类产品的内容输出和算法平台还是智能手机,但产品本身也内置了动作传感器,可以更精确地感知头部转动,因而比VR 眼镜的沉浸感更强3)Oculus Rift和HTC Vive等设备将电脑作为主要的VR 内容运行和计算平台,可以实现六自由度的运动交互,沉浸体验大幅度提升,Sony Project Morpheus 则是以索尼PlayStation 为运行和计算平台4)一体机头盔是传统的VR显示设备,集成了显示计算存储交互等所有模块,其性能高,但体积大,价格偏高,典型代表是微软的HoloLens。

  VR力触觉交互设备能够使参与者在虚拟环境中实现触觉和力感等视觉听觉之外的感觉,目前的研究还处于初级阶段东京大学研制出一种能像人类皮肤一样,感测出施加在表面上的力的大小和方向的新型传感器,据此可以开发出具有接近人类力觉的机器人手2009年芬兰的Linjama等2010年美国迪斯尼研究中心的Bau等2012年NOKIA 实验室与剑桥大学等,分别利用静电力反馈研制出E- SenseTeslaTouchET 等表面触觉反馈系统,能在触摸显示屏幕表面实现触觉纹理的再现2013 年美国西北大学的Colgate 等研制了便携触觉再现终端TPaD Fire,在配备6500 mA·h 的电池情况下可连续工作超过5 h[5]。

  此外,VR芯片平台已经成为国际著名芯片厂商的抢占热点例如,AMD 的图形芯片部门Radeon Technologies Group 于2015年9月推出虚拟现实解决方案LiquidVR,它包含数据锁定异步着色引擎多GPU异步渲染等新功能,能够以更低的延迟实现更优质的画面,以提升VR 沉浸体验NVIDIA于2015年11月发布了两款虚拟现实开发工具,包括面向游戏开发人员的Gameworks VR和面向设计人员的DesignWorks VR这些工具可以加快立体渲染性能高通于2015年12月发布了首款64 位四核CPU Snapdragon 820,其内部集成了新一代GPUAdreno 530,能够实时呈现立体摄像机拍摄的高清视频,可以促进头盔显示器等VR设备沉浸感体验的进一步提升。

  2) VR 内容

  VR需要处理的数字化内容类型众多,按照不同处理阶段,可以划分为获取理解建模呈现4个方面:

  (1) 获取

  VR内容的几何属性获取主要通过光学和立体视觉的方法近期典型的光学方式是TOF(time-of-flight),其原理是依靠主动光照射到采集对象上,按照返回光线的先后顺序来测量对象的深度信息该方法采集到的三维数据精度低,但是设备轻便便宜立体视差法是被动式方法的代表,根据三角测量原理,利用对应点的视差可以计算视野范围内的立体信息这种方法模拟人的视觉方式,以2部位于不同位置的相机对同一目标拍摄2幅图像,得到一组像对对于目标上的一个采样点,根据它在2幅图像中的像点和相机位置,计算它们的交会点坐标,就是采样点的空间坐标立体视觉方法在无明显纹理或者重复性纹理的场景下,由于很难找到像对,具有较大的技术难度。

  在表面属性获取主要通过不同光照和视点条件的图像获取物体表面属性,例如美国麻省理工大学和哥伦比亚大学的4D camera它将场景的光线和物体进行分离,这样捕获的物体就是一个裸物体,不受捕获时的光线影响目前主要研究难点和热点在于动态物体或半透明物的表面属性获取[6]。

  在人体运动捕捉方面,较为成熟的技术多基于电动机械电磁和特殊光学标志等,其中基于标志的系统(如ViconMX等)得到了普遍的应用,能获取精确的运动数据,但价格昂贵近年来随着廉价数字摄像机低成本体感传感器的普及,基于视频及少量传感器的无标志人体运动捕捉越来越成为研究热点。

  (2) 分析

  图像视频在人类所涉及的数据信息中所占比例越来越大,如何进行图像视频的语义分析与利用是重要的前沿问题目前的研究主要包括视觉认知计算模型特征的提取与表示特征的融合与处理特征与语义的关联等但是,底层描述与高层语义之间不是简单的对应关系,具有语义的中高层特征至关重要,语义鸿沟依然是当前的研究难点语音分析识别技术是让机器把语音转变为相应的文本或命令的技术,而且不同语种之间的语音-语音翻译将成为研究热点在文本语义分析利用方面,分词检索等已经达到可用,翻译问答需求大,通用高质量的自然语言处理系统仍然是长期目标。

  随着深度学习增强学习自主学习群智学习等方法技术的发展,这些技术往往与人类大脑在结构和机理等方面具有相似性基于这些技术,近年来对文本图像视频音频三维模型等素材的分析与理解取得了较大进步,例如无监督条件下图像视频的语义分割与理解[7]基于深度学习的三维模型部件级语义分割与理解[8]等,特别是在物体识别等部分领域已经达到甚至超过了人类的表现随着计算机对图像音频视频等素材的分析能力的提升,根据用户的个性化需求,自动大规模建模生产在视听力触体味等方面与真实世界类似的VR内容,已经不再是天方夜谭。

  (3) 建模

  VR内容的几何外形构建技术已较为成熟,数据驱动的三维构建与生成已经成为当前的研究热点,例如特征结构保持的三维模型编辑传播[9]图像数据驱动的人体服装与室内三维场景演化生成[10,11]等光场构建在动态环境和半透明物体等方面仍需要大量的进一步研究[12,13]伴随着多核CPU 和GPGPU的发展,基于物理的自动化模拟正朝着更大规模更多细节的实时模拟方面发展,已成为交互式VR技术的重要研究方向角色肢体动作智能化生成人脸动态表情识别与构建虚拟角色智能行为等智能化建模技术,涉及自动控制人工智能生物力学解剖学等交叉学科,得到了国内外的广泛关注与研究[14]。

  目前VR 主要集中在虚拟环境与对象的固定拓扑几何建模和动力学物理建模如何建立其可变拓扑几何模型和更为全面的物理模型,甚至建立可自我演化具备一定生命力的智能模型,使得VR系统不仅在视觉上有更全面的逼真表达,而且在功能和环境/事件的动态演化活体对象行为的智能化方面也有较为逼真的体现,是未来VR技术必须解决的关键问题此外,现实世界包含了复杂动态多源海量的数据如何高效采集这些数据并对其进行自动化分析实时建模,使VR 系统能真实表达瞬息万变的现实世界,与现实世界同步发展,是一个智能化建模问题,也是未来VR需要解决的另外一个关键问题。

  (4) 呈现

  随着三维信息数据量的不断增加,海量数据的逼真实时绘制技术成为重要研究方向,外存模型的组织与处理并行绘制和GPU计算等成为研究的关注点在普适硬件平台上展示超大规模复杂场景,特别是对具有逼真效果的场景多种内容融合等仍是研究难点。

  此外,增强现实(augmented reality,AR)是将计算机产生的虚拟对象融合到用户所观察的真实环境中,以拓展和增强用户对周围世界的感知能力[15]与VR相比,AR与真实世界的联系并未切断,交互方式更加自然事实上,将现实物理世界和虚拟世界实时合并混合,形成新的能够实时互动的可视环境,统称为混合现实(mixed
reality,MR)AR是MR一种典型代表三维跟踪定位[16]是实现AR 的主要技术保证,尤其是高精度无标志物跟踪定位更是研究中的难点英国牛津大学采用SLAM技术结合并行运算实现了小范围未知场景下的实时跟踪定位;剑桥大学利用惯性传感器与视觉测量相融合的技术实现了户外场景(校园范围)的实时无标识跟踪定位;美国斯坦福大学利用GPS进行初始定位,结合图像快速检索技术,在手机上初步实现了户外增强现实导航功能;奥地利Graze University of Technology 用FAST 算子代替SIFT
特征提取算子,同时改进Ferns识别分类算法中树簇的大小,在手机上实现了10帧/s左右的无标识跟踪定位。

  3) VR 交互

  VR交互重点研究符合人类习惯的交互技术,以提高人对复杂信息的认知能力传统人机交互主要通过鼠标键盘及操纵杆等设备实现多通道交互方式是以用户为中心,采用视觉语音姿势表情等多通道,实现高效的人机交互。

  智能语音交互技术包括语音识别语音合成和语义理解语音识别技术将用户输入的语音转化为相应的文本或命令,语音合成技术将文本转换成机器合成的语音,语义理解技术从语音识别输出的文本中获取语义信息从而理解用户的意图2011 年,微软研究院通过引入深度神经网络,使得在特定语料库上的语音识别准确率得到了大幅提高,性能改善30%左右近年来,基于数据库的语音合成方法成为研究热点,该方法的语音基元来自一个预先录下的庞大的语音数据库,合成语句的清晰度和自然度均有较大程度提高。

  体感交互利用深度相机等对用户手和身体的运动进行跟踪,完成自然的人机交互利用体感交互技术,人们可以很直接地使用肢体动作与周边装置或环境互动2010年索尼推出新一代体感设备PlayStation Move,该设备不仅会辨识上下左右的动作,还会感应手腕的角度变化,无论是运动般的快速活动还是用笔绘画般纤细的动作都能重现同年,微软也发表了全新体感设备Kinect,该设备同时使用激光和可见光摄像头来获取人体影像信息,捕捉人体3D全身影像,不受任何灯光环境限制,无需使用任何体感手柄,便可达到体感的效果[17]2014年5月,美国Leap公司推出了一套体感运动控制系统Leap Motion,该系统可以追踪多个物体并识别手势,能够追踪到几毫米范围的动作,例如用户写字或画画等精准动作。

  脑机接口技术的主要研究途径是通过在人脑(或动物脑)与外部设备间建立直接连接通道,使人直接通过脑来表达想法或操纵设备脑机接口系统一般包括信号采集与记录数据处理外设与接口等部分其中,信号采集与记录部分利用电极采集使用者的脑电信号,并对信号进行放大和滤波;数据处理部分利用特征提取特征选择分类等,对脑电信号进行分类识别;外设与接口部分通过控制接口将逻辑控制信号转换成语义控制信号,通过设备控制器将语义控制信号转换成设备控制信号,通过显示装置产生执行思维任务的指示目前绝大部分脑机接口研究仍处于实验室研究阶段,还有许多需要解决的问题。

  眼动跟踪技术主要用于测量用户注视点或视线方向,可以作为一种替代鼠标和键盘的新型交互方式,例如Dasher 眼控打字系统等2013 年初,韩国三星公司推出了基于这种思想的新型Galaxy S4智能手机,新增基于眼凝视追踪功能的眼控滚动功能,主要应用于网页浏览和电子书阅读等。

3
VR 主要发展趋势

  新一代VR在建模与绘制方法交互方式和系统构建方法等方面都提出了更高的需求为了满足这些需求,近年来VR研究也取得了快速发展,表现出了一些新的特点和发展趋势有关学者对这些特点进行总结,归纳为以下7个方面。

  1)人机交互的适人化构建适人化的和谐虚拟环境是VR的目标实际上,头盔等设备虽然能够增强沉浸感,但在实际应用中效果并不好,并未达到沉浸交互的目的采用人最为自然的视觉听觉触觉自然语言等作为交互方式,会很好地提高VR的交互性。

  2)计算平台的普适化随着计算机技术的发展,计算已经无处不在,计算平台也发展为多种类型,从高端的大型机桌面PC,发展到低端的各种手持式计算设备在VR系统中加入这类设备并结合无线网络,能较好地满足实际使用中便携和移动的要求。

  3)虚实场景的融合化VR将现实环境的要素进行抽象,通过逼真绘制方法进行表现,但毕竟无法完全还原真实世界,因此将真实世界与虚拟世界有效融合具有研究和实际意义,AR就是这样一种技术AR作为VR 的一个重要分支,不仅继承了VR的特点,而且其对真实场景的增强效果,在某些应用领域逐渐显示出比VR更明显的优势。

  4) 场景数据的规模化数据的规模化是大型VR应用的显著特点通常而言,VR系统数据的规模化包括两方面的含义,一方面是分布式VR 系统中节点和实体数量的规模化,另一方面是建模与绘制过程中场景几何数据的规模化规模化的数据即使在高端计算平台上也是需要研究的问题,而且智能化分析与处理也日益成为关注的问题。

  5)环境信息的综合化传统的VR 系统对自然环境的建模往往仅考虑地形几何数据,对大气电磁等环境信息采用简化方式处理为了更真实表现环境效果,需要考虑不同类型的数据,如地理大气海洋空间电磁生化等,并用不同的表现方式进行表现。

  6)传输协议的标准化在构建分布式VR系统的过程中,网络协议是研究与应用的一项重要内容已有的对应国际标准均是基于专用的网络环境,所制定的传输协议也都是基于专用网络环境和资源预先分配这两大前提随着在Internet上VR应用的开展,基于公网的标准化工作将得到更深入的研究和普及。

  7) 领域模型的集成化分布式VR 系统中各节点的软件需要根据具体的应用需求来研制,软件开发与维护工作量大随着虚拟样机体系模拟等的发展,需要快速根据应用的变化对各个分系统进行定制因此,需要研究VR 系统的节点软件设计开发技术,使之能够满足快速适应应用的需要,同时减少开发与维护的工作量。

4
结论

  经过近60年的发展,VR的基本概念和基本实现方法已经初步形成,并取得了很多较好的应用成果,但要真正实现一个高度逼真自然可交互可进行大众化推广应用的VR系统,仍面临很多基本的理论与技术挑战目前VR领域的重要技术问题包括:VR环境的智能程度较低;用户可交互可操作的功能有限;虚拟和真实世界的融合繁琐低效;对象演化模式缺乏生命力;虚拟环境呈现的整体沉浸感不足此外,目前VR内容比较稀缺,形式较为单一,难以满足行业领域对VR内容大众化个性化生产的迫切需求因此,一方面需要加强研制具有较高智能化程度的生产工具,另一方面需要加强培养VR专业人才。

  参考文献(References)

  [1]Zhao Q P. 10 Scientific problems in virtual reality[J]. Communications of theACM, 2011, 54(2): 116-118.

  [2]Sutherland E I. The ultimate display[C]//Proceedings of the International Federation of Information Processing Congress. New York: IFIP, 1965, 65(2):506-508.

  [3]Steed A, Friston S, Lopez M M, et al. An "In the Wild"experiment onpresence and embodiment using consumer virtual reality quipment[J]. IEEE Transactionson Visualization and Computer Graphics, 2016, 22(4): 1406-1414.

  [4]Hoskinson R, Naugle E. A Mobile head-mounted display for actionsports[C]//Proceedings of Third FTRA International Conference on
Mobile,Ubiquitous,and Intelligent Computing (MUSIC). Vancouver, BC: IEEE, 2012:
1-4.

  [5]Marchuk D N, Colgate J E, Peshkin M. Friction Measurements on a large areaTPaD[C]//Proceedings of IEEE Haptics Symposium. Waltham: IEEE, 2010:317-320.

  [6]Damghanian M, Olsson R, Sjöström M. Performance analysis in Lytro camera:Empirical and model based approaches to assess refocusing
quality[C]//IEEEInternational Conference on Acoustics,Speech and Signal Processing(ICASSP).Florence: IEEE, 2014: 559-563.

  [7]Zhang Y, Chen X W, Li J, et al. Semantic object segmentation via detection inweakly labeled video[C]//Proceedings ofIEEE Conference on Computer Vision andPattern Recognition. Boston: IEEE, 2015: 3641-3649.

  [8]Guo K, Zou D Q, Chen X W. 3D Mesh labeling via deep convolutional neuralnetworks[J]. ACM Transactions on Graphics, 2015, 35(1): 1-12.

  [9] FuQ, Chen X W, Su X Y,et al. Structure-adaptive shape editing for man-madeobjects[J]. Computer Graphics Forum, 2016, 35(2): 27-36.

  [10]ChenX W, Zhou B, LuF X, et al. Garment modeling with a depth camera[J]. ACMTransactions on Graphics, 2015, 34(6): 1-12.

  [11]Chen X W, Li J W, Li Q, et al. Image2Scene: Transforming style of 3Droom[C]//Proceedings of ACM International Conference on Multimedia. Brisbane:ACM,2015: 321-330.

  [12]Zhou Z, Yu T, Qiu X F, et al. Light field projection for lightingreproduction[C]//Proceedings of IEEE Virtual Reality. Arles: IEEE, 2015:135-142.

  [13]Zhang Z T, Liu Y B, Dai Q H. Light field from micro-baseline image pair[C]//Proceedingsof IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston:IEEE, 2015: 3800-3809.

  [14]Ren Z G, Gai W J, Zhong F, et al. Inserting virtual pedestrians into pedestriangroups video with behavior consistency[J]. The Visual Computer, 2013, 29(9):927-936.

  [15]Avila L, Bailey M. Augment your reality[J]. IEEE Computer Graphics andApplications, 2016, 36(1): 6-7.

  [16]He C Y, Hu X M, Liu Y, et al. A novel drift compensating method for orientationmeasurement system in VR applications C]//Proceedings of IEEE InternationalInstrumentation and Measurement Technology Conference (I2MTC). Graz: IEEE,2012: 2482-2487.

  [17] DiFilippo M N.Jouaneh K M. Characterization of different microsoft kinect sensor models[J].IEEE Sensors Journal, 2015, 15(8): 4554-4564.

分享到:
[责任编辑:yxl]
转载申明:吴文俊人工智能科学技术奖官网独家专稿,转载请注明出处,违者必究!
您是第 956990 位访问者
版权所有 © 中国人工智能学会
ICP备案号:京ICP备13016090号-5
技术支持:智能君博科技