导读:上个月初Oculus Connect大会上,O记的首席科学家Michael Abrash的Keynote题目是未来5年VR的发展,其中涉及到VR头显分辨率、空间音效、VR交互等等方面。相比于一般的野鸡专家,Abrash的预测还是值得大家一下的。
视觉:未来单眼4K FOV 140°
目前高端头显如HTC和Oculus能做到100°左右的视场角,单眼分辨率在1080*1200左右,分接下来相当于每度画面上有15颗像素点;而人类肉眼能够达到220度视场角,每度画面上像素约为120颗。Abrash认为,目前的显示屏和光学技术还很难达到这个标准(忘了什么4K、8K吧,这相当于单眼24K)。
未来5年,Abrash预测我们能达到每度画面像素增加到30颗,同时视场角扩大到140°,也就是说我们能用到差不多单眼4K*4K的显示屏,同时现在头显中固定的焦点深度(depth of focus)也将升级成可变的,这意味着显示屏和光学技术必须要升级。
视线追踪技术必须成熟
想要以4K*4K 90帧/秒进行渲染,对机器配置有很高的要求,为了能达到这个标准,视线追踪技术的成功是必须的。聚焦渲染——只将落在人类眼睛中央小窝(Fovea)的图像进行完全高清渲染,而降低其他部分的渲染精度,此举能够大大降低渲染对机器的压力。
不过,要想完成聚焦渲染,必须有近乎完美的眼球追踪技术,由于人类的瞳孔,眼皮各不相同,还有要建立一个能够适配大众消费的眼球动作的系统,可以说是个难度极大的挑战。不过Abrash认为未来5年我们应该能够做到。
音效
头部相关移动功能(HRTFs head-related transfer functions)将能够增强位置音效带来的现实感。OculusRift目前使用的3D音效能够通过头部追踪而实现实时的HRTFs,不过这是通用型的。人们用于躯干、头部和耳朵的尺寸不同,如果能够有私人的HRTFs,将能够极大的增强音效作用。
Abrash并没有透露如何才能做到私人HRTFs,据说需要一个静音室,不过反正科学教表示未来5年大家都会有一个。另外,Abrash还期待未来人们能够研究出更好的声音发射、衍射模型,来让声音更真实。相对于视觉效果,声音效果还更加困难,Abrash认为未来5年内在实时模拟音效上,人们能做的并不会太多。
交互:Touch将成为VR的鼠标
科学家认为,像Oculus Touch这样的首部控制器,将成为未来40年默认的控制器,就像现在的鼠标一样。未来的控制器在舒适度和精准度上会有改进,但是大体形态不会有很大变化。
Abrash认为,未来5年手势识别将会成为标准,其精准度提升至可以在VR社交中反应手部动作。手势识别技术将能让用户的VR化身正确表达自己,并且能在没有控制器的情况下完成简单的指令,例如上网浏览或者打开个电影之类的。
当然,Abrash没有说的是,鉴于人们已经太熟悉之前的交互工具例如鼠标、键盘或者手柄,所以不管是打字还是打游戏,即便是在VR中,人们依然希望并且习惯于操控一个真实的物理工具。
VR头显将变得越来越轻
虽然VR头显的分辨率和视场角都将提高,但是Abrash认为未来的头显肯定会变得越来越轻。未来的高端VR头显将变成无线的,当然我们听过太多次人们说无线头显由于计算和传输能力,没法完成高水平的运算。但是科学家认为由于聚焦渲染技术的进步,无线头显是有可能的。
增强虚拟现实Augmented VR
接下来,Abrash阐述了如何将现实世界带进虚拟世界中,一种“增强虚拟现实”,用户可以扫描真实环境,并在头显中渲染出一个相当真实的画面;或者可以进入到其他用户渲染的环境中,也就是说可以将用户放置在任何一个环境之中,模糊虚拟和现实的界限。
让一个消费级装备能够扫描并渲染出相当真实的环境,听起来可不是个轻松的活儿,但是Abrash认为未来5年我们或许能够做到,他认为增强虚拟现实(AVR)和增强现实(AR)非常不同,后者是在现实层面上叠加一层虚拟,而前者能够控制环境中的任何一个像素,实现更精准的操控。
恐怖谷效应还是很难越过的
增强虚拟现实最吸引人的地方就是能够和异地的人分享环境,不过,如何还原环境中的人则是极大的难题。即便是未来手势识别能够达到数据手套那样准确,无标记式的脸部和身体追踪能够实现,还原人类的真实动作和表情依然是难上加难。
由于人类实在太擅长捕捉同类精妙的微表情和细小的肢体动作,未来5年我们还很难越过“恐怖谷效应”——要想在VR环境中让用户感觉到面对的是个真正的人,估计要几十年时间。相比之下,Oculus即将推出的化身系统,只是个非常初级的阶段。