增强现实是一项将虚拟与现实相结合的技术,它可以应用于医疗、生产生活、工业设计和娱乐等各个行业。随着计算能力的提高和5G技术的发展,增强现实有望成为未来通用的计算平台。光学透视头戴式显示器(OST-HMD)作为增强现实系统的主要载体,近几年国内外发布的面向消费者的产品日益增多,在扩大普及度的同时,如何在OST-HMD上更好地进行人机交互成为目前增强现实领域需要解决的问题。
在汉斯出版社《计算机科学与应用》期刊中,有论文研究指出目前增强现实的人机交互(HCI)在手势和语音构建得较为完善,微软在2016年推出的HoloLens已经支持了语音交互和手势识别,同年德国的pupil labs开发出可装置在HoloLens上的眼追踪相机。2018年magic leap公司发布的混合现实(MR)头显在眼镜内测装置了眼追踪摄像头,但交互方式仍以手势操作和手柄控制为主。
视线追踪技术的不断改善在于提高准确率和帧率的同时降低侵入性和减少数据带宽,从而优化设备的穿戴体验和交互体验。移动技术的发展使视线追踪从桌面端的研究和应用转移到移动端,从而发展普适的视线追踪方法,将视线追踪用于OST-HMD的交互,可以弥补手势识别和语音识别的不足。一方面,佩戴在人眼前的增强现实眼镜与眼动交互具有很高的契合度,通过视线追踪进行交互也将大大提高自由度;另一方面,在手势和语音的操作受到限制的情况下,譬如在一些特殊的应用场景:医生在为病人做手术时,通过眼睛控制OST-HMD的手术导航系统来完成更多必要的操作。
视线追踪的方法可分为侵入式和非侵入式,最早的眼追踪是用巩膜搜索线圈嵌入到眼部区域这种方法具有高侵入性,对使用者的干扰较大。在过去的几十年中,随着图像处理算法的发展和计算能力的提高,非侵入式的视线追踪在注释分析、情感分析、认知研究等领域和固定于桌面系统的视线追踪方法已经取得了一系列的成果。基于数字视频分析的视线追踪(VOG),仅通过摄像机追踪视线的变化逐渐成为非侵入式的热点研究方法,此后衍生出一系列眼球追踪的图像学方法。典型非侵入式的视线追踪包括基于外观的方法和基于形状的方法,以及近些年受到**************的基于深度学习的方法。
因此该论文学者对比了现有的一些视线追踪的方法,采用深度学习中残差网络Restnet网络的思想,提出了可高效识别瞳孔中心和视线的异构嵌套神经网络,省去了添加红外光源、标定等步骤的同时将角度误差降到了0.89˚。他们计划设计20种以上眼球运动轨迹交互指令,同时实现OST-HMD系统的自动标定,并FPGA上设计出高集成度的嵌入式增强现实人机交互系统。未来他们会将视线注视点及其所在的场景相结合,并进一步研究SLAM算法和CBIR算法,将所看到的事物的相关信息展示在用户眼前。