伴随着互联网技术和人工智能的发展,智能硬件领域迎来了火热的发展黄金期,各个领域、各式各样的智能设备如雨后春笋般不断地涌现出来,它们渗透到了生活中的方方面面。同时,科技的发展也促使人机交互界面的更新换代,人机交互界面经历了从命令行界面(CLI)到图形用户界面(GUI),直至现今的自然用户界面(NUI),其发展趋势告诉我们当今的用户渴望通过更自然直观、人性化的方式实现人与机器的互动。近年来,语音、体感、眼动等新型人机交互方式的引入,使交互的自然性得到了很大的提升。
博物馆讲解设备的现状与趋势
博物馆讲解器是帮助或代替博物馆讲解员向参观者介绍展品信息的设备,通常采用参观者佩戴的方式,将讲解员的声音或录制好的语音信息发送至参观者佩戴设备的耳机里,完成博物馆导览功能。作为导览领域的代表产品,博物馆讲解设备经历了三种类型的发展期:传音型讲解器、输入型讲解器以及体感型讲解器。
(1)传音型讲解器上世纪90年代,以美国LISTEN品牌为代表的传音型导览器风靡全球,传音型导览器采用无线通信技术,即讲解员的语音信息会通过无线电波的形式同步发送至用户佩戴的接收器耳机里,但是语音信息不能重听,而且讲解内容不可选择,用户只能被动收听。
(2)输入型讲解器二十世纪初,为了满足个体的讲解需求,市场上出现了私人讲解设备,即输入型讲解设备。用户只要输入展品旁边的数字编号,与该编号对应的展品信息便可通过用户佩戴的设备播放,可以重复收听。直到今天,使用最广的依然是输入型讲解设备,只是普遍将较为麻烦的数字输入变为扫码输入。
(3)体感型讲解器最近,苹果公司推出的iBeacon功能火爆市场,促使体感型讲解设备飞速发展,其中典型代表是西门子近距讲解器和微信“摇一摇”讲解,工作原理是iBeacon硬件向距它一定距离的讲解设备发送一个特有的ID,接受到该ID的讲解设备会根据该ID做出相应的反馈信息,所以用户只要走近展品或者摇一摇手机便可自然触发对应展品的讲解功能。不难看出,从“随走随讲”、被动收听的传音型讲解,到按键、扫码等主动操作的输入型讲解,再到通过动作、语音等形式自然触发的体感型讲解,讲解设备的设计发展趋向于私人化、自然化与多样化。
智能硬件BaiduEye简介
BaiduEye,百度人工智能可穿戴式智能硬件,由百度深度学习研究院自主开发设计,于2014年9月3日第一次亮相百度世界大会,同年10月开始BaiduEye2.0版的研发,核心内容是对其人机交互方面的探索。功能层面,BaiduEye可以帮助用户拓展视野,打通线上线下服务。通过对佩戴者第一视角的视觉信息进行捕捉并图像分析,结合百度大数据分析能力,为用户检索并提供所看实体背后的信息,同时,由于没有屏幕,它还可以与手机相连,将视觉信息传送至手机,帮助用户认知世界,连接服务。技术层面,BaiduEye是利用人机交互技术、动态传感技术和基于深度学习的图像识别技术,对佩戴者的行为进行智能呼应与交互。凭借百度云计算和海量大数据,BaiduEye作为人类视觉系统的自然延伸和第二个大脑,为佩戴者提供各种解答、提示、服务、解决方案等。
多通道人机交互简介
通道(Modality),即用户传达和获取信息的各种类型的通讯信道,包含四个要素:人的信息表示、人的器官、计算机的交互设备和计算机的信息显示。按照输入与输出方向分为动作输入通道和知觉输出通道。
动作输入通道即人的信息表示通过一定的动作器官表现出来,为特定的输入设备所获取,并经由适当的处理转换成相应的计算机信息表示的一条信息通路;而知觉输出通道指计算机信息表示通过输出设备呈现出来,被人的特定感觉器官所获取,再经由适当的处理转换为相应的人的信息表示的一条信息通路。多通道(Multimodal),是指交互系统在输入或输出的一个方向上设计两个或两个以上通道的性质,具有这种性质的界面叫做多通道界面。人机交互(Human-computerInteraction),即用户与计算机系统之间的通信,是人与计算机之间各种符号与动作的双向信息交换。多通道人机交互(MultimodalHuman-computerInteraction),是基于视线追踪、人机对话、手势识别、感觉反馈等先进的交互技术,为用户提供多个交互通道以并行、非精确的方式与计算机系统进行交互,旨在提高人机交互的高效性和自然性。在多通道人机交互系统中,用户可以使用自然的交互方式,如手势、语音、眼动等形式与计算机系统进行协同工作。
对于多通道人机交互的研究,开始于二十世纪70年代,主要应用于计算机领域,提出了“交谈式计算机”的概念,即用户可以使用语言、肢体、表情等与计算机进行交互,也就是将平常生活中的交流方式用作与计算机进行交流。从生物意义上来讲,人在生活场景中的经历可以归为各种生理器官的相互协同工作,主要有眼睛、鼻子、耳朵等,与此对应便产生了多通道。多通道人机交互利用两个或两个以上通道的感知方式对产品进行交互,力求以自然、并行、协作的方式来进行人机对话,实现产品使用的多样化,追求产品功能的同样化。
多通道整合设计原则
初步制定好产品的各通道交互方式后,对于在产品设计中如何合理地安排通道间的使用逻辑,继而获得较为理想的多通道人机交互方案,有下面五个原则来评估:
(1)经济性原则,即多通道应用在智能设备上的经济成本,以及用户使用多通道的时间成本、使用成本等,如语音通道故事版中的“多轮次人机对话”,通过自带特征关键词的用户询问,减少问答轮次,节省时间成本;(2)独立性原则,指的是各个通道之间相互独立运作,单一的通道就能很好地实现产品功能;(3)互补性原则,即各通道间相互协作,相互补充,确保功能使用正常;(4)动作节约性原则,即使用通道或通道间的切换时,要满足动作最少的条件;(5)区分性原则即各通道的行为方式要有较高的区分度。如头势通道故事版中的“前倾”行为,使用设备很难检测出前倾与静止时的参数变化,所以果断去掉该行为。根据这些指导原则,笔者已经对单一通道的逻辑行程在故事版与体验式原型中进行了整合,接下来是对通道间的逻辑行程进行定义。
产品通道使用逻辑单一通道的使用逻辑
在各通道故事版中己解决,然而通道间的使用逻辑还需制定。根据多通道整合设计原则以及各通道的特性,作者将其分为被动通道与主动通道。被动通道即用户最接近无意识触发的头势通道,利用用户本身就存在的参观状态如缓停、凝视、转头、走远等完成诸多讲解类指令触发与反馈;主动通道为用户有意识触发的手势和语音通道,通过手指向展品、人机问答等形式完成讲解类指令触发与反馈。在实际操作过程中,鼓励用户采用被动通道,这样用户可在自然观赏状态下完成对展品的讲解,但相同功能下主动通道的用户行为可覆盖被动通道的用户行为,即用户通过语音和手势的用户行为优先级高于头势用户行为,考虑到语音通道的工作时间较广,为减少通道间的误触发率,在完成相同功能的前提下,当使用语音通道时,手势与头势通道禁用,即语音通道的优先级最高。举例如下:完成展品介绍功能,可通过凝视展品(头势通道)、手指展品(手势通道)、口头指令“百度一下”(语音通道)三个方式触发,从完成功能所用时间的维度上讲,开启语音指令所需时间最多,不宜被打断,所以优先级最高;其次手势为主动通道,优先级需高于头势,如己在头势工作进程内,开启手势行为,头势工作进程立即被手势工作进程覆盖。
产品设计展望
随着世界范围内设计师与工程师对体感、语音等技术的探索,未来的自然用户界面(NUI)将会用于越来越多的生活场景,层出不穷的智能设备也会潜移默化地影响人们以往的行为习惯。BaiduEye作为一个专注于自然用户界面的头戴式智能设备,依托百度的技术优势,从头势、手势、语音三个通道探索多通道人机交互的可行性,并总结出以体验式原型与验证式原型为基础的智能硬件开发流程,为未来越来越多的基于自然用户界面的智能设备的设计与研发提供了借鉴意义。体感、语音等技术的不断进步,笔者相信未来的智能硬件产品一定会给用户提供更自然、更高效的交互体验。
结论
本文从时下流行的智能硬件与自然用户界面的关系出发,提出当今智能硬件应有与之相匹配的自然用户界面。而研究自然用户界面,必定从用户行为研究开始。用户行为研究包括用户已有的参观行为,通过实习观察法可获取;还包括对创新的参观行为的研究,主要通过用户参与式设计,让用户自己选择想要的操作方式。两部分的结合即为用户行为库,而两部分的交集更具研究价值。实地观察可提供用户的真实行为库,但不知道哪些行为能用于设计;实验室模拟测试可得到用户喜爱的操作方式,但不能确定这些操作方式是否符合参观者真实行为习惯,所以两者相互补充,得到的结论也有说服力,最终输出多通道用户行为库。以博物馆智能讲解器为设计对象,总结出用户行为库后,在此基础上从头势、手势、语音三个通道,采用故事版的方法,设计单通道人机交互方案;然后通过设计师搭建的体验式原型,模拟故事版,初步确定体验优劣;然后与工程师一起搭建验证式原型,确保技术可行性,并对其参数进行优化,最终完成多通道人机交互设计与开发。