2017人机交互技术概论

　　传统用户界面都是采用了这种映射方式。它主要包括三大类：

　　(1). 命令语言交互(Command HCI)：这种人机交互始于联机终端的出现，用户与计算机间借助一种双方都能理解的语言进行对话。根据语言特点可分为：① 形式语言。这是一种人工语言，特点是简洁、严密、高效，如：应用于数学、化学、音乐、舞蹈等各领域的特殊语言，计算机语言则不仅是操纵计算机的语言，而且是处理语言的语言;② 自然语言。特点是具有多义性、微妙、丰富。③ 类自然语言。这是计算机语言的一种特例，命令语言的典型形式是动词后面接一个名词宾语，即：“动词+宾语”结构，二者都可带有限定词或量词。命令语言可以具有非常简单的形式，也可有非常复杂的语法。它要求惊人的记忆和大量的训练，且容易出错，但具有灵活和高效的特点，适合于专业人员使用。

　　(2). 图形交互(Graphic HCI)：图形用户界面(Graphics UI，GUI)是当前人机交互的主流，成熟的商品化系统有Apple的Macintosh、IBM的PM(Presentation Manager)、Microsoft的Windows和运行于Unix环境的X-Window、OpenLook和OSF/Motif等。这种界面包含三个重要思想：① 桌面隐喻(Desktop Metaphor)，即在用户界面中用人们所熟悉的桌面上的物品来清楚地表现计算机可处理的能力;② WIMP(Windows、Icons、Menu and Pointer)是组成图形用户界面的基本单元，以可重叠多窗口管理的窗口管理系统为核心，使用键盘和鼠标器作为输入设备，并广泛采用事件驱动(Event-Driven)技术;③ 直接操作及所见即所得(What You See is What You Get)的界面，交互过程极大地依赖用户视觉和手动控制的参与，具有强烈的直接操作特点。菜单(Menu)本身与图形人机交互并没有必然联系，在图形用户界面出现前，字符型菜单已经在用户界面中得到了广泛应用。但图形人机交互中菜单的表现形式比字符人机交互更为丰富，在菜单项中可以显示不同的字体、图标甚至产生三维效果，同时，还可以诸如层叠式(Hierarchy)、弹出式(PopUp)、下拉式(PullDown)和滚动式(scrolling)及其组合等多种形式出现，菜单式人机交互与命令语言人机交互相比，用户只需确认而不需回忆系统命令，从而大大降低记忆负荷，其缺点是灵活性和效率较差，可能不适合于专家用户。图形人机交互具有一定的文化和语言独立性，并可提高视觉目标搜索的效率;其主要缺点是需要占用较多的屏幕空间，并且难以表达和支持非空间性的抽象信息的交互。

　　(3). 直接操纵(Direct-manipulation HCI)：直接操纵更多地借助物理的、空间的或形象的表示，而不是单纯的文字或数字表示。前者已为心理学证明有利于“问题解决”和“学习”。视觉的、形象的(艺术的、右脑的、整体的、直觉的)人机交互对于逻辑的、直接性的、面向文本的、左脑的、强迫性的、推理的人机交互是一个挑战。直接操纵人机交互的操纵模式采用“宾语+动词”结构，Windows 95设计者称之为“以文档为中心”，用户最终关心的是其欲控制和操作的对象，即：只关心任务语义，而不用过多为计算机语义和句法而分心。对于大量物理、几何空间及形象的任务，直接操纵表现出巨大的优越性，但它在抽象而复杂的应用中具有局限性。对于用户界面设计者来说，图形的设计比较因难，需大量测试和实验;而复杂和抽象语义的表示比较困难，不容易实现交互与应用程序的独立设计。

　　另一种是以用户为中心的非受限方式。这种方式强调将对人类自然能力(尤其交流、运动和感知能力)与计算设备及其感知和推理结合起来，通过采用多种模态(Multimodal)感知人类的自然行为，并以易理解的多媒体(Multimedia)形式实现多通道(Multichannel)通信，建立“以人为中心”的感知用户界面(Perceptive User Interface，PUI)[10]。这种界面旨在充分使用人类诸如语音、手势、视线及头部跟踪等多个感觉和效应通道，并使之可选择地并行和协作来实现多通道、非精确、高带宽、高效及不限制地点的人机通信[11]，以拓展人机间信息通信的“带宽”，减少人类的交互认知努力，提高人机交互的自然性和高效性。从用户角度来看，这种方式支持的是非受限人机交互(Informal HCI)[12][13]，其主要出发点是借助于媒体感知技术获取并理解用户动作、行为、习惯、偏好及其它相关交互信息，来缓解以至于消除计算机和用户对交互意图的认识和描述存在的精确信息(人机系统的内部表示)和非精确信息(人机系统的外部表示)间的“鸿沟”;其实现的关键在于计算设备对人的动作和行为识别的有效性，因此，支持这种交互方式的用户界面又称为基于识别的用户界面(Recognition-based User Interface)。

　　这种方式的用户界面则代表着人机交互技术的发展方向，体现了对人的因素的重视，标志着人机交互技术从“人适应计算机”向“计算机不断地适应人”方向发展，就是要给用户“充分的自由”，使得人类不再需要按机器的要求扭曲自己最自然的思维和行为方式，而可以像在电脑出现前人类那样自由地工作和生活。传统的界面事实上成为隔离物质世界和信息世界之间的屏障，虚拟现实、网络计算、智能代理和软件机器人、计算机支持的协同工作等技术的应用，将实现“虚物实化”和“实物虚化”，消除物理对象和抽象对象、输入装置和输出装置在交互空间中的差别，并为人提供多感觉通道的自然临境体验;语音及文字识别和自然语言理解等言语计算，手写体和手绘草图识别等笔式计算及手势和表情识别、视觉-目标拾取认知技术等视觉计算等技术的'不断发展和完善，将不断提高人机交互的智能化程度，使机器能够根据上下文及使用者的特点主动识别人的身体姿态、手势、语音和表情等各种自然行为，进而判断出人的意图。同时，机器的功能齐全、高效，既适于人的操作使用，也能满足人的审美和认知需要，机器的操控和使用将更加符合人的习惯，并具备听、看和说的能力，人可以语言、文字、图像、手势、表情等自然方式与机器打交道，恰如与他人交流一样自然。因此，用户界面是能模拟多种智能和真实环境的虚拟空间，人们能够在任何时间、任何地点与任何需要的环境(包括人)以最自然和“身临其境”的方式来完成所需要完成的工作;实现“无形而又无处不在，有形而又自然和谐”的普适交互(Ubiquitous/Pervasive HCI)模式，这种方式的特性体现在以下三个方面：

　　以用户为中心(Human-Centered)：以用户对人机交互的需求变化为出发点，使人机交互的外在形式和内部机制能符合不同用户的需要。人类的交互行为是自然的，用户将可利用语音、手势、笔划等自然方式，不受地点限制地与计算机进行交互，既能满足用户个性化的需要，又使得用户不脱离自然社会关系(包括社会经济环境和人类沟通交流)。

　　多模态(Multimodal)交互：充分利用人类多种感觉和效应通道的互补特性，并使之可选择地、充分地并行和协作来捕捉用户的交互意图，从而增进用户交互的自然性。模态(modal)和通道(Channel)间的联系和区别主要在于：人类通过视觉、听觉、触觉、味觉和嗅觉这五种感官的信息发送和接收来实现与世界交互的，一种模态对应一种官能;而通道是指信息传递的过程或途径。在人机交互应用中，通道描述一种交互技术，这种技术可基于某种特殊设备，如：键盘或鼠标，也可基于某种特殊行为，如口语、书面语或手势。如：命令语言用户界面中的每个命令都会使用视觉和触觉等多种模态;而图形用户交互既使用了视觉和触觉等多种模态，又用到了诸如键盘、鼠标和声音及图像等多种通道。多模态人机交互是使用同等方式将两种或两种以上输入模态相结合的技术，其重点是将基于诸如语音识别、笔形手势识别、计算机视觉等传感识别的输入技术集成到用户界面中。也就是说，多模态人机交互使用多种模态来实现多种通道通信。使用多种模态生成单独的通道，如：利用视觉和声音进行三维用户定位，属多传感器融合(Multisensor Fusion);类似地，使用一种模态生成多种通道，如：左手鼠标指示，右手鼠标选择，则属于多通道或多设备(Multichannel or multi-device)人机交互。

　　多媒体感知((Multimdia Perceptive)：机器利用其感知及推理能力对来自用户感觉和效应通道的交互信号进行识别、集成和协调，并获取用户动作和行为习惯、偏好及其它相关信息，并以人类易理解的多媒体信息方式为用户提供输出信息，从而提供不受时空限制而又效能最大化的个性化计算服务。这种人机交互方式的双向信息流动是以多媒体感知和处理为核心的：用户通过其感觉和效应通道传递的交互意图在计算机内表示为文本、语音、图形和图像等多媒体信息，人到机(Human to Compute)信息流动是多媒体信息的获取及识别过程;计算机经过处理的信息需要以文本、语音、图形和图像等用户理解概念所需的多媒体信息形式展现出来，机到人(Computer to Human)的信息展流动是多媒体信息的合成和呈现过程。

　　自Weiser博士提出普适计算(Ubiquitous/Pervasive Computing)以来，人类开始向未来计算探索的进程，也催生了以网格计算(Grid Computing)和云计算(Cloud Computing)为代表的计算分布化(Distribution)、以嵌入式计算(Embed Computing)为代表的计算透明化(Transparent)、以虚拟现实(Virtual Reality)和可穿戴计算机(Wearable Computer)为代表的计算机系统拟人化(Personate)和有形化(Tangible)、以手持电脑(PDA)和智能手机(Smart Phone)为代表的计算机系统微型化(Micromation)和随身化(Mobile)及以智能空间(Smart Space)和环境智能(Ambient Intelligence)为代表的计算机系统嵌入化(Embeded)和无形化(Invisible)等众多新型计算技术，推动着“机箱时代”迈向一个崭新时代：计算设备将从人类视野中“消失”，那些装在机箱中的声音、视频和通信等将“游荡”于我们周围环境中而变得“无处不在”。这个时代具有两个重要特征：一方面，小型化嵌入式计算设备将使得人类生活的自然环境“具有”计算能力，它能自主感知人的存在，并在人类需要时出现和对其行为作出反应;另一方面，计算将日常生活化，能帮助人类安排、构造和控制日常生活，人类将能享受的计算服务，人类能以最自然的方式、在任何时间、任何地点、通过任何设备从环境中“无意识地”获取“有感觉”的计算资源和计算服务。概括地讲，在这个时代，人类生活将片刻离不开机器，人与机器间的交流更加自然和没有阻碍，人和计算间将是非侵入且不可见的交互，现实世界就成为用户界面，用户只需运用其日常技能来操作和使用计算设备，而不再关注交互媒体形式，也无需特定的用户界面，即：Idea Interface is no interface。这既对人机交互技术提出了更高的要求和新的挑战，也为人机交互技术的发展注入了新的动力，因此，自然、高效、无障碍的新型人机交互技术成为该领域发展方向和研究热点。

　　新型人机交互技术的最主要特性就在于用户交互的“非受限性(Informaity)”：机器给人以最小的限制并对人的各种动作做出反应，人是主动参与者，可以最大的自由度操作机器，如日常生活中人与人间的交流一样自然、高效和无障碍。这种人机交互技术强调两个关键特征：一是交互隐含性。理想的人机交互应当使用户把所有注意力集中于完成任务而无需为交互操作分心，且应允许使用模糊表达手段来避免不必要的认识负荷，有利于提高交互活动的自然性和高效性。传统用户界面都是等待用户输入命令才开始采取行动，而新颖人机交互技术的用户界面则应是积极地感觉和理解世界，并让用户在各个层次上根据目标和已有知识采取行动，并以充分性代替精确性。理想地，这是一个使用“被动”或“非侵入性”感知的“主动”交互方式，无需用户显式说明交互成分，仅在交互过程中隐含地表现而允许非精确的交互，如：用户视线自然地落在所感兴趣的对象上;用户的手自然地握住操纵的目标;等等。二是交互多模态性和双向性。允许使用多种感知模态(如：视觉、听觉、触觉等)或多个感觉和效应通道，突破了模态和鼠标键盘显示器通信通道的限制，使用连续形式和并行形式在内的多种模态。尽管感觉通道侧重于多媒体信息的接受，效应通道侧重于交互控制与信息输入，但两者是密不可分、相互配合：只用一种通道不能充分表达意图，就需要其它通道信息辅助。有时，使用辅助通道仅为增强表达力，否则，就必须允许充分地并行和协作的通道配合关系。此外，人的感觉和效应通道通常具有双向性特点，如：视觉可看又可注视;手可控制又可触及;等，新颖人机交互技术让用户避免生硬、频繁或耗时的通道切换，从而提高自然性和效率。如：视线跟踪系统可促成视觉交互双向性;听觉通道在利用三维听觉定位器实现交互双向性;等等。

上一篇：课堂交互技术应用创新下一篇：客户端交互技术介绍

人机交互技术概论(2)