语音 互动 情感 通过构建伙伴认知、满足情感互动、增强沉浸体验等手段,增强 AI 伙伴的曝光率,进一步向用户传达智能搜索感知,促进搜索行为转化。数字人设计实战:Blender 实战!3D卡通虚拟数字人角色设计完整流程(中)着色是卡通数字人角色设计的重要元素之一,它对于角色有着基本的色彩表现和结构表现等造型作用,并且能够表达角色的情感、塑造角色的性格,甚至通过其象征作用赋予角色某种特殊属性或成为角色的缩影。阅读文章 > 一、项目背景语音搜索场景在功能不断迭代的同时,也在探索更年轻化的玩法、传递更多元的体验感受。在产品初期,我们尝试在语音搜索场景下增加 AI 伙伴的形象,虽然线上版本已经实现,但从产品形态以及用户反馈上看,还没有达到可情感互动的效果。所以在本次迭代上,我们着重从情感联结、闲聊互动的维度,对语音搜索进行创新性尝试。二、设计挑战与目标围绕项目背景,从现在语音搜索的用户行为与框架来看,有几个比较明确的问题:数字人引入后,发现用户对人物的点击行为和聊天诉求均有增加,但由于功能受限,数字人没有办法给到及时回应。用户情感抒发得不到反馈;用户一搜即走,不会停留在语音搜索场景探索其他可玩功能。因为前期在语音搜索的优化中,已经尝试在面板中引入 AI 形象,上线后用户反响强烈,用户的行为中聊天、互动的诉求也明显增加。由此可见,满足用户对 AI 伙伴的情感化诉求是十分有必要的,同时语音搜索引入 AI 伙伴是体现同行业差异化的有力创新点,从行业报告《2021 年中国智能语音市场分析报告》中,也阐述了打造沉浸感语音搜索体验与引入 AI 是目前智能语音市场的发展趋势。综合以上原因,设计团队在与产品讨论过后,达成本次升级的核心目标:构建伙伴认知:强化“AI 伙伴”认知,激发语音搜索行为。满足情感互动:完善语音搜索场景情感化互动体验,满足用户期待。增强沉浸体验:打造可搜索、可互动、可操控、可定制等沉浸式语音搜索场景。三、设计举措1. 构建认知 - 语音搜索基础框架升级在旧页面中,语音面板限制了人物与按钮的展现,人物既要承载功能反馈又需要作为物理操作按键进行点击操作,与用户认知相悖且也不利于功能扩展。因此在新版本设计中,需要明确“人”在语音搜索里的属性,以及 AI 伙伴与语音搜索的关系。我们将语音搜索页面框架分为主要功能与辅助功能区。从旧语音面板中剥离出人物,并保留收音球在面板中做物理交互功能(发起收音、停止收音操作),利用 AI 伙伴的人物属性,打造智能拟人的交互反馈,满足用户情感诉求。以“人”为中心,最大化展示 AI 形象,增强情绪传递感的同时保证框架可拓展性。同时,将原堆积在面板中的功能与信息按优先级归位,确保页面信息清晰易读、功能操作热区无重叠、信息反馈区无干扰。新框架上线后,AI 伙伴互动与语音搜索的认知关系更加清晰,语音搜索跳框量明显增加,AI 伙伴带动面板整体导流增加,面板退出率下降。2. 引入情感 - 全场景情感化体验提升除了通过框架层面进行认知优化之外,为营造更贴合“人”的互动体验与情感建立,我们又根据语音场景对每个状态进行了情感体验升级。改版上线后,用户闲聊诉求和互动点击行为均有所提升,从而验证情感化的体验提升,满足了用户互动诉求。① 情感化引导提示:视觉上人物破框展示配合 AI 招手/比心的动作展示,不再是图片,而是可以对话的实体,同时使用年轻化的引导语气拉近与用户间的距离,增加数字人曝光,建立新用户心理预期,激发兴趣点提转化。② 互动提示规则升级:围绕“人”的真实情感,通过弹出气泡的方式模拟 AI 伙伴状态,比如听歌、读书、游戏。以此引发用户点击或进行互动行为尝试。并且配合 AI 伙伴升级引导规则,使引导能够根据不同场景进行适配,保证其既可以承接语音常规引导功能,又可以承接负一楼聊天互动,点击气泡可跳转对应负一楼场景、联动数字人语境内容,避免造成场景情感化割裂。③ 增加“AI 伙伴”情感反馈:增加人物动作、丰富情感化动态反馈,想要模拟更真实的“人”的状态,就需要满足更多拟人反馈。将语音搜索常见场景划分为聆听、识别解析、异常状态、指令响应、引导等 5 种状态。对应不同的状态,规划相应的数字人反馈动作或组合使用方式,可复用拓展其他相关场景,为设计与开发提效。3. 感知升级 - 营造沉浸视觉氛围确定了产品主要改版方向后,通过对目标的提炼,提取设计关键点「年轻化」与「情感化」,配合 AI 伙伴形象,需要呈现出轻松活力的氛围感,设计中运用了大面积的毛玻璃质感,使场景更加轻盈、沉浸。通过对色彩的运用来演绎年轻的视觉效果,诠释语音搜索年轻化的设计突破。① 定义视觉风格:围绕改版目标,定义设计关键词,由关键词延伸设计风格要点。② 形色字构质动:从「形色字质构」5 个方面提炼设计特征。基于视觉方向及特征提炼,在质感、形状、颜色三个设计中改动最大的方向详细描述。质感:设计趋势不断变化,半透明磨砂质感是近期流行的视觉风格,透过表层可看到背景模糊形态,有强化品质感、突出层级以及营销氛围感的特点,同时匹配视觉方向「轻盈」的特征。形状:在形状的设计上,整体界面元素保持大量带有弧度的形状运用,提高面板、按钮、图标、弹窗等元素的曲线比例,让界面始终保持年轻态,给人圆润、亲和的感受。颜色:颜色的运用为本次改版的重中之重,是打造年轻化氛围感知的基石。考虑到语音搜索场景日后的拓展,色彩上希望可以营造给用户一种轻松柔和的视觉氛围,并且元素的色彩需要与 AI 伙伴服饰相呼应,从而使 AI 伙伴形象更加灵动、场景搭配更加和谐生动。基础色彩范围制定:以度晓晓为示例,遍历目前线上所有度晓晓服饰装扮,对色彩进行归类处理,从中提取主题色系,从搜索色库中对应选出主题色环。如何在数字人装扮中提取主体色:我们需要把色彩量化,建立特定场景取色规则,根据规则层层筛选,我们可以从中获取 N 种主体侯选色。校正主体色,与搜索智库色彩形成映射关系:通过对数字人装扮的色彩分类,我们以 H 值为标准,通过调整 S 值与 B 值,划分了 12 个色相,设定对应色系的 H 值区间范围,如智能取色色值在该色相区间范围内,且吸取到的候选色个数最多,就在对应的色库卡中选取主体色。校正原则:色相必须保持是同类色、保持感官明度同频、保证视障人群的识别度建立辅助色搭配规则:为了保持背景层的色彩氛围营造,保证其具有清晰的识别度,我们以主体色为起点,选择了颜色相对较多的邻近色,在色温上保持整体色调的一致性,其次利用对比色和互补色,选择更加丰富多元的色相,制造更强烈的色彩对比,以保证满足各种使用场景下对色彩的需求。组件化思维拆解页面元素:在梳理了智能取色机制后,我们也在思考,语音面板涉及到的元素过多,往往会面临不同场景不同适配的情况出现,那么在做到视觉减负的同时,如何能灵活的替换对应元素呢?我们以组件化思维去拆分设计,进行立体化的分层,将引导层(热词推荐引导关注)、信息展示层(承接语音各类状态与信息)、形象层(强化 AI 伙伴智能感知)、背景层(烘托视觉氛围感)罗列出来,各场景可根据需要进行颜色延展,保证视觉样式达成横向统一,呈现出更加丰富的视觉内容,避免审美疲劳。总结本次语音搜索的改版升级,我们通过“构建伙伴认知、满足情感互动、增强沉浸体验”等手段,增强 AI 伙伴的曝光率,进一步向用户传达智能搜索的感知,从而促进搜索行为转化。构建认知过程中强化 AI 伙伴形象,增强语音搜索功能拓展性;同时结合“情感化”等全场景引导手段,营造更贴合“人”的互动体验与情感建立,对每个状态进行了情感体验升级;最后重新定制视觉风格,围绕「年轻化」关键点对整体氛围进行强化,让语音搜索场景更加年轻、有氛围感。本次改版上线后,搜索行为、互动行为均有所提升,用户体验也得到了显著提升。四、写在最后我们正处于数字化快速变革的时代,传统工具的基础功能已不再满足用户的诉求,人们的感官也从现实空间延伸到虚拟空间,AI 伙伴会逐渐融入人们的生活,未来语音搜索将不再是一个信息输入-结果输出的传统搜索工具,引入 AI 伙伴,可以让搜索更加智能,拥有人类一样的思维、表达、情感和学习能力,满足人们更高层次的情感诉求的同时,也可以让搜索更加简单有趣。未来我们持续对语音搜索进行升级,将 AI 伙伴与搜索链接的更加紧密,提升用户体验,创造出更多有趣的、创新的、别出心裁的年轻化设计。欢迎关注「JellyDesign」的小程序:本篇来源:优设网原文地址:https://www.uisdc.com/baidu-digital-human-role
语音 助手 司机 现在的汽车就像智能手机一样有丰富的功能,我们可以在车上导航、听音乐、看视频甚至订酒店。但汽车和智能手机的不同在于,司机必须为了安全把注意力放在路上,把手紧握方向盘,很多时候不能用触摸来操作中控屏。而语音助手只需说话就能完成交互,成为车载交互的主要方式之一。这次带来一篇相关研究的译文,文章的作者 Casper Kessels(德国 Snapp 汽车软件公司设计总监)通过工作经验总结出车载语音助手的具体设计指南。本文译自:https://www.theturnsignalblog.com/blog/voice-design-guidelines原文作者:Casper Kessels(德国 Snapp 汽车软件公司设计总监)往期干货:HMI设计干货!滑动和点击哪个更不容易让司机分心?车载触摸屏与手机/平板电脑最大的区别之一是使用场景 —— 车载触摸屏可在汽车驾驶使用。阅读文章 > 过去几个月我一直在研究语音助手在减少驾驶员分心方面的作用。我发现,如果语音助手的设计合理,就可能减少分心。在我上一篇文章中已经涵盖了这个理论背景,我收集了所有的研究成果,并将其转化为设计驾驶员语音助手的具体指导方针。一、通用设计原则在设计与语音助手的交互之前,考虑其在车内的环境。语音交互将影响驾驶员和车内系统的其余部分的行为。在实现语音助手时,需要考虑以下指导方针。1. 听觉信息应该与视觉信息来自同一位置人类很难在空间上划分注意力。司机专注于观察道路。为了优化司机的多任务处理能力,来自助手的声音应该与该视觉信息来自同一位置,都在司机面前。2. 总是显示系统的状态根据尼尔森的第一个可用性原则,驾驶员应该意识到系统的状态,以避免混淆。用超多案例,帮你掌握尼尔森十大可用性原则尼尔森设计原则是人机交互学博士 Jakob Nielsen 于 1995 年发表的“十大可用性原则”。阅读文章 > 系统在接收、处理和输出信息时应该告知状态。此外,它应该清楚地显示错误状态。例如,开车时,网络连接通常不稳定。为了防止错误,应该让司机清楚地知道,处理一系列任务需要更长的时间。3. 允许语音或手动激活语音助手驾驶员应该能够通过语音和手动输入触发和中断语音交互。语音激活可以是一个特定的短语,比如“嘿,Eva”,或者是一个直接命令,比如“打开 Spotify”。特别是在语音激活的情况下,系统必须立即对激活做出反应。4. 注意视觉干扰与语音助手互动可能会导致视觉分心,原因有多种:当一项任务需要大量认知资源时,它会影响驾驶员的多任务处理能力,导致视觉处理能力下降。有些司机在说话时倾向于将目光投向语音助手的“源头”(例如中间的屏幕)驾驶员检查屏幕有上提示的视觉输出,以确认操作是否正确执行。确保与语音助手的交互不会造成没必要的视觉干扰。二、将语音助手与界面的其余部分紧密地集成在一起根据实现的不同,语音助手可以是车内体验的重要组成部分,也可以是一个未被使用的噱头。尽管从技术上讲,语音助手通常与其他信息娱乐系统是分开的,但从驾驶员的角度来看,这些系统应该很好地集成在一起。1. 选择最佳的输入输出方式不是每个用例都能通过语音命令获得最佳效果。测试每个交互的最佳模式。交互过程可能依赖于多种模式。例如,说出一个地点的名称比打字输入更容易。另一方面,在屏幕上选择路线可能比语音更容易。2. 允许司机说话时提到屏幕上的任何元素司机经常会说话间提到屏幕看到的内容。可能提到名称或常用术语。例如,当司机在导航系统上看到即将到来的交通堵塞时,可能会问 “堵车得多久”。语音助理应该能够推断出司机在说什么。3. 不要把语音界面做成全屏任何时候都不能阻挡方位路线或警告等信息。语音助手应该显示其状态,但不能覆盖其他元素。当语音助手处于活动状态时,司机应该能够查看屏幕上的所有内容。苹果公司改变了 CarPlay Siri 的用户界面,以防止遮挡其他元素三、个性化人类不是机器。人类使用模棱两可的语言、语气词、表情等进行交流。在与语音助手交流时也应如此。语音助理表现得越 “人性化”,其信任度和满意度就越高。1. 换着花样回答单调的对话让人犯困。在重复的任务中,语言助手的反应每次应该不一样。有一个多样化的、迷人的助手可以减少困倦。此外,语音助手应该理解和使用“人类”的对话模式,如歧义和语气词。此外,一定要使用主动时态,并找到正确的形式,这可能取决于文化。2. 匹配司机的性格和情绪许多研究表明,与司机的个性和情感状态相匹配可以大大增加信任度和满意度。但要注意这一点,个性和情绪的不匹配将会产生不利影响。3. 注意司机所处的场景如果助手能够了解驾驶员的环境,例如位置、天气、乘客数量和以前的交互,那么交互效果就会得到很大的改善。四、错误处理语音助手的主要挑战之一是处理错误。与视觉界面相比,说话障碍更难纠正,并导致更大的压力。这就是为什么我们更加关注预防错误的原因。对于每个交互过程,设计人员应该记住并测试可能发生的错误,并找到预防错误的方法。1. 直接提问让司机更容易回答问题。避免使用开放式问题以避免混淆或不必要的答案。2. 防止错误循环,如果发生误解,应该改变提示当司机不明白什么地方出错了,他们可能会重复相同的答案,导致错误再次发生。在误解发生后,一定要改变提示,为恰当的回答提供更多的上下文和线索。然而,当重新提示时,一定再次给出相同的上下文。当危险的交通状况发生时,司机会认知上“关闭”语音助手的声音。假装什么都没听到。3. 适应用户的能力水平初学者需要更多的信息才能理解系统的局限性。通过与这些用户沟通,提供改进交互的方法来帮助他们。如果司机使用未知命令,请提供备用选项。五、适应驾驶场景正如我在之前的文章中所解释的,减少分心应该是设计师的主要目标。如果设计得好,语音助手在这方面是一项很有前途的技术。在设计驾驶语音助手时,需要考虑几个不同于典型语音助手场景的因素。1. 尽量减少交互次数司机的重点是安全驾驶。语音助手应该尽可能有效地进行通信,以最大限度地减少驾驶员与语音助手交流的时间。以下是如何实现这一目标的 3 个例子:① 保持交互简短,用自然语言② 不要问没必要的问题③ 如无必要,不加提示2. 在司机不忙的时候传递信息当汽车处于平静的环境中时,传递语音信息是最理想的。人们认为音频信息比视觉信息更重要,更能吸引注意力。在关键时刻(比如开车躲避障碍物)传递消息可能导致司机无法作出适当反应或忽略消息。3. 更长的等待响应时间,因为司机可能另有安排如果交互发生在关键时刻,司机会优先处理手头事务,直到情况有所改善。要知道说话比听需要更多的认知资源。司机可以在句子中间暂停,或者比平时等待更长的时间来回答。语音助手应该在取消整个交互过程之前考虑到这一点。4. 让司机控制语音助手考虑让司机控制交互的速度。允许他们轻松地暂停或打断,以便他们可以在喜欢的时候继续。最后愉快地探索语音助手如果你是一名汽车行业的设计师,你应该认真对待语音助手,并在设计过程的早期就将其纳入其中。这比你想象的要容易得多。现在有一些很棒的工具可以用来制作语音交互的原型。我喜欢使用 ProtoPie,它针对汽车应用有专门优化。有很多机会可以改进与语音助手的车内交互,但只有在体验探索之后,你才会知道什么是可行的!本篇来源:优设网原文地址:https://www.uisdc.com/voice-design-guidelines
语音 用户 电台 前沿:开头必须来一句,我相信语音一定是未来,我非常确认这篇 HMI 的语言探索以介绍语音交互内容为基础,结合我的实际工作项目经验,输出总结关于语音设计的内容,最后结合案例,在对话设计中会进行深度的探索,并提出个人的想法和思路,因为有的时候深度去思考觉得我们项目还可以有很多优化的点。进入我们今天的正题。在说语音交互之前,先给大家讲一下题外话,关于人机交互(Human Computer Interaction)简称 HCI,可能日后我想去攻读这个硕士学位,简单来说就是指人与计算机之间通过使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程。语音助手最初的载体是手机 APP,通过与用户之间的对话方式,能够帮助用户来解决问题的,随着我们现在人工智能的研发技术不断发展,包括让机器学习,语音识别、图像识别、自然语言处理、智能搜索等一系列。语音交互运用的很普遍了,不仅仅只是智能手机,现在涉及到的领域是越来越多了,如智能家居、汽车、可穿戴设备、就连商场普遍也有机器人语音对话。HMI 语音介绍我这边就不打算讲语音的发展历史了,不然又是水了一大堆内容,我可是一个讲干货的小作家呢,如果我的小粉丝们需要的话,就私信我,我会在微信公众号更文。语言是传递信息重要方式,对于我们用户来说,语音交互也是学习成本相对较低、容易掌握的,语音交互设计简称为 VUI。新能源汽车不断的发展,智能车载系统也是我们最看重的。随着语音交互的的普及,语音识别开始走入人们生活,凭借其实用性和准确性得到了用户的认可,因此在发展的过程中摒弃了传统的、繁杂的手动操作,提高安全驾驶属性和更高效的处理问题的能力,但是,在现阶段的新能源汽车发展过程中还不能完全替换掉手动操作。现在为什么用户在驾驶车的过程中,还是不会常用到语音交互,首先提到的就是用户习惯,根据数据调查,在使用语音交互的人群中,年轻人占了主力军,其余年龄段的人由于常年驾驶都是通过硬按键来操控车内空调、电话、音乐、电台、内置导航。其实就算是苹果手机中的 siri 都很少用到, 在使用初期因为技术的不成熟,再加上冰冷的对话方式使得用户不对这个买单,像我现在生活中,用到的 siri 频率也会很少,最多就是定一个闹钟,app 实在找不到就会使用到,还有无聊的时候和他进行无聊的对话,嗯就这样子。国内做语音头部公司有我们熟悉的科大讯飞,还有和多家车企合作的思必驰、云知声,对内服务的百度,搜狗,腾讯,阿里这些大咖都有自己的语音技术。再讲一下语音的基础原理内容,这一块比较难懂一点,首先你要说出你需要解决的需求、要处理什么事情,通过车载系统设备收到指令的语音 自动语音识别 (ASR) 将指令转化为文本 自然语言处理 (NLP) 了解用户需要解决什么问题 通过Skill (普及一下知识:Skill 是一种程序的语言,有notepad++,UltraEdit等,好了不啰嗦了) 将处理好的结果处理成回复文本 最后再通过TTS 播报形式 形成回复音频 通过车载系统回复给用户解决结果,听起来是不是有点复杂了,我相信我是全网说的最细的了。如何去定义一个产品的语音的好坏?我觉得吧,能够让用户对于这个语音系统的满意度达到一个高标准,首先能够让系统能够听懂你所说的内容,并且给出相对应的解决方案,语音系统运用的简而易用即可,如何做到以上的要求,我会在下面对话设计中会着重讲解深挖的。车载语音交互(VUI)基本原则车载场景下的语音交互核心基本原则有三点:1. 首先是安全驾驶过程中,司机的眼睛、耳朵和手占据了大部分多任务操作,如果一些功能还需要通过眼睛和手来操作的话,会降低安全驾驶的系数,所以车载语音交互更有助于辅佐司机安全驾驶,减少注意力的分散。2. 其次是便利语音交互设计之初,一定要考虑便利、快捷,尽量的减少每一个任务的对话次数、快速响应、将对话流程简单化,从而打破 VUI 对于用户的一个心理障碍(便利这块内容我会在后面对话设计中着重讲解)。3. 最后是愉悦为什么要谈到愉悦,因为市场上最初的语音对话交谈,都是冷冰冰的,几乎没有情感可谈,像极了和机器人对话,并且有的时候无法处理任务就会说,超出能力范围,这是一个很不好的用户体验。现在市场上可以看到,导航软件也有语音包可以选择,这也是增加了情感化设计,这是其中的一个点。还有一个小点就是自然的对话交流,很流畅的完成用户提出的每一项任务,尽可能的规避对话中的错误,让整体的对话过程达到一个愉悦的感觉。用户语音的目的用户在语音交互的时候,绝大多数都是带有明确指示任务指令的,也有可能是闲聊状态。1. 任务状态下:任务式对话中,用户需要尽快的得到想要反馈和解决方案,并且快速的完成,此类任务的反馈要求还需要清晰、简单明了。2. 闲聊状态下:我们经常也会问 Siri 一些无聊的问题,比如:“siri 给我来一段 Rap” 通常这类的任务带有的目的性不是很强,但是对于趣味性要求会高。市场现状(VUI+GUI)语音是最舒服的交互形式,但是他不能完全取代 GUI,相互协作才是更佳的方案,所以现在市场上的车载系统大多数都是以语音(VUI)和图形用户界面(GUI)相组合的,也有少部分车加入其他交互方式譬如手势交互。语音与图形的交互是交叉处理,从而形成了多模,多模态在我第二篇文章也有讲到,第一次看我文章的同学们可以回顾一下,用户在对车载系统发送一个指令的同时,设备会有多种的反馈方式,首先你可以听到系统虚拟形象给你做出回答,其次你看到图形界面的变化,举一个例子,你说:“我要听周杰伦的七里香”系统就会处理讲页面跳转到音乐界面,并且播放周杰伦的七里香,如果声音小了,你可以说:“声音大一点”大家是不是发现一个问题呀?我在前面说系统首先会做出回答,然后界面才会发生变化,但是实际情况,系统语音形象没有做出任何多余的回答,而是直接听取到用户的需求,直接反馈出结果,播放了周杰伦的 #七里香#,这就是我准备在下面会重点讲到的“对话设计”在说对话设计之前,我们先了解一下 VUI 设计师,想必大家头一次听说,还有语音(VUI)设计师嘛,国内不太注重培养 VUI 设计师,大家可以去招聘平台搜索一下语音交互设计师,很少有公司专门针对这个职位去招聘的,就算有,也是招聘算法等研发岗的职位,VUI 设计师的工作任务一般都是公司的产品经理或者交互设计师代劳了,这会肯定就有产品经理或者交互设计师想出来吐槽了,哈哈哈语音交互方式给用户听和说两个动作,相信大家也有听过 72 法则,因此在听到的信息设计发面需要考量,因为用户听到一遍内容之后就消失了,除非这款车机语音系统,有再次复述上一段话的功能,不然在语音设计的时候,千万不要让用户产生的认知负荷,更不要挑战用户的短时间的记忆力,最强大脑除外,我们大多数人可不是什么最强大脑是不是。再次强调一下,就算拥有复述这个功能,也要注意设计的语音内容,该功能点只是加分项而已,不能打破底线,将语音设计的原则抛之脑后。几乎所有设计师都在用的72法则到底是什么?了解 72 法则,并应用到日常设计中可以准确的传递主体内容,并使用户对其产生一定的印象。阅读文章 > VUI & GUI 的优缺点再分析一下图形设计(GUI)和语音设计(VUI)之间的优缺点,那我们先从优点开始说起。(1)前面我们有提到 VUI 只需要听 and 说,而 GUI 则需要触控屏幕内容,在效率和安全方面没有 VUI 好,触控操作比语音操作要相对会慢,语音交互方式中驾驶者无需离开方向盘。(2)在对于整套车机系统而言,GUI 学习的成本远高于 VUI,因为 VUI 只要会交流即可,无须像 GUI 一样学习触控交互手势、在哪里点击等一系列问题。(3)还有一点,图形设计是一种已经预设好了操作路径和交互方式,页面之间存在这层级交互的基本关系,用户需要根据指定的操作进行,而 VUI 则突破了 GUI 的限制,交互更快捷了,举个例子:“导航去虹桥机场”,VUI 则一步到位,而 GUI 首先需要找到导航应用的入口,然后再点击搜索输入框,输入#虹桥机场,确认完毕之后,再点击导航,我的天呐我写的都很烦了,说真的还不如语音一步到位呢。说完优点后,我们在反思一下 VUI 还有哪些没有 GUI 做的好的点.(1)语音交互涉及到 3 块内容,语音识别,识别用户所说的内容,其次语言理解,这边会关乎到方言理解的问题,毕竟我国语言博大精深,难以参透哈哈哈,最后是语音的合成,这三块内容如果有一块出了问题,最后反馈的结果可能并不是用户想要的答案。而图形设计有这统一的执行操作指令,不会出现什么 bug 问题,如果有,那肯定就是这款车机在测试的时候测试人员遗漏的问题,可以投诉。(2)整套车载的 GUI 设计都会有一套严谨的操作逻辑,有明确的信息分布和页面的层级关系,但是 VUI 的功能不可见(除非你看那个使用手册,哈哈哈哈哈)所有的场景 VUI 都需要去探索,在引导性方面会弱很多,所以在买车的时候抓住销售员使劲的问哈,毕竟你花了一大笔钱来买车了,在试驾的过程中也要多去询问,就先点到这里了。(3)GUI 是可以全场景交互,不限制于任何场景,而 VUI 则会受到的场景因素较大,有较多场景中不适用语音交互,最直接的就是设置中的内容。(4)语音设计对于用户的一个记忆力是一个考验,如果一个很长的 TTS 反馈,用户不知道哪里才是自己所需要的信息,因此在做 VUI 设计的时候尽量简短高效的句子,而 GUI 信息都会呈现在页面中,所以这个点要相对优胜于 VUI 了。总结一下以自然交互为主的,声音,显然是最自然的交互形式,但不能完全取代图形 GUI,而是更好的协作,尽量减少界面的形式设计,加强情感化的交互形式体验,将智能化更好的融入到车载系统中去,让每一位用户能够更好,更便捷,更安全的驾驶着汽车,是我们全体设计师的初衷。嗯,感慨了一下。想用一个成语总结一下:相辅相成,就是这个意思语音设计需要考虑几个要点1. 一定要想好从哪里开始,到哪里结束我们首先假设一个场景,调节空调温度的语音设计,那 VUI 设计师需要将这个场景的对话要贯穿该流程中去,那接下去要考虑这段对话可能出现的任何状况,以及相对应的解决反馈内容,再第二点设计 VUI 语法中,我给大家演示一下空调全方案案例。2. 设计 VUI 语法语法就是用户输入给机器的指令,VUI 的设计师需要了解对话设计的意图,尽量要考虑用户可能表达的所有方式,将最常用的表达方式提取出来,作为指令的模版,当然越多越好,这样给用户体验带来的感受会更好,能够解决用户的问题概率也会提高,别到时候语音助手反馈:“已经超出我能力范畴 or 您换个说法试试”,我一听到这些就炸毛了,后面就不可能再去使用它了,因此 VUI 设计师一定要多考虑一下指令。语法我会在我工作实际案例有特别详细的讲解(在实际案例篇幅 – 使用语音场景分析里面),这个特别重要,大家要细细的品。3. 空调案列分享:用户一开始的输入指令可能有 “打开制冷模式”、“打开加热模式”这些都会有点官方定义的语法感觉会很正式。下面再延展一下用户轻松的说辞 “我有点热了帮我开一下空调”、“今天太冷了,车温度好低啊” 其实用户的说法有很多,但是空调的模式就这么几种,所以需要抓住关键词 #热、#冷、#高、#低 …,什么意思呢?因为这些关键词是起到决定性因素的内容,其他的修饰词语可能会千变万化,所以语音助手一旦检索到该词汇,就可以做出判断,到底是制冷、还是制热、还是通风等功能。先简单就介绍这一个,后面还有很多案列,大家好好看奥。4. 如何设计好回答用户的问题在语音基础介绍中也有提到过 TTS,他是语音交互中最主要的回答方式,就是将 VUI 设计者撰写好的对话设计脚本,通过 TTS 转化为语音去播报。回答能够给用户带来最直接的感受,回复是好是坏,会直接影响到这款语音产品的体验,想要设计好我想谈两个大方向,设计脚本尽量简洁明了,全局系统语言特点保持统一,后续有案列可以叙述讲解的。国内外语音设计差异点国内的语音设计和国外也会存在差异点的,首先是地方语言的差异,国内语言多达 80 种以上,汽车智能语音在方言这一块相对堪忧,能够支持的方言相对较少,这也成为了中文语音识别的一个难题。在设计语音之初我们就得定义好,需要支持哪些方言,比如粤语、河南话、四川话等,现在的车载版本微信可以支持 20 多种方言,但是整体的车机系统可能难以做到这一点,这块内容是需要攻克的一个壁垒,据我查看国外报道,关于方言解决方案,宝马、三星和松下三家公司与语音识别公司 Nuance 合作开发新智能辅助技术,这项技术使得汽车语音系统在处理特定的方言时,可以更加容易。还有一点就是中西方语言文化差异,那就举一个例子,单从一个社会礼仪就可以展现出两者之间的差距,国人路过遇见熟人总爱嘘寒问暖 “吃饭了吗?”、“到哪儿去”、“最近怎们样呀?”等,在我们看来,这是一种有礼貌的打招呼用语,但你要跟西方人这样打招呼 “Have you had your meal?”、“Where areyou going? ”,他们则会认为,你想请他吃饭,或者干涉其私事,会引起误解,而西方人见面通常打招呼 “Hello”、“How do you do! ”、“Nice day, isn’t it? ”实际案列讲解篇幅1. 语音唤醒设计车载语音唤醒分为免唤醒和需要唤醒,免唤醒的定义就是无需说出唤醒关键词或者其他任何操作,就直接可以进行与语音助手交谈并处理任务。如需要唤醒的话,触发动作可分为点击、按压、语音等,目前市场上主流的车机唤醒方式有三种:实体按钮,好处就是能够给到用户触觉上的反馈,用户感知性强虚拟按钮:此类的按钮一般都会在中控屏幕上面,唤醒的方式是点击语音唤醒:在驾驶场景中双手被占用,不能远距离的操作中控屏幕,最佳的交互操作方式就是语音唤醒语音助手形象在语音助手形象设计方面,会分为两种,一种是卡通化语音助手形象,而另外一种是抽象化语音助手,下面用实际案例展示一下,卡通形象我们就拿未来汽车的 NOMI,抽象化 Google 的 Android Auto 语音形象基于工业设计 2021 年 01 期的调查数据分析来看,卡通化的语音形象在亲和力上有很大的优势,能够被用户快速的接受,但是辨识度上可能存在同质化严重问题,所以在效果表现力上面有欠缺,也较难表达车企的品牌理念。抽象化的语音形象则通过造型的多变和动效丰富,从而在设计感和效果上相对突出,在传达性上也不满意,用户不容易知道当前语音是处在一个什么状态下,在亲和力上远也不如卡通化形象。使用语音场景分析(重点)关于车内可以延展很多应用的场景,要知道用户在驾驶过程中需要完成什么样的任务,接下来我们就围绕这几个核心的功能点 多媒体(娱乐)、车辆控制、导航、电话,顺带将每个模块语音基础话术指令带过一下外加TTS反馈,也是让初学者熟悉一下命令,这块内容很重要奥,都是我在实际项目工作中总结出来的,大家要上点心好好看,答应我好嘛1. 多媒体(音乐、电台)播放音乐、电台或者是播客这些都是一辆车最为常见语音交互的功能之一吧,开车的时候都会听一些音频类内容,对于这个功能播放、暂停和切换歌曲等功能外,电台快速选择,针对这些功能我们可以划分一些子功能对应的典型话术。音乐-话术播放音乐按歌手 我想听霉霉的歌、播放周杰伦的歌歌曲名称搜索 播放天外来物、来一首七里香歌手名称+歌曲名称组合精准定位(因为有很多翻唱的曲目) 播放周杰伦的七里香按照语种 我想听粤语歌、放一些英文歌按照曲风 来点爵士音乐、播放摇滚音乐根据音源播放语在线音乐 播放qq、网易云、酷我音乐等等(因为每一家车厂合作的音乐供应商不一样)蓝牙音乐 播放蓝牙音乐、跳转到蓝牙音乐、放蓝牙歌曲、切换到蓝牙音乐、我要听蓝牙音乐U 盘音乐 播放U盘音乐、听U盘音乐的歌、跳到U盘音乐音乐播放控制命令切换当前播放列表上一首歌 切到上一首、上一首歌切换当前播放列表下一首歌 放下一首音乐、切下一首换一首歌播放 换一首歌、换一个音乐、换个歌暂停歌曲 暂停音乐、音乐暂停、停止播放音乐、不想听歌了继续播放 继续播放音乐、播放音乐针对于音乐这个模块的基础语言先讲到这边了,因为在线音乐的功能相对比较多,所以后续我会对于 QQ 音乐、网易云、酷我音乐等在线音乐额外的语言控制命令再写一篇续集。电台-话术播放电台打开电台 打开/开启收音机、听广播、播放电台/收音机/广播/Radio按频率收听 调频、播放调频、收听调频、广播按频段+频率搜索收听 我想听FM、FM、收听/播放/我要听FM、收听AM按电台频道搜索收听 我想听音乐类电台、我要听上海电台、收听/广播按在线音源+音频类型搜索并播放 播放喜马拉雅的相声按艺术家+音频类别搜索并播放 我想听郭德纲的相声播放源喜马拉雅 收听/打开/我想听 喜马拉雅FM 打开/收听/我想听/播放/我要听 FMAM 打开/收听/我想听/播放/我要听 AM电台扫描扫描电台 扫描电台、搜索电台、重新搜台、搜寻电台、搜索频道、扫描频道电台轮播轮播电台 浏览电台、电台浏览、电台轮播、轮播电台、快速浏览电台播放控制命令上一个电台 上个频道、上一个台下一个电台 下一个台、切到下一个台换台 换一个台暂停电台 暂停电台播放收藏/订阅 节目 收藏、收藏这个、添加收藏、加入收藏取消 收藏/订阅 节目 取消收藏、收藏取消车辆控制-话术基本功能包括车内空调温度调节、控制车窗开关、后视镜角度的调节,还可以切换驾驶模式、变换档位等等。空调控制空调控制 ON/OFF 打开空调、关闭空调空调 Auto 打开自动空调、自动空调开启空调打开+模式 太冷了、好热啊(检索到关键词,制冷/热进行切换模式)空调风量增减 风量大/小一点、风大/小一点设置风量级别 风量设设为2级、风量调成2级、风量最大/小空调温度增减 温度高/低一点、温度调高/低一档设置温度级别 温度调到xx度、温度设置xx度、温度调到最高/最低温度(空调温度调整到对应指)空调吹风模式 吹脸/脚、吹脸吹脚、吹脚前除霜、前除霜(前除霜:处理前挡风玻璃的)后窗除霜 打开后除霜/雾、打开后窗加热、后挡风玻璃除霜/雾车窗开启/关闭车窗 开/开启/打开/关/关闭 车窗(未指定某一个窗户,打开/关闭所有车窗户)指定开启/关闭车窗 开/开启/打开/关/关闭 – 左前/右前/左后右后窗 、 打开/关闭主驾旁边车窗、打开/关闭前排窗、打开/关闭后排窗、打开/关闭全部窗户车窗开启/关闭到具体数值 车窗开/关一半(1/2)(车窗调节范围0-100%,根据不同车厂设定值为准)情景模式前文中有提到 TTS 反馈,那我就在车辆控制中情景模式详细举例子给大家讲解一哈。清凉模式 打开/开启/关闭 清凉模式 TTS反馈 清凉模式已打开/关闭、清凉模式已处于打开状态温暖模式 打开/开启/关闭 温暖模式 TTS反馈 温暖模式已打开/关闭雨雪模式 打开/开启/关闭 雨雪模式 TTS反馈 雨雪模式已打开/关闭、即将关闭车窗,请注意安全抽烟模式 打开/开启/关闭 抽烟模式、我想抽烟 TTS反馈 抽烟模式已打开/关闭导航-话术导航是我们最常用的功能之一,对于用户而言输入地址是一件头疼的事情,所以在导航去目的地的时候,直接语音输入后,匹配所需要导航的目的地,让语音助手帮你直接导航,还可以询问语言助手到达目的地时间和距离播报,有的车机导航系统还可以支持语音缩放地图大小,省得两只手指在触控屏幕进行放大缩小操作手势,在导航中的使用语音主要的目的就是便捷与高效。导航中的执行逻辑我这边就不做过多叙述,因为相对要更专业点,后续有机会我再深挖讲解。导航公司 我要去公司、导航到公司、去公司、上班了回家 我要回家、导航回家、回家了注:如果没有设置公司/家的地址 需要进入设置公司/家的具体地址流程,设置完毕之后,方可语言导航去公司/家附近加油站 导航到附近/周围/周边加油站、帮我找个最近的加油站当前位置导航到模糊的POI(会产生多个结果) 导航到火车站(拿上海举例子:上海有虹桥火车站、上海火车站、上海南站、松江站、上海西站,因此产生了多个结果后,语音助手还会继续问到你需要导航到具体那个火车站,如果时间超过定义时间将默认为第一个)当前位置导航到POI简称 导航到人广(人民广场,要不要和我一起去吃炸鸡 哈哈哈)、带我去交大(交通大学)增加途径点附近其他 导航附近三甲医院搜索指定位置+指定类型 POI 帮我找一下南京西路的日式餐厅搜索指定距离+指定类型 POI 两公里以内的停车场、一公里中式快餐店搜索指定位置+指定品牌 POI 南京西路的古驰店导航距离/时间的播报查询途径点的距离播报 距离南京西路还有多远、距离下一个途径点距离还有多少查询途径点到达耗时播报 到南京西路还需要多久、距离下一个途径点还要多长时间电话-话术在驾驶过程如果需要拨打电话,是一件不太容易的事情,而且是极其危险的,所以需要结合语音进行来辅助,接听/挂断不管是屏幕触控还是方向盘的硬按键都可以直接操作,体验还不错,对于不习惯语音的的人来说该功能点可以替代,但总体来说,语音接通/挂断会优于屏幕触控,硬按键对于长期使用来说可能会有优过语音,对于用户来说,在安全驾驶前提下,哪种使用方式习惯就用哪种。拨打电话联系人姓名 打电话给老妈、呼叫老爸、联系哥哥、给姐姐打电话拨打电话号码 打电话给12315、打电话给18015888888拨打常用黄页名 打电话给中国电信、给上海银行打电话接听/挂断/重拨/回拨接听 接听/接电话/接通电话/接听电话挂断 挂断/挂电话/挂断电话/挂掉电话重拨 重拨电话回拨 回拨电话对话设计对话设计是基于人们的对话的设计语言,它集合多个设计的内容,其中包括语音用户界面设计、交互设计、视觉设计、动画设计、语音对话脚本设计、乃至还有音频设计增加语音助手的灵动性。对话设计的是否成功与否最重要的就是个性,现在市场上的许多车载语音系统对话听起来还是基本很相似,是因为很多公司都没有专业的对话设计师,要么是程序员、产品经理、好一点的公司组建一个语音组,都是从其他行业转化过来,然后将各个大厂的语音对话研究一下,就上岗了,国内优秀的 VUI 设计真的很稀缺,也是很缺少的人才,我可不想再用语音交互的时候语音助手和我说“对不起,我没懂你的意思”对话设计师在规划用户在具体每个功能模块区域内做什么,同时还要考虑用户的需求和技术限制,对话的策略,是代表着该语音系统完整的用户体验,也包含这详细的规范定义流程和底层逻辑。这边需要着重的讲一个小知识点:我们会有一个误区,认为“对话”仅只是说 or 听到的内容,其实对话本质上是多模态的,对话的核心内容是对话的流程和底层逻辑,图形界面的逻辑一般都不太会用在对话内容的设计方面,基本上他们两是一个独立的个体。对话设计需要注意点1. 语音简短化车载语音的对话做的是否 OK?是基于对话内容时间的长短,因为用户没办法像查看 UI 界面内容那样,去查看语音的内容。根据人的平均记忆力,如果车载语音虚拟形象说了,关于这个话题很多内容,用户可能无法记全所有的内容,这对于对话将大打折扣,因此在对话过程中需要严格遵循 简短明了,让每一个文字都有意义,避免重复的短语,可以让用户快速的做决定。2. 响应等待设计当用户在用导航功能的时候,语音对话说“导航去火车站”,如果在上海的话,就有好几个火车站,需要用户再次去选择,1 虹桥火车站、2 上海火车站、3 上海南站、4 上海西站,我们在做项目的时候,体验设计师给他的定义是如果用户超过 8 秒还没有进行选择的话,默认是选择第一个,如果第一个目的地不是我想要的,那么我需要重新通过语音再次输入信息。我觉得默认选择这个选项可能会有些不妥,如果这期间来一个电话或者是微信的语音电话,那么我是不好通过语音去选择的,如果汽车不是在驾驶的状态,可以手动触控屏幕进行选择 OK 没问题,如果是驾驶状态下,就需要优化前面默认选择项了。我的想法(1)超过 8 秒钟后,默认选择第一个没有问题,但是在用户结束自己之前任务状态后,可以说重新选择目的地,将之前的搜索出来的火车站结果都再次调出来,提供用户重新去选择。(2)这块就更智能化一些了(这个有一点前瞻性的意思,研发要是看到这个需求估计要揍死我),当语音助手检测用户正在忙的状态时候,在 8 秒钟都没有做出选择,那么语音助手可以从第一个目的地开始播报,用户可以通过方向盘 OK 硬按键去选择自己所需要导航的目的地,在驾驶过程中,方向盘的硬按键安全性远高于中控屏幕的点击。3. 避免过多的选择给用户提供选择的选项列表的时,最好不要超过三个选项,给用户较少的选择,能够让用户更明确去抉择,减少过多选项对于用户的干扰,刚刚上面导航那个案例排除,上海火车站真的太多了没办法,其他城市应该还好都是 1-3 个左右。我的想法上面实际案例就是强行逼迫用户去选择一个,这种体验很差,有一种场景,如果这三个选项都不是我想要的,你就得重新说,帮我推荐一下附近的餐厅,想想这种体验就不是我想要的,我觉得可以增加一些情感化的设计在里面,如果这三个选项都不是我想要的。我可能会说“这些我都不想去、能不能帮我再推荐其他的”语音助手说“你可真挑食、好的,那我就再帮你找找其他美食”(我的意思就是要让机器多去自我学习,更加智能化、情感化贴近于用户的交流,这样用户才会更愿意使用语音交互)上诉的场景是对于这块区域不熟悉的用户来搜寻美食,如果用户有直接目的需要吃什么类型的餐饮的时候,语言助手只需要推荐相关美食就好。用户说“帮我找一下附近的海底捞”语音助手说“附近有三家海底捞,您是要去哪一家…(播报三家信息)”(播报三家海底捞的位置和距离,甚至我想是不是可以增加排队人数的播报,如果排队人很多就可以换一家,接下来就可以和语音助手直接说帮我预约好位置,省的用户到店面还要进行排队等候)4. 不要假设用户知道该做什么在做对话设计的时候千万别考虑用户的思考逻辑,每个人的思考逻辑都不一样的,所以不用去猜想用户的想法,只需要提供有用的信息让用户自己选择好了,前面有提到对话设计是讲究有逻辑性的,你在设计对话剧本的时候不可能就只考虑一条线。举个简短的例子,你在设计一个订购飞机票语音对话流程,你想法是,首先先确定目的地,哪里起飞去哪里,然后再选择时间点起飞。假设用户直接说:“帮我预定早上八点的飞机,飞往深圳。”那问题来了一开始是用户是说的时间,最后只说了目的地,没有有说出发地,因此在语音设计剧本的时候,你需要将所有能出现的状况都考虑进去。5. 语言文案设计一致性在图形设计之前 UE 也需要将动词、名词之间的搭配提前定义好,需要全局保持一致性,这块内容有在我第二篇文章提到过,因此在对话设计过程中也要格外注意。6. 不要信息轰炸用户现实中我们正常处理事物的时候,也是将事物划分成几块,然后按照计划步骤进行,而不是一股脑子乱做,车载语音设计也是如此,作为一个正常的用户来说,我们一次性说出的需求并不会很多,不会像专业的车机测试人员一样,去叙述一大堆信息去检测机器的运转效率,和一个处理信息的准确性,每次出差去南京走查,都会听到测试人员巴拉巴拉 一直说,我脑袋都大了,所以我们正常用户都是逐步的去说消息的,举个列子7. 避免使用专业术语举一个场景的例子,当你在道路上开车,需要停在路边接朋友,朋友还没有到达指定位置,或者该位置是不可以停留的,语音助手正确说法“这边不可以停车,不然交警叔叔会罚款的,赶紧溜,我帮你找一个附近可以停车的地方吧” 错误的说法:“你触犯了了我国《交通法》第 XXX 条,……此处省略法律条文这边是禁止停车的”首先当你听到触犯法律,你的第一想法 what?这是什么鬼,给用户的感觉是很糟糕的,因为法律消息通常会包含长阅读并且还不自然的语言,给用户带了不好的体验,并且还未给解决的方案。一个好的语言设计方案会让人喜欢上使用它。最后来个总结:后续我会对于前瞻性的语音进行探索,再写一篇。前瞻性的就再举一个吧:通过面部扫描,检测到用户不开心的时候,车载系统可以推荐一些治愈系的电台,或者可以让用户放松、舒缓心理的的歌曲,或者你进行人机交谈(这个就比较高级,需要让语音系统进行大数据自我学习,达到能够和人能正常交流),让我们一起展望未来吧。文章中如有不足之处,欢迎补充交流,我们下期见阿里设计师:语音交互设计的流程及方法全面总结随着移动智能终端和云计算的快速发展,人工智能的浪潮正在悄然颠覆着我们生活的点点滴滴,VUI(Voice User Interface,语音用户界面)作为一个新的领域也在快速发展,并对用户体验提出了更多关于语言学、情感塑造、逻辑搭建等方面的新要求,本文结合参与的项目,将语音交互设计的发展、阅读文章 > 本篇来源:优设网原文地址:https://www.uisdc.com/hmi-vui-design