智慧屏AI人机交互能力评价研究

(整期优先)网络出版时间:2022-09-05
/ 2

智慧屏AI人机交互能力评价研究

陈波

爱奇视智慧技术(深圳)有限公司 518000

摘要:近年来,随着人工智能语音和图像处理等技术逐渐成熟落地,智能人机交互产品种类不断创新,智慧屏作为典型的智能产品形态,受到了广大消费者和产业界的广泛关注,其带动的应用生态不断丰富,为消费者带来了更加多元的文化娱乐生活方式,同时也积极推动了智能家居和智慧教育等垂直产业的发展。基于智慧屏的发展历史,研究论述AI人机交互能力和AI交互性能评价,并展望智慧屏的发展趋势。

关键词:人工智能;智慧屏;人机交互;性能评价

人工智能是引领新一轮科技革命的战略性技术,是带动产业升级、推动经济高质量发展的动力引擎。伴随着5G、移动互联网、云计算及物联网等技术和基础设施的建设和成熟,人工智能赋能垂直领域已成为新的产业趋势。以人工智能技术为代表的人机交互发生了革命性发展,各厂商纷纷抢占智能家居入口进行战略布局,家庭生活中的电视成为人工智能赋能的最佳载体。

1智慧屏发展史

电视的发展经历了传统电视、互联网电视及智能电视等不同的发展阶段。随着人工智能、物联网以及云计算等技术的不断进步,智能电视创新演进出了新的产品形态——智慧屏,推动智能家居环境多种终端的智能人机交互技术发展。通过更加自然、多模态的交互控制,消费者可以得到更丰富、多形态及定制化的用户体验。智慧屏“智慧能力”的提升主要体现在影音质感、人机交互、家居控制以及业务场景等方面,其中,消费者感知最直接、最明显的就是人机交互。除了可以使用传统的实体遥控外,智慧屏搭载的智能语音模块和摄像头等设备,为家庭用户提供了多模态的交互能力,如近远场语音交互、手势交互、多屏协同以及姿态识别等AI交互能力,为用户带来更加便捷的交互方式,也使得家庭视频、工作会议以及AI健身等以智慧屏为载体落地到智慧家庭生活中。

2智慧屏AI交互性能测评

本章将着重介绍基于智慧屏的人机交互技术测评研究,主要包括语音交互和手势交互两大部分。其中,语音交互围绕语音采集与识别、语义理解、语音合成与播放以及语音技能等进行研究;手势交互围绕手势采集、识别以及基本操控等进行研究。2.1语音交互性能2.1.1语音采集与识别智慧屏的人工智能语音服务可通过传声器或麦克风阵列等拾音设备对语音、连续语音进行单声道或多声道的采集,一般支持8kHz或16kHz的采样率,16bit及以上的采样精度,并以PCM、OPUS或SPEEX标准进行编码。对于连续性音频,可采用30s或60s为单位进行切片分割[3]。智慧屏可对采集的音频进行语言端点检测,以便区分用户说话的自然停顿和主观停止。根据目标用户群体的语言习惯和使用场景,可设置不同的端点检测时长,从而实现语音识别响应速度和交互体验友好的平衡。

2.1.2语义理解

智慧屏语音交互应支持对简称、别名、代码及数字的理解;支持用户表达错字、缺字及模糊说法的容错理解;支持多轮、全双工对话的人机交互方式;语义理解正确率应大于90%。语音交互应支持查询类技能,通过语音播报加信息展示的形式向用户反馈;应支持媒资检索类技能,通过语音播报加搜索结果展示的形式向用户反馈;应支持技能处理遇到异常场景时通过语音或者文本展示的形式向用户反馈。

2.1.3语音合成与播放

智慧屏语音交互应支持离线语音合成,包括中文普通话和英语语种,宜支持多种方言、多音色合成以及个性化合成,包括女声、男声及卡通等音色,中英文数字等各种混合音,用户自定义读音和分词。平均意见得分(MeanOpinionScore,MOS)应大于或等于4.0(满分5.0)。

2.1.4语音搜索

智慧屏语音搜索需覆盖并同步厂商所合作的媒体内容提供商和用户安装的第三方应用的媒体资源。媒体资源包括但不限于影音、教育、健身、游戏及其他应用内的资源,影视媒体搜索标签应包括名称、主演、上映时间及类型,宜包括季集、导演、简介、评分及热度等信息;音乐媒资搜索标签应包括名称、歌手、音乐来源及类型,宜包括地区、简介、评分及热度等信息;游戏媒资应包括名称和类型,宜包括简介、评分及热度等信息;应用媒资应包括名称和类型,宜包括简介、评分及热度等信息。语音搜索应支持单维度搜索、多维度搜索、对象关系搜索、多轮搜索及模糊搜索等。

2.1.5语音与IPTV的交互

IPTV内已经有各种成熟的直播、点播、回看及应用等内容服务,语音能力在进行落地时,需要充分考虑与已有内容服务的对接,满足用户基本的IPTV功能使用需求。对于用户基本的频道选择,智慧屏语音可提供实体键的语音交互、唤醒语音交互两种功能之一,用户按下遥控器上的语音按键或讲唤醒指令将智慧屏唤醒,说出频道名称或者频道编号,智慧屏将进入选择频道播放画面。例如,用户对智慧屏说“中央六台电影频道”,智慧屏将直接切换到中央第六频道进行播放。此外,用户还可以通过点播实现操控智慧屏播放相关视频的功能。例如,用户通过说出音视频内容的名称、主演、类型、国家地区及年份等信息或这些信息的组合,可以搜索到满足条件的音视频内容,并可通过遥控或语音选中目标,实现播放。

2.2手势交互性能

2.2.1手势采集

智慧屏应支持使用摄像头模组或具有视频图像采集功能的设备进行手势信号采集,以获取用户发出的手势信号,包括支持各种角度的手势采集和真实室内光照条件(自然光和灯光等)下的手势检测。

2.2.2手势识别

智慧屏应支持静态手势(如握拳、OK、数字等静态手势)识别,并支持在真实室内光照条件(自然光和灯光等)下的静态手势识别,允许存在一定的角度旋转;应支持动态手势识别,比如手掌张开左右挥动、手掌从张开到并拢等,并支持在真实室内光照条件(自然光和灯光等)下的动态手势识别。

2.2.3基本操控

智慧屏手势交互应可实现上下翻页、返回上级页面等操作;支持通过手势交互实现确认和取消等操作;支持实现音量加、减、静音及取消静音等操作;支持实现音视频的播放操控,如播放、暂停、继续播放、重放、快进及快退等;支持实现对设备的基础控制操作如打开设置页面和关机等。

3结语

我国智慧家庭产业已经具备一定的基础,随着智慧家庭市场容量的日趋扩大,国内厂商之间的竞争也将越来越激烈,对智慧家庭产品的组网通信、个性化服务、主动交互以及隐私保护要求都会变得更高。因此,行业需不断突破智慧家庭应用服务相关技术,提升智慧家庭产业链关键环节产品、系统及服务质量,不断满足消费者的用户体验需求,为家用智慧大屏市场៿展发展空间。

参考文献:

[1]中国电子技术标准化研究院.人工智能标准化白皮书[EB/OL].[2021-05-15].http://www.ideadata.com.cn/temp/article/file/20181008/1538986671657035221.pdf.

[2]国家市场监督管理总局,中国国家标准化管理员会.信息技术智能语音交互系统第二部分:智能家居:GB/T36464.2—2018[EB/OL].(2019-01-30)[2021-05-15].https://www.doc88.com/p-9505084708291.html.

[3]中华人民共和国国家质量监督检验检疫总局,中国国家标准化管理ༀ员会.中文语音识别系统通用技术规范:GB/T21023—2007[EB/OL].(2019-07-21)[2021-05-15].https://www.doc88.com/p-4374730525429.html.