智能设备与学龄前儿童语音对话设计建议

期刊: 环球科学 2023年第9期 DOI: PDF下载

韩雅娟

中国人民大学信息资源管理学院，北京 100872

摘要

本研究主要通过对20名3-6岁儿童用户的入户观察和父母访谈，发现和总结儿童与智能设备语音对话时的特点，阐述了针对不同特点和现有人机对话特点中存在的问题，提出学龄前儿童与智能设备语音对话的设计建议。本研究一方面提升了对学龄前儿童家庭使用智能语音设备的吸引力和消费意愿，一方面也丰富了学龄前儿童的口语习得环境，提升口语发展水平。

关键词

人工智能，语音交互，儿童人机对话特点

正文

1 研究背景

在智能语音对话设备的高频使用者中，有相当比例为有学龄前（3-6岁）儿童的家庭用户，3-6岁儿童正值口语快速发展的敏感期[1]，对“说话”具有极大热情[2]，对于和人工智能设备抱有很大好奇心和主动性。但由于学龄前儿童语言表达能力有限，存在发音不清[3]、语序混乱等现象，导致智能设备难以听清和理解。另一方面，智能音箱的话术设计主要针对成人，没有充分考虑学龄前儿童的心智水平和理解能力，导致儿童常常也不能理解。智能设备和儿童用户双方各自的局限，使得儿童用户对和智能音箱的语音交互过程存在较多问题。

2 研究意义

本研究对学龄前和智能设备的交互过程进行实地入户观察和访谈，总结和提炼出学龄前儿童与智能设备语音对话时的常见问题，提出和智能设备语音对话设计建议，供智能语音交互从业者参考，使学龄前儿童能够更好的使用智能语音设备，一方面提升了对学龄前儿童家庭使用智能语音设备的吸引力和消费意愿，同时也丰富了学龄前儿童的口语习得环境，提升口语发展水平。

3 研究方法

本研究采用入户观察法和深入访谈法，对20名3-6岁学龄前儿童进行2-4h的入户观察，研究流程主要分为三个阶段：

3.1 入户准备

3.1.1和父母沟通调研内容和流程，简单了解孩子基本情况和个性特点

3.1.2请父母帮忙做好儿童的访谈心理准备工作，在访谈时适当复现日常生活中和智能设备的语音对话过程

3.2 家长访谈

3.2.1了解家庭成员基本情况和生活状态，了解父母购买决策因素和对智能设备的了解和预期

3.2.2了解日常生活中儿童使用智能设备的情况，以及家长对儿童智能设备的控制情况

3.2.3参考儿童日常和智能设备的语音对话经验和兴趣点，家长参与创建部分语音指令清单，其他由儿童自由发挥。

3.3儿童观察

3.3.1观察儿童自主或在父母引导下进行的语音对话行为，包括儿童发出的指令词、智能设备响应速度和话术、儿童状态和反应等

3.3.2观察父母对儿童使用智能音箱时的参与和协助情况

3.4语料提炼和总结

对20名儿童用户的语音对话语料进行分析和提炼，总结交互失败或体验不佳的原因。

4 研究结论

尊重3-6岁学龄前儿童身心发展特点，针对这些特点来设计和调整智能设备的对话策略，使之适应这一阶段的儿童身心特点，提升人机对话的流畅度。

4.1学龄前儿童身心发展特点

3-6岁儿童的思维、情绪、语言都处在迅速发展阶段[4]，主要表现为：

4.1.1思维方面[5]

这一阶段的儿童主要依靠动作、感知、表象、语言来认识事物，抽象概括能力弱，具体形象性是这个年龄段儿童思维的主要特点，注意力集中时间仍较为短暂。

4.1.2情绪方面[6]

学龄前期的儿童情绪不稳定，易变化，社会性因素对情绪的影响很大。他们非常希望被被重视和关注，有强烈的社交需求。

4.1.3语言方面[7]

同时，这一阶段儿童的发音、用词、句法还不成熟，具体表现在：

声音比较尖细、发音吐字不清晰

词汇量有限，对词义的理解仍停留在表面含义，容易用错词或有冗余词

能够运用的句式也比较很简单，且容易出现语序混乱

语速较慢，爱拖音，经常出现因组织语言产生的非自然的断句和重复[8]。

4.2 智能设备与儿童语音交互流程和存在问题

使用者和智能语音交互过程主要分为三个环节：使用者语音输入-用户等待（设备理解）-使用者接收反馈（设备输出）。

“用户输入体验”主要依赖于用户的表达，“设备理解”主要受限于目前的语音识别和语义分析技术，但用户能感知的体验主要是等待时间，“用户回复体验”则取决于智能设备的声音和话术设计。

根据对20名儿童与智能设备交互过程的观察，在使用者（儿童）语音输入、智能设备输出两个阶段存在问题：

1）用户输入环节：智能设备对儿童语音识别率较低，导致对话开启失败或中断；

2）设备输出环节：智能设备的话术设计不符合儿童心智发展水平，儿童不理解，无法持续对话，渐失交互兴趣。

本研究分别针对这两个「输入环节」和「输出环节」提出设计建议。

4.3输入环节—针对学龄前儿童的智能设备语音识别策略建议

4.3.1优化儿童声纹识别模型，提高儿童发音的容错率

3－6岁儿童的声带及其他发声器官正处于生长发育状态，他们的喉腔声门较窄，声带短小而细薄，因此发音较为尖细。他们的发音调节机能还不太完善，导致发音吐字不清晰。他们发“声母”比发“韵母”困难，声母中发音错误最多的是“zh、ch、sh、z、c、s”，韵母中“e”和“o”容易混淆 [7] 。

例如用户1（男孩，4岁）对老师说：老西（师），我想吃戏己（柿子）

因此要求智能语音系统需要采用不同年龄段的儿童声音样本作为声纹识别模型的训练集，并根据儿童发音特点，提高语音识别的容错率。

4.3.2识别和过滤冗余词，对近音词或近义词的主动联想和确认

学龄前儿童词汇量有限，3~4岁时为1600个词左右，4~5岁时为2300个词左右， 5~6岁时为3500个词左右。其中名词占主导地位，其次是动词，再次是形容词[7] 。

儿童对词义的理解也是一个逐步深化和精确的过程。词汇量不足和对词义的理解不深入，导致儿童在词汇的运用方面容易出现用错词或有冗余词的情况。

例如用户2（女孩，4岁）和其他小朋友聊天时说：我家有两只小白兔，一只白色，一只灰色。“（她认为“小白兔”＝“兔子”）。

在学龄前儿童用户使用过程中，如果遇到难以识别的语音指令，需要首先识别是否为冗余词，对冗余词汇自动过滤，并对语料中的近音或近义词进行主动确认。

4.3.3提高对词汇、语序的识别容错率，并以询问和确认的方式主动纠错

在句法使用方面，学龄前儿童最初表达的句式很简单，只有表明事情的核心词汇，显得内容单调、形式呆板，并且经常漏掉一些句子成分，导致语序紊乱[8]。

例如用户3（男孩，3岁半）对智能音箱说:“xx音箱，请放《从头再来》的刘欢。”

3-6岁儿童的语言学习主要通过“模仿+练习”，而智能设备可以起到“榜样”的作用。在提高对儿童语音中词汇、语序容错率的同时，主动进行表达纠错也尤为重要。一方面可以通过正确表达对儿童表达能力进行潜移默化，另一方面也可以帮助儿童学习正确的表达方式。

4.3.4支持one-shot[11]，降低设备语速，设置合理的听音等待时间

由于学龄前儿童遣词造句能力还不成熟，他们经常需要花更多的时间来思考如何组织语言，这就容易导致表达时出现语速较慢、爱拖音、非自然的断句或重复等现象[9]。

例如用户4（男孩，4岁）想让xx音箱帮他查找汽车的图片，对智能音箱说：“xx音箱，播放、看、播放汽车的图片”（他在犹豫到底该用“看”还是用“播放”。）

对于这种由于组织语言导致的非自然的停顿或重复，设备需要降低输出的语速，留给儿童组织语言的时间，并去探索和设置符合儿童停顿习惯的听音等待时长。

4.4输出环节—针对学龄前儿童的智能设备话术设计建议

4.4.1设备及时响应，多鼓励

学龄前儿童用户在使用语音交互过程中，当对面的智能设备无响应时，更容易导致他们的情绪受挫，并很快丧失继续对话的兴致。

例如用户5（男孩，3岁半）和智能音箱进行如下对话：

用户：xxxx，播放“孤勇者”

（智能音箱状态：未被唤醒）

智能音箱无响应

用户：xxxx，播放“孤勇者”

智能音箱无响应

用户（沮丧的说）：妈妈，它不理我

“及时响应”是设计学龄前儿童语音对话的第一优先策略。4岁前儿童由于对自己语言表达能力不够自信，会把设备本身的识别错误归因于自己表达不够好（但有时他们的表达是清晰的），或理解为智能设备不喜欢或者不想理他，进而在情绪上产生挫败感。

因此，即使在智能设备听不清、听不懂时，也要及时响应，明确告知设备状态，提供安慰或鼓励话语，帮助儿童保持继续交互的信心和勇气。

4.4.2话术简化，更符合儿童认知规律

现有的音箱话术会使用一些专业或抽象概念，不够浅显易懂，儿童常常不能理解。

这一阶段的儿童以具象思维为主，难以理解抽象或专业用语。

例如用户6（男孩，4岁半）问智能音箱：

用户：xxxx，你几岁了呀

智能音箱：我的生日就是你激活我的那一天，所以我应该非常年轻

用户：（转向问妈妈），激活是什么意思

因此在儿童话术设计中，措辞要尽量简单清晰，多使用具象词汇，少用抽象词汇；多使用语气词和拟声词；多用简单句式，避免使用复杂句式[10]；多使用问句来自然引导对话的进行。

4.4.3话术内容加入童趣，提高趣味性

现有智能音箱的话术有时因过于生硬呆板，缺乏童趣，对于注意力短暂的小朋友来说，很快就失去了继续聊下去的兴趣。

例如用户7（男孩3岁半）和智能音箱的对话：

用户：xxxx，麦昆

智能音箱：抱歉，我没有理解，请你不要生气

用户：xxxx，麦昆

智能音箱：抱歉，我还是没理解，请你不要生气

建议在话术设计中要多使用轻松活泼的话术，兜底情况下适当装傻卖萌，容易使儿童产生共情或趣味感，从而得到宽容。

4.4.4积极引导，维护对话热情

先看一个例子，用户8（女孩，5岁）想让智能音箱给她讲个故事，她问：

用户：xxxx，讲个故事

智能音箱：既然你诚心诚意的问了，那我就告诉你，这个问题我不知道

智能音箱的回复虽然听起来很有礼貌，但回答却让小朋友不知道接下来该怎么办，实质上成为「话题终结者」。

在智能设备无法识别或无资源无能力满足的情况，首先要使用鼓励性语言及时的安抚儿童用户；在避免情绪受挫的同时，然后给予具体有效的引导，告诉儿童接下来怎么做，例如是让用户重复一遍，还是换个说法。否则会导致需求还没有满足就结束了对话。

5 主要结论总结如下：

结合儿童身心发展水平和特点，总结和提炼学龄前儿童和智能设备语音交互问题和设计建议如下：

表1:用户输入环节的儿童语音特点和产品设计建议

学龄前儿童语音特点	针对儿童语音识别的设计建议
1、声音比较尖细、发音吐字不清晰	优化儿童声纹识别模型
1、声音比较尖细、发音吐字不清晰	提高儿童发音的容错率
2、词汇量有限，对词义的理解仍停留在表面含义，容易用错词或有冗余词	遇到难以识别的语音指令时，自动过滤冗余词汇
2、词汇量有限，对词义的理解仍停留在表面含义，容易用错词或有冗余词	遇到难以识别的语音指令时，主动进行近音词或近义词的联想和确认
3、能够运用的句式也比较很简单，且容易出现语序混乱	提高对词汇、语序的识别容错率
3、能够运用的句式也比较很简单，且容易出现语序混乱	以询问和确认的方式主动纠错
4、语速较慢，爱拖音，经常出现因组织语言产生的非自然的断句和重复	支持one-shot
	降低设备语速
	设置适合的听音等待时间

表2:音箱输出环节存在的问题和产品设计建议

目前话术存在问题	面向儿童的智能语音话术的设计建议
智能设备响应和回复不积极，导致儿童情绪受挫，降低交互热情	设备及时响应，多使用鼓励性语言
话术措辞抽象专业，儿童常常不能理解	话术简化，更符合儿童认知规律多使用具象词汇，少用抽象词汇多使用语气词和拟声词多用简单句式，避免使用复杂句式多使用问句进行自然引导
现有话术内容呆板正式而缺乏童趣	话术内容加入童趣，提高趣味性
当音箱无法识别语音时，缺乏行为引导	提供具体有效的行为引导，维护对话热情

作为一群正处在语言敏感期和活跃期的“AI原生代”，他们的使用意愿对我们意义深远。如何使智能语音产品和儿童用户的对话更自然顺畅，交互更友好有趣，如何在吸引他们使用智能产品的同时，保留克制和善良，需要智能设备的产品设计者一同探索。

参考文献：

[1]邱洁儿.浅谈《3-6岁儿童学习与发展指南》中语言发展的建议[J].新课程（小学）.2013

[2]孙瑞雪.[捕捉儿童敏感期].北京.中国妇女出版社出版.2010

[3]周慧.3～6岁幼儿语言发展特点、影响因素、策略.重庆第二师范学院学报[J].2018

[4]D.R.Shaffer等著,邹泓等译[发展心理学]（第九版）.北京.中国轻工业出版社.2016

[5]罗伯特.费尔德曼[儿童发展心理学].北京.世界图书出版公司北京公司.2007

[6]陈帼眉等.[学前儿童发展心理学].北京.北京师范大学出版社.2013

[7]张明红.学前儿童语言教育与活动指导.上海.华东师范大学出版社.2014

[8]徐丹虹.浅析大班幼儿语言发展特点及教学策略[J].文理导航.2014(3)

[9]尚燕红.3-6岁幼儿语言发展特点及其影响因素[J].学前教育与特殊教育.2020

[10]陈海燕.促进幼儿语言能力发展的途径[J].启迪与智慧.2015

[11]one-shot，意为一次性成功的，在这里指的是唤醒词和指令词的无停顿连读。

作者简介：韩雅娟（1981—），女，汉族，广东汕头人，本科学历，研究方向为互联网、人工智能、人机自然语言交互。

...

阅读全文