当前位置：首页 > 教育综合 > 正文

完整的语音交互过程包括哪几个关键环节，分别对应实现了什么过程

教育综合
2024-08-01 12:59:56

语音识别的过程是什么?语音识别的方法有哪几种?

语音识别的过程和方法具体如下：

语音识别过程

1、语音信号采集

语音信号采集是语音信号处理的前提。语音通常通过话筒输入计算机。话筒将声波转换为电压信号，然后通过A/D装置（如声卡）进行采样，从而将连续的电压信号转换为计算机能够处理的数字信号。

目前多媒体计算机已经非常普及，声卡、音箱、话筒等已是个人计算机的基本设备。其中声卡是计算机对语音信进行加工的重要部件，它具有对信号滤波、放大、A/D和D/A转换等功能。而且，现代操作系统都附带录音软件，通过它可以驱动声卡采集语音信号并保存为语音文件。

对于现场环境不好，或者空间受到限制，特别是对于许多专用设备，目前广泛采用基于单片机、DSP芯片的语音信号采集与处理系统。

2、语音信号预处理

语音信号号在采集后首先要进行滤波、A/D变换，预加重（Preemphasis)和端点检测等预处理，然后才能进入识别、合成、增强等实际应用。

滤波的目的有两个:一是抑制输入信号中频率超出//2的所有分量（/：为采样频率），以防止混叠干扰;二是抑制50Hz的电源工频干扰。因此，滤波器应该是一个带通滤波器。

A/D变换是将语音模拟信号转换为数字信号。A/D变换中要对信号进行量化，量化后的信号值与原信号值之间的差值为量化误差，又称为量化噪声。

预加重处理的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，便于频谱分析。

端点检测是从包含语音的一段信号中确定出语音的起点和终点。有效的端点检测不仅能减少处理时间，而且能排除无声段的噪声干扰。目前主要有两类方法：时域特征方法和频域特征方法。

时域特征方法是利用语音音量和过零率进行端点检测，计算量小,但对气音会造成误判，不同的音量计算也会造成检测结果不同。频域特征方法是用声音的频谱的变异和熵的检测进行语音检测，计算量较大。

3、语音信号的特征参数提取

人说话的频率在10kHz以下。根据香农采样定理，为了使语音信号的采样数据中包含所需单词的信息，计算机的采样频率应是需要记录的语音信号中包含的最高语音频率的两倍以上。

一般将信号分割成若干块,信号的每个块称为帧，为了保证可能落在帧边缘的重要信息不会丢失，应该使帧有重叠。例如，当使用20kH的采样面率时，标准的一帧为10ms,包含200个采样值。

话筒等语音输入设备可以采集到声波波形，虽然这些声音的波形包含了所需单词的信息，但用肉眼观察这些波形却得不到多少信息因此，需要从采样数据中抽取那些能够帮助辨别单词的特征信息。在语音识别中，常用线性预测编码技术抽取语音特征。

线性预测编码的基本思想是:语音信号采样点之间存在相关性，可用过去的若干采样点的线性组合预测当前和将来的采样点值。线性预测系数埽以通过使预测信号和实际信号之间的均方误差最小来唯一确定。

语音线性预测系数作为语音信号的一种特征参数，已经广泛应用于语音处理各个领域。

4、向置量化

向量量化（Vector Quantization,VQ）技术是20世纪W年代后期发展起来的一种数据压缩和编码技术。经过向量量化的特征向量也可以作为后面隐马尔可夫模型中的输入观察符号。

在标量量化中整个动态范围被分成若干个小区间，每个小区间有一个代表值，对于一个输入的标量信号，量化时落入小区间的值就用这个代表值>[戈替。因为这时的信号量是一维的标量，所以称为标量量化。

向量量化的概念是用线性空间的观点，把标量改为一维的向量，对向量进行量化。和标量量化一样，向量量化是把向量空间分成若干个小区域，每个小区域寻找一个代表向量，量化时落入小区域的向量就用这个代表向量代替。

向量量化的基本原理是将若干个标量数据组成一个向量（或者是从一帧语音数据中提取的特征向量）在多维空间给予整体量化，从而可以在信息量损失较小的情况下压缩数据量。

语音识别

1、模板（template）匹配法

在训练阶段，用户将词汇表中的每一个词依次说一遍，并且将其特征向量作为模板存入模板库。在识别阶段，将输入语音的特征向量序列，依次与模板库中的每个模板进行相似度比较，将相似度最高者作为识别结果输出。

2、随机模型法

随机模型法是目前语音识别研究的主流。其突出的代表是隐马尔可夫模型。语音信号在足够短的时间段上的信号特征近似于稳定，而总的过程可看成是依次相对稳定的某一特性过渡到另一特性。隐马尔可夫模型则用概率统计的方法来描述这样一种时变的过程。

3、概率语法分析法

这种方法是用于大长度范围的连续语音识别。语音学家通过研究不同的语音语谱图及其变化发现，虽然不同的人说同一些语音时，相应的语谱及其变化有种种差异，但是总有一些共同的特点足以使他们区别于其他语音，也即语音学家提出的“区别性特征”。

另一方面，人类的语言要受词法、语法、语义等约束，人在识别语音的过程中充分应用了这些约束以及对话环境的有关信息。

于是，将语音识别专家提出的“区别性特征”与来自构词、句法、语义等语用约束相互结合，就可以构成一个“自底向上”或“自顶向下”的交互作用的知识系统，不同层次的知识可以用若干规则来描述。

TTS是什么意思呢？

TTS是指一项语音合成技术。

语音合成是将人类语音用人工的方式所产生。若是将电脑系统用在语音合成上，则称为语音合成器，而语音合成器可以用软/硬件所实现。

文字转语音系统则是将一般语言的文字转换为语音，其他的系统可以描绘语言符号的表示方式，就像音标转换至语音一样。

扩展资料：

发展历史

1、17世纪法国人研发机械式的说话装置，直到19世纪，贝尔实验室对于电子语音合成技术的研究，才开启近代语音合成技术的发展。

2、贝尔实验室在1939年制作出第一个电子语音合成器VODER，是一种利用共振峰原理所制作的合成器。

3、1960年，瑞典语言学家G. Fant则提出利用线性预测编码技术（LPC）来作为语音合成分析技术，并推动了日后的发展。

4、1980年代Moulines E和Charpentier F提出新的语音合成算法PSOLA，此技术可以合成比较自然的语音。

参考资料来源：百度百科-TTS

IVR是什么？

IVR(Interactive Voice Response)即互动式语音应答，您只须用电话即可进入服务中心，可以根据操作提示收听手机娱乐产品，也可以根据用户输入的内容播放有关的信息。

业务

意即无线语音业务增值服务，和大家熟知的固定电话声讯服务类似。手机用户拨打指定号码，获得所需信息或者参与互动式的服务。

最常见的业务有：

1. 语音点歌

2.语音聊天交友

3. 手机杂志

4. 电子贺卡

5. 客服中心

6.交互式语音

IVR，即语音增值业务，是移动运营商由2002年开始启动的业务。移动的IVR分为两大品牌：音信互动和娱音在线，联通的IVR品牌为联通音。

扩展资料：

效率优化

一、制定数据采集规范并进行必要的系统改造

IVR优化分析系统以IVR呼叫日志数据为基础，如果IVR业务系统的日志记录数据过于简单，不能有效地支持客户行为分析。系统中至少要包括以下信息：

大量的全过程电话。这里指的全过程电话是指电话从进入IVR开始到离开呼叫中心为止的电话，其中离开的方式可以大致分为三种：接受自助IVR服务后，获得满意信息直接离开;在IVR中或者等待CSR服务的过程中放弃服务或等待离开;先IVR后转接到CSR接受完服务离开。

能够识别哪些电话是接受自助IVR服务后，获得满意结果直接离开，哪些电话又是主动放弃服务离开。

需要记录全过程电话在IVR中的路径。

为了在系统中获取以上信息，需要制定了IVR数据采集规范，并完成必要的IVR日志系统改正，IVR数据采集规范需要定义信息：

日志信息：1)用户按键信息;2)语音播报信息;3)系统分支判断信息

语音节点信息：1)功能节点;2)连接节点;3)报读节点;4)功能连接节点

判别信息：1)用户收号完毕(连接节点和报读节点中的连接节点);2)语音播报完毕(功能节点和报读节点中的功能节点);3)按键超时(连接节点和报读节点中的连接节点);4)用户挂机、系统主动释放;5)错误提示信息。

二、建立IVR指标评价体系

对IVR节点和业务的评价，需要有统一定义的IVR评价指标。可以从节点，业务和通话三个角度建立IVR的指标体系。通过这些指标可以对现有的IVR语音菜单及业务进行全面的评价，并提出改进的措施。以下从业务角度列出部分业务指标及相关分析要素，不同的指标面向不同的人员使用。

三、进行数据建模与确定关键分析单

将原始日志处理后得出有效结论的数据处理过程按照以下八个步骤完成：从原始数据到数据转换、数据清洗、按键编码、路径生成、菜单生产、定义指标、设计预算到最后的算法检验。

其中用到“数据转换”——“定义指标”步是数据转换和定义规则，最后两步骤应用了数学建模、数据分析、数据检验的多种算法。

参考资料：百度百科-IVR

信息沟通的过程分为6个环节是什么

沟通的过程指的是信息交流的全过程，它涉及信息发送者、信息接收者、信息渠道、编码、解码、反馈六个要素。

语音交互设计的常见形式分析？

随着互联网的不断发展，交互设计的形式与种类也发生了很大的变化，下面霍营IT培训就一起来了解一下，关于语音交互设计的一些常见设计形式。

1.对话式设计

定义：简单来说就是我问你答

目前我们使用的智能设备基本只能支持单轮对话，但这样并不是人们习惯的对话方式

一轮以上的对话，才是符合用户心理预期的。

请大家回忆下自己使用智能音箱的一些场景体验，

举个例子(天猫精灵)

用户:天猫精灵，明天我有闹钟么?

天猫：您明天没有闹钟呢

用户：那可以帮我设定一个么?

天猫：..

你会发现，智能音箱这个时候像是失忆了一般，毫无反应，显然这并不是我们想要的一个交互，从用户社交属性来说，人们沟通的方式一直都是一轮以上对话式的，并不是单轮式的，一般来说，我们要做到让用户决定对话要持续多久，很显然，你有亲身体验过的话，能做到多轮对话的比较少。

插一个题外话，近天猫精灵更新了游戏语音的玩法，算是踏进一步了吧，虽然不是很棒的体验，但起码跨进了多一步，相信未来会越来越棒的。那对话式是如何设计出来呢?大致是怎么样的一个流程呢?

2.设计工具

这里说的设计工具并不是说是一个具体的工具，更多是指一个方法论

示例对话

定义：示例对话字面意思就是演示举例对话，它看起来像一个电影脚本，像两个人一起在对话

特点：是整个设计对话过程的关键方法。成本较低，简单易操作

用法：把要做成一件事情的场景用文字写出来，然后大声读出来，你会发现书写和口语化的还是有很多区别的，甚至是有些奇怪的，这时候你会发现有很多可以改进的地方，所以你会看到一些招聘都会有这一项对应的要求，甚至是要求一些事有话剧功底，有剧本写作相关经验优先。

作用：它能够让你在投入开始研发之前，知道你的设计效果是如何。

互联网未分类软件交互设计生活

上一篇
辨证论治是一个怎样的过程？

下一篇
返回列表

完整的语音交互过程包括哪几个关键环节，分别对应实现了什么过程

语音识别的过程是什么?语音识别的方法有哪几种?

TTS是什么意思呢？

IVR是什么？

信息沟通的过程分为6个环节是什么

语音交互设计的常见形式分析？

热门文章

东城区北池子大街甲6号中央政法委电话

县长对财政资金的拨付有决定权。 A、错误 B、正确

男生开黄腔是什么意思啊

求召唤万岁的改编召唤淫转1-9 以及召唤万岁疯狂加料版1-29

日落归山海，没有人不遗憾，只是有人不喊疼什么意思

仿照六年级上册第25课《少年闰土》第一自然段写一句话，图片是有人在麦田里面。

广西壮文在线翻译器

吸入用异丙托溴铵溶液2ml:0.5mg和2ml:0.25mg有区别吗

海底两万里，几个事件的具体时间

读扇区错误！Err:1117 由于 I/O 设备错误，无法运行此项请求。

关键词列表

完整的语音交互过程包括哪几个关键环节，分别对应实现了什么过程

语音识别的过程是什么?语音识别的方法有哪几种?

TTS是什么意思呢？

IVR是什么？

信息沟通的过程分为6个环节是什么

语音交互设计的常见形式分析？

相关文章

热门文章

关键词列表