语音交互的系统构成

卖贝商城 2017-10-17 15:08:56 197

　　语音交互的系统构成

　　语音交互一般包括三个模块：

　　语音识别 ASR(Automatic Speech Recognition)，主要工作是将声音信息转化为文字。

　　自然语言处理 NLP(Natural Language Processing)，主要工作是理解人们想要表达的意思，并给出合理的反馈。

　　语音合成TTS( Text To Speech)，主要工作是指将文字转化为声音

　　《统计自然语言处理》给了更细致和完整的的人机对话系统组成结构，主要包括如下6个技术模块：

　　1，语音识别模块(speech recognizer)

　　实现用户输入语音到文字的识别转换，识别结果一般以得分最高的前n(n≥1)个句子或词格(word lattice)形式输出。(把用户说的语音转成文字)

　　2，语言解析模块 (language parser)

　　对语音识别结果进行分析理解，获得给定输入的内部表示。(即把用户说的转成机器理解的语言)

　　3，问题求解模块(problem resolving)

　　依据语言解析器的分析结果进行问题的推理或查询，求解用户问题的答案。 (即解决用户问题的模块，比如调用的百度搜索)

　　4，对话管理模块(dialogue management)

　　是系统的核心，一个理想的对话管理器应该能够基于对话历史调度人机交互机制，辅助语言解析器对语音识别结果进行正确的理解，为问题求解提供帮助，并指导语言的生成过程。可以说，对话管理机制是人机对话系统的中心枢纽。( 能够记录历史对话数据，通过训练能够给到用户更好的回答)

　　5，语言生成模块(language generator)

　　根据解析模块得到的内部表示，在对话管理机制的作用下生成自然语言句子。 (把回答的机器语言再转换成口语语言)

　　6，语音合成模块(speech synthesizer)

　　将生成模块生成的句子转换成语音输出。(把口语语言再转化成语音)