语音交互的系统构成

  语音交互的系统构成

  语音交互一般包括三个模块:

  语音识别 ASR(Automatic Speech Recognition),主要工作是将声音信息转化为文字。

  自然语言处理 NLP(Natural Language Processing),主要工作是理解人们想要表达的意思,并给出合理的反馈。

  语音合成TTS( Text To Speech),主要工作是指将文字转化为声音

  《统计自然语言处理》给了更细致和完整的的人机对话系统组成结构,主要包括如下6个技术模块:

  

语音交互的系统构成


  1,语音识别模块(speech recognizer)

  实现用户输入语音到文字的识别转换,识别结果一般以得分最高的前n(n≥1)个句子或词格(word lattice)形式输出。(把用户说的语音转成文字)

  2,语言解析模块 (language parser)

  对语音识别结果进行分析理解,获得给定输入的内部表示。(即把用户说的转成机器理解的语言)

  3,问题求解模块(problem resolving)

  依据语言解析器的分析结果进行问题的推理或查询,求解用户问题的答案。 (即解决用户问题的模块,比如调用的百度搜索)

  4,对话管理模块(dialogue management)

  是系统的核心,一个理想的对话管理器应该能够基于对话历史调度人机交互机制,辅助语言解析器对语音识别结果进行正确的理解,为问题求解提供帮助,并指导语言的生成过程。可以说,对话管理机制是人机对话系统的中心枢纽。( 能够记录历史对话数据,通过训练能够给到用户更好的回答)

  5,语言生成模块(language generator)

  根据解析模块得到的内部表示,在对话管理机制的作用下生成自然语言句子。 (把回答的机器语言再转换成 口语语言)

  6,语音合成模块(speech synthesizer)

  将生成模块生成的句子转换成语音输出。(把口语语言再转化成语音)




卖贝商城更多商品介绍:徐妍馨微博推广     第一旅讯新闻源推广    海南旅游卫视我是超人广告投放