[第十章]自然语言处理及其应用

概念

  • 微观角度:自然语言到机器内部的映射
  • 宏观角度:机器能执行人类期望的某种语言功能

产生和发展

语言处理过程的层次

文字表达:词素→词或词形→词组或句子
声音表达:音素→音节→音词→音句

词法分析

从句子中切分出单词,找到各个词素,并确定其词义
  • 汉语特点:找出词素简单,切分词困难
  • 英语特点:找出词素困难,切分词简单

句法分析

对句子或短语结构分析,确定构成句子的各个词、短语之间的关系以及各自在句子中的作用等,将关系用层次性就够加以表达,并对句法结构规范化
  • 3型文法:正则文法
  • 2型文法:上下文无关文法
  • 1型文法:上下问有关文法
  • 0型文法:无约束短语结构文法

语义分析

把分析得到的句法成分与应用领域的目标表示相关联
  • 扩充转移网络ATN:语义信息加入句法分析,支持语义解释
  • 语义文法:文法知识与语义知识组合起来
  • 格文法:找出动词和跟动词处在结构关系中的名词的语义关系、动词或动词短语与其他名词短语的关系

语音分析

根据音位规则,从语言流中区分出各种独立的音素,再根据音位形态规则找出各个音节及其对应的词素或词

语用分析

外界环境对语言使用所产生的影响

机器翻译

直译式

通过快速分析和双语字典,翻译并重新排列译文词汇,使符合句法

规则式

先分析原文内容,产生句法结构,再转换成译文的句法结构,再产生译文

中介式

先生成中介表达方式,再由中介转为译文

知识库式

实用知识获取工具,建立翻译需要的知识库,构成翻译专家系统

统计式

为语言的产生构造某种合理的统计模型,根据句子相似程度,找出最相似的句子

范例式

将过去的翻译结果当成范例,产生一个范例库,参考翻译库近似的句子,并处理差异处

翻译记忆

用户建立多个翻译记忆库,系统自动搜索记忆库中相似的翻译资源,给出参考译文

神经机器翻译

模拟人脑翻译,机器学习

语音识别

完成语音到文字的转换

语音识别主要过程

语音信号采集

  • 话筒(声波→电压)、A/D(声卡)(电压→数字信号)
  • 分帧
  • 状态
  • 音素
  • 声学模型
  • 语音模型

语音信号预处理

  • 滤波:一是一致输入信号中频率超出f/2的分量(f是采样频率)防止混叠干扰。抑制50 Hz电源工频干扰
  • A/D变换
  • 预加重:提升高频部分,使频谱变得平坦
  • 端点检测:从包含语音的一段信号中确定出语音的起点和终点

语音信号的特征参数提取

  • 根据香农采样定理,采样频率是需要记录的语音信号中包含最高语音频率的两倍以上
  • 采集到的波形通过线性预测编码技术抽取语音特征
  • 两个主要特征:振幅、频率
  • 基本思想:相关性匹配,均方误差来确定

向量量化

数据压缩和编码技术,可作为马尔可夫模型中的输入观察符号
将若干标量数据组成一个向量,在多维空间整体量化,
向量量化:线性空间的观点,把标量改为一维标量,从而量化,空间分为多个小区域,每个区域寻找代表向量量化时落入该区域的向量就用代表向量代替,实现压缩

识别

  • 模板匹配法
    • 训练:每个词说一遍,特征向量作为模板存入模板库
    • 识别:输入语音特征向量与模板库比较,相似度高输出
  • 随机模型法
    • 隐马尔可夫模型
  • 概率语法分析
    • 用于大长范围的连续语音识别
    • 区别性特征:两个语音总有区别
    • 构词、句法、语义等语用约束互相结合的知识系统
  • 人工神经网络的语音识别

隐马尔可夫模型

序列可能出现的一种方法。“隐”指模型的状态集合观测不到
 
Prev
[第八章]人工神经网络与深度学习
Next
[第十一章]人工智能在游戏设计中的应用
Loading...
Article List
一个NotionNext搭建的博客
数据库系统概论
大数据原理与应用
javaWeb应用开发基础教程
python
毕业设计
大数据技术综合应用
实训-航空数据系统
java面向对象程序设计
数据结构
算法分析与设计
SPARK
Python爬虫大数据采集与挖掘
云计算
概率论与数理统计
数字逻辑
计算机网络
计算机组成原理
linux
操作系统
人工智能导论
数据仓库与数据挖掘
数据可视化
大数据安全与隐私保护
c语言
C++