一个NotionNext搭建的博客
数据库系统概论
大数据原理与应用
javaWeb应用开发基础教程
python
毕业设计
大数据技术综合应用
实训-航空数据系统
java面向对象程序设计
数据结构
算法分析与设计
SPARK
Python爬虫大数据采集与挖掘
云计算
概率论与数理统计
数字逻辑
计算机网络
计算机组成原理
linux
操作系统
人工智能导论
数据仓库与数据挖掘
数据可视化
大数据安全与隐私保护
c语言
C++
[第十章]自然语言处理及其应用
概念
- 微观角度:自然语言到机器内部的映射
- 宏观角度:机器能执行人类期望的某种语言功能
产生和发展
语言处理过程的层次
文字表达:词素→词或词形→词组或句子
声音表达:音素→音节→音词→音句
词法分析
从句子中切分出单词,找到各个词素,并确定其词义
- 汉语特点:找出词素简单,切分词困难
- 英语特点:找出词素困难,切分词简单
句法分析
对句子或短语结构分析,确定构成句子的各个词、短语之间的关系以及各自在句子中的作用等,将关系用层次性就够加以表达,并对句法结构规范化
- 3型文法:正则文法
- 2型文法:上下文无关文法
- 1型文法:上下问有关文法
- 0型文法:无约束短语结构文法
语义分析
把分析得到的句法成分与应用领域的目标表示相关联
- 扩充转移网络ATN:语义信息加入句法分析,支持语义解释
- 语义文法:文法知识与语义知识组合起来
- 格文法:找出动词和跟动词处在结构关系中的名词的语义关系、动词或动词短语与其他名词短语的关系
语音分析
根据音位规则,从语言流中区分出各种独立的音素,再根据音位形态规则找出各个音节及其对应的词素或词
语用分析
外界环境对语言使用所产生的影响
机器翻译
直译式
通过快速分析和双语字典,翻译并重新排列译文词汇,使符合句法
规则式
先分析原文内容,产生句法结构,再转换成译文的句法结构,再产生译文
中介式
先生成中介表达方式,再由中介转为译文
知识库式
实用知识获取工具,建立翻译需要的知识库,构成翻译专家系统
统计式
为语言的产生构造某种合理的统计模型,根据句子相似程度,找出最相似的句子
范例式
将过去的翻译结果当成范例,产生一个范例库,参考翻译库近似的句子,并处理差异处
翻译记忆
用户建立多个翻译记忆库,系统自动搜索记忆库中相似的翻译资源,给出参考译文
神经机器翻译
模拟人脑翻译,机器学习
语音识别
完成语音到文字的转换
语音识别主要过程
语音信号采集
- 话筒(声波→电压)、A/D(声卡)(电压→数字信号)
- 分帧
- 状态
- 音素
- 声学模型
- 语音模型
语音信号预处理
- 滤波:一是一致输入信号中频率超出f/2的分量(f是采样频率)防止混叠干扰。抑制50 Hz电源工频干扰
- A/D变换
- 预加重:提升高频部分,使频谱变得平坦
- 端点检测:从包含语音的一段信号中确定出语音的起点和终点
语音信号的特征参数提取
- 根据香农采样定理,采样频率是需要记录的语音信号中包含最高语音频率的两倍以上
- 采集到的波形通过线性预测编码技术抽取语音特征
- 两个主要特征:振幅、频率
- 基本思想:相关性匹配,均方误差来确定
向量量化
数据压缩和编码技术,可作为马尔可夫模型中的输入观察符号
将若干标量数据组成一个向量,在多维空间整体量化,
向量量化:线性空间的观点,把标量改为一维标量,从而量化,空间分为多个小区域,每个区域寻找代表向量量化时落入该区域的向量就用代表向量代替,实现压缩
识别
- 模板匹配法
- 训练:每个词说一遍,特征向量作为模板存入模板库
- 识别:输入语音特征向量与模板库比较,相似度高输出
- 随机模型法
- 隐马尔可夫模型
- 概率语法分析
- 用于大长范围的连续语音识别
- 区别性特征:两个语音总有区别
- 构词、句法、语义等语用约束互相结合的知识系统
- 人工神经网络的语音识别
隐马尔可夫模型
序列可能出现的一种方法。“隐”指模型的状态集合观测不到
Prev
[第八章]人工神经网络与深度学习
Next
[第十一章]人工智能在游戏设计中的应用
Loading...