封面
版权信息
内容简介
本书编写组
前言
第1章 智能语音处理导论
1.1 概述
1.2 经典语音处理
1.2.1 语音处理的发展
1.2.2 语音基本表示方法
1.2.3 语音处理基本方法
1.2.4 经典语音处理方法的不足
1.3 智能语音处理
1.3.1 智能语音处理的基本概念
1.3.2 智能语音处理的基本框架
1.3.3 智能语音处理的基本模型
1.4 语音处理的应用
1.4.1 语音处理的传统应用领域
1.4.2 语音处理的新应用领域
1.5 小结
参考文献
第2章 稀疏和压缩感知
2.1 引言
2.2 稀疏和稀疏表示
2.2.1 稀疏
2.2.2 稀疏表示
2.3 冗余字典
2.3.1 基本概念
2.3.2 字典学习
2.3.3 字典学习算法
2.3.4 原子选择算法
2.4 压缩感知
2.4.1 基本概念
2.4.2 压缩感知模型
2.4.3 观测矩阵
2.4.4 信号重构
2.5 小结
参考文献
第3章 隐变量模型
3.1 引言
3.2 高斯混合模型
3.2.1 基本概念
3.2.2 GMM参数估计
3.3 隐马尔可夫模型
3.3.1 基本概念
3.3.2 HMM关键问题
3.4 高斯过程隐变量模型
3.4.1 基本模型
3.4.2 GPLVM的理论来源
3.4.3 GPLVM模型训练
3.5 小结
参考文献
第4章 组合模型
4.1 引言
4.2 主成分分析
4.2.1 基本模型
4.2.2 求解算法
4.3 非负矩阵分解
4.3.1 基本模型
4.3.2 求解算法
4.3.3 NMF与其他数据表示模型的关系
4.4 鲁棒组合模型
4.4.1 组合模型的鲁棒性分析
4.4.2 鲁棒主成分分析
4.4.3 鲁棒非负矩阵分解
4.5 小结
参考文献
第5章 人工神经网络和深度学习
5.1 引言
5.2 神经网络基础
5.2.1 神经元模型
5.2.2 浅层神经网络
5.2.3 深度神经网络
5.3 深度学习
5.3.1 基本概念和形式
5.3.2 深度网络的学习方法
5.4 深度神经网络的典型结构
5.4.1 深度置信网络
5.4.2 自动编码器与栈式自动编码器
5.4.3 卷积神经网络
5.4.4 循环神经网络
5.4.5 生成式对抗网络
5.5 小结
参考文献
第6章 语音压缩编码
6.1 引言
6.2 基于字典学习的语音信号压缩感知
6.2.1 语音信号的稀疏性
6.2.2 语音在常见变换域的稀疏化
6.2.3 基于K-L展开的语音非相干字典
6.2.4 基于K-L非相干字典的语音压缩重构
6.2.5 实验仿真与性能分析
6.3 基于梅尔倒谱系数重构的语音压缩编码
6.3.1 基于梅尔倒谱分析的抗噪语音编码模型
6.3.2 基于稀疏约束的梅尔倒谱合成
6.3.3 梅尔倒谱系数的量化算法
6.3.4 实验仿真与性能分析
6.4 基于深度学习的语音压缩编码
6.4.1 基于DAE的幅度谱编码和量化
6.4.2 基于DAE的低速率语音编码
6.4.3 实验仿真与性能分析
6.5 小结
参考文献
第7章 语音增强
7.1 引言
7.2 语音增强技术基础
7.2.1 语音增强的估计参数
7.2.2 智能语音增强的语音特征
7.2.3 性能评价
7.3 基于非负矩阵分解的语音增强
7.3.1 基本模型
7.3.2 基于不相交约束非负矩阵分解的语音增强
7.3.3 基于CNMF字典学习的语音增强
7.4 基于深度学习的语音增强
7.4.1 基于听觉感知加权的深度神经网络语音增强方法
7.4.2 基于听觉感知掩蔽的深度神经网络语音增强方法
7.5 小结
参考文献
第8章 语音转换
8.1 引言
8.2 语音转换基本原理
8.3 语音转换模型与评价
8.3.1 语音分析/合成模型
8.3.2 语音参数的选择
8.3.3 时间对齐
8.3.4 转换模型和规则
8.3.5 转换性能评价
8.4 基于非负矩阵分解的谱转换
8.4.1 概述
8.4.2 基于卷积非负矩阵分解的谱转换
8.4.3 声道谱转换效果
8.5 基于深度神经网络的谱转换
8.5.1 深度学习驱动下的语音转换
8.5.2 面向谱转换的神经网络模型选择
8.5.3 基于BLSTM和神经网络声码器交替训练的语音转换
8.6 小结
参考文献
第9章 说话人识别
9.1 引言
9.2 说话人识别基础
9.2.1 说话人识别系统框架
9.2.2 典型的说话人识别模型
9.3 基于i-vector的说话人识别及其改进
9.3.1 基于i-vector的说话人识别概述
9.3.2 用于提高i-vector鲁棒性的帧加权方法
9.3.3 实验结果与分析
9.4 基于深度神经网络的说话人识别
9.4.1 基于深度神经网络的说话人识别概述
9.4.2 基于对比度损失函数优化说话人矢量
9.4.3 实验结果与分析
9.5 说话人识别系统的攻击与防御
9.5.1 攻击和防御的背景
9.5.2 说话人识别系统的攻击方法
9.5.3 说话人识别攻击的检测方法
9.5.4 实验结果与分析
9.6 小结
参考文献
第10章 骨导语音增强
10.1 引言
10.2 骨导语音增强基础
10.2.1 骨导语音的产生与特性
10.2.2 骨导语音盲增强的特点
10.2.3 骨导语音盲增强的典型方法
10.3 基于长短时记忆网络的骨导语音盲增强
10.3.1 骨导/气导语音的谱映射
10.3.2 基于深度残差BLSTM的骨导语音盲增强方法
10.3.3 实验仿真及性能分析
10.4 基于均衡-生成组合谱映射的骨导语音盲增强
10.4.1 均衡法
10.4.2 基于均衡-生成组合谱映射的骨导语音盲增强方法
10.4.3 实验仿真及性能分析
10.5 小结
参考文献
第11章 智能语音处理展望
11.1 智能语音处理的未来
11.2 有待解决的关键技术
11.2.1 语音识别
11.2.2 语音合成
11.2.3 语音增强
11.2.4 语音处理中的安全问题
11.3 小结
参考文献
缩略语
更新时间:2020-11-05 10:07:47