封面
版权页
内容简介
前言PREFACE
第1章 自然语言处理概述
1.1 人工智能发展历程
1.1.1 第一阶段:20年黄金时代
1.1.2 第二阶段:第一次寒冬
1.1.3 第三阶段:繁荣期
1.1.4 第四阶段:第二次寒冬
1.1.5 第五阶段:稳健时代
1.2 自然语言处理
1.2.1 概述
1.2.2 发展历程
1.2.3 处理流程
1.2.4 研究内容
1.3 机器学习算法
1.3.1 监督学习
1.3.2 无监督学习
1.4 自然语言处理相关库
1.4.1 NumPy
1.4.2 Matplotlib
1.4.3 Pandas
1.4.4 SciPy
1.4.5 NLTK
1.4.6 SnowNLP
1.4.7 Sklearn
1.5 语料库
1.5.1 认识语料库
1.5.2 分类
1.5.3 构建原则
1.5.4 常用语料库
1.5.5 搜狗新闻语料库
第2章 Python语言简述
2.1 Python简介
2.1.1 Python发展历程
2.1.2 Python的特点
2.1.3 Python应用场合
2.2 Python解释器
2.2.1 Ubuntu下安装Python
2.2.2 Windows下安装Python
2.3 Python编辑器
2.3.1 IDLE
2.3.2 VS Code
2.3.3 PyCharm
2.3.4 Anaconda
2.3.5 Jupyter
2.4 代码书写规则
2.4.1 缩进
2.4.2 多行语句
2.4.3 注释
2.4.4 编码习惯
2.5 自学网站
2.5.1 菜鸟网站
2.5.2 廖雪峰学Python网站
2.5.3 Python官方网站
2.5.4 Python-100天从新手到大师网站
第3章 Python数据类型
3.1 变量
3.1.1 变量命名
3.1.2 变量引用
3.2 运算符
3.2.1 算术运算符
3.2.2 关系运算符
3.2.3 赋值运算符
3.2.4 逻辑运算符
3.2.5 位运算符
3.2.6 成员运算符
3.2.7 身份运算符
3.3 表达式
3.3.1 概念
3.3.2 操作
3.4 数据类型
3.5 数字
3.5.1 概念
3.5.2 操作
3.6 字符串
3.6.1 概念
3.6.2 操作
3.7 列表
3.7.1 概念
3.7.2 操作
3.8 元组
3.8.1 概念
3.8.2 操作
3.9 字典
3.9.1 字典的概念
3.9.2 字典操作
3.9.3 字典举例
3.10 集合
3.10.1 集合的概念
3.10.2 集合操作
3.10.3 集合举例
3.11 组合数据类型
3.11.1 相互关系
3.11.2 数据类型转换
第4章 Python流程控制
4.1 流程结构
4.2 顺序结构
4.2.1 输入输出
4.2.2 举例
4.3 选择结构
4.3.1 单分支
4.3.2 双分支
4.3.3 多分支
4.3.4 分支嵌套
4.4 循环概述
4.4.1 循环结构
4.4.2 循环分类
4.5 while语句
4.5.1 基本形式
4.5.2 else语句
4.5.3 无限循环
4.6 for语句
4.6.1 应用序列类型
4.6.2 内置函数range()
4.7 循环嵌套
4.7.1 原理
4.7.2 实现
4.8 辅助语句
4.8.1 break语句
4.8.2 continue语句
4.8.3 pass语句
第5章 Python函数
5.1 函数声明与调用
5.1.1 函数声明
5.1.2 函数调用
5.1.3 函数返回值
5.2 参数传递
5.2.1 实参与形参
5.2.2 传对象引用
5.3 参数分类
5.3.1 必备参数
5.3.2 默认参数
5.3.3 关键参数
5.3.4 不定长参数
5.4 两类特殊函数
5.4.1 匿名函数
5.4.2 递归函数
第6章 Python数据科学
6.1 科学计算
6.2 NumPy
6.2.1 认识NumPy
6.2.2 创建数组
6.2.3 查看数组
6.2.4 索引和切片
6.2.5 矩阵运算
6.3 Matplotlib
6.3.1 认识Matplotlib
6.3.2 线形图
6.3.3 散点图
6.3.4 饼状图
6.3.5 直方图
6.4 Pandas
6.4.1 认识Pandas
6.4.2 Series
6.4.3 DataFrame
6.4.4 Index
6.4.5 Plot
6.5 SciPy
6.5.1 认识SciPy
6.5.2 稀疏矩阵
6.5.3 线性代数
6.6 Seaborn
6.6.1 认识Seaborn
6.6.2 图表分类
第7章 Sklearn和NLTK
7.1 Sklearn简介
7.2 安装Sklearn
7.3 数据集
7.3.1 小数据集
7.3.2 大数据集
7.3.3 生成数据集
7.4 机器学习流程
7.4.1 语料清洗
7.4.2 划分数据集
7.4.3 特征工程
7.4.4 机器算法
7.4.5 模型评估
7.5 NLTK简介
7.6 NLTK语料库
7.6.1 inaugural语料库
7.6.2 gutenberg语料库
7.6.3 movie_reviews语料库
7.7 NLTK文本分类
7.7.1 分句分词
7.7.2 停止词
7.7.3 词干提取
7.7.4 词形还原
7.7.5 同义词与反义词
7.7.6 语义相关性
第8章 语料清洗
8.1 认识语料清洗
8.2 清洗策略
8.2.1 一致性检查
8.2.2 格式内容检查
8.2.3 逻辑检查
8.3 缺失值清洗
8.3.1 认识缺失值
8.3.2 Pandas处理
8.3.3 Sklearn处理
8.4 异常值清洗
8.4.1 散点图方法
8.4.2 箱线图方法
8.4.3 3σ法则
8.5 重复值清洗
8.5.1 NumPy处理
8.5.2 Pandas处理
8.6 数据转换
8.6.1 数据值替换
8.6.2 数据值映射
8.6.3 数据值合并
8.6.4 数据值补充
8.7 Missingno库
8.7.1 认识Missingno库
8.7.2 示例
8.8 词云
8.8.1 认识词云
8.8.2 示例
第9章 特征工程
9.1 特征预处理
9.1.1 归一化
9.1.2 标准化
9.1.3 鲁棒化
9.1.4 正则化
9.1.5 示例
9.2 独热编码
9.2.1 认识独热编码
9.2.2 Pandas实现
9.2.3 Sklearn实现
9.2.4 DictVectorizer
9.3 CountVectorizer
9.3.1 认识CountVectorizer
9.3.2 Sklearn调用CountVectorizer
9.4 TF-IDF
9.4.1 认识TF-IDF
9.4.2 计算TF-IDF
9.4.3 Sklearn调用TF-IDF
第10章 中文分词
10.1 概述
10.1.1 简介
10.1.2 特点
10.2 常见中文分词方法
10.2.1 基于规则和词表方法
10.2.2 基于统计方法
10.2.3 基于理解方法
10.3 中文分词困惑
10.4 jieba分词库
10.4.1 认识jieba
10.4.2 三种模式
10.4.3 自定义词典
10.4.4 词性标注
10.4.5 断词位置
10.4.6 关键词抽取
10.4.7 停止词表
10.5 HanLP分词
10.5.1 认识HanLP
10.5.2 pyhanlp
10.5.3 中文分词
10.5.4 依存分析使用
10.5.5 关键词提取
10.5.6 命名实体识别
10.5.7 自定义词典
10.5.8 简体繁体转换
10.5.9 摘要提取
第11章 文本分类
11.1 历史回顾
11.2 文本分类方法
11.2.1 朴素贝叶斯
11.2.2 支持向量机
11.3 贝叶斯定理
11.4 朴素贝叶斯
11.4.1 GaussianNB方法
11.4.2 MultinomialNB方法
11.4.3 BernoulliNB方法
11.5 朴素贝叶斯进行新闻分类
11.6 支持向量机
11.6.1 线性核函数
11.6.2 多项式核函数
11.6.3 高斯核函数
11.7 支持向量机对鸢尾花分类
11.8 垃圾邮件分类
11.8.1 朴素贝叶斯定理实现
11.8.2 Sklearn朴素贝叶斯实现
第12章 文本聚类
12.1 概述
12.1.1 算法原理
12.1.2 流程
12.2 K-Means算法
12.2.1 算法原理
12.2.2 数学理论实现
12.2.3 Python实现
12.3 主成分分析
12.3.1 算法原理
12.3.2 components参数
12.3.3 对鸢尾花数据降维
12.4 K-Means评估指标
12.4.1 调整兰德系数
12.4.2 轮廓系数
12.5 K-Means英文文本聚类
12.5.1 构建DataFrame数据
12.5.2 进行分词和停止词去除
12.5.3 向量化
12.5.4 TF-IDF模型
12.5.5 计算余弦相似度
12.5.6 K-Means聚类
12.6 K-Means中文文本聚类
12.6.1 程序流程
12.6.2 程序文件
12.6.3 执行代码
第13章 评价指标
13.1 Sklearn中的评价指标
13.2 混淆矩阵
13.2.1 认识混淆矩阵
13.2.2 Pandas计算混淆矩阵
13.2.3 Sklearn计算混淆矩阵
13.3 准确率
13.3.1 认识准确率
13.3.2 Sklearn计算准确率
13.4 精确率
13.4.1 认识精确率
13.4.2 Sklearn计算精确率
13.5 召回率
13.5.1 认识召回率
13.5.2 Sklearn计算召回率
13.6 F1 Score
13.6.1 认识F1 Score
13.6.2 Sklearn计算F1 Score
13.7 综合实例
13.7.1 数学计算评价指标
13.7.2 Python计算评价指标
13.8 ROC曲线
13.8.1 认识ROC曲线
13.8.2 Sklearn计算ROC曲线
13.9 AUC面积
13.9.1 认识AUC面积
13.9.2 Sklearn计算AUC面积
13.10 分类评估报告
13.10.1 认识分类评估报告
13.10.2 Sklearn计算分类评估报告
13.11 NLP评价指标
13.11.1 中文分词精确率和召回率
13.11.2 未登录词和登录词召回率
第14章 信息提取
14.1 概述
14.2 相关概念
14.2.1 信息
14.2.2 信息熵
14.2.3 信息熵与霍夫曼编码
14.2.4 互信息
14.3 正则表达式
14.3.1 基本语法
14.3.2 re模块
14.3.3 提取电影信息
14.4 命名实体识别
14.4.1 认识命名实体
14.4.2 常见方法
14.4.3 NLTK命名实体识别
14.4.4 Stanford NLP命名实体识别
14.5 马尔可夫模型
14.5.1 认识马尔可夫
14.5.2 隐马尔可夫模型
第15章 情感分析
15.1 概述
15.1.1 认识情感分析
15.1.2 基于词典方法
15.2 情感倾向分析
15.2.1 情感词
15.2.2 程度词
15.2.3 感叹号
15.2.4 否定词
15.3 textblob
15.3.1 分句分词
15.3.2 词性标注
15.3.3 情感分析
15.3.4 单复数
15.3.5 过去式
15.3.6 拼写校正
15.3.7 词频统计
15.4 SnowNLP
15.4.1 分词
15.4.2 词性标注
15.4.3 断句
15.4.4 情绪判断
15.4.5 拼音
15.4.6 繁转简
15.4.7 关键字抽取
15.4.8 摘要抽取
15.4.9 词频和逆文档词频
15.5 Gensim
15.5.1 认识Gensim
15.5.2 认识LDA
15.5.3 Gensim实现LDA
15.6 小说人物情感分析
15.6.1 流程
15.6.2 代码
15.7 电影影评情感分析
15.7.1 流程
15.7.2 代码
附录A 教学大纲
参考文献
更新时间:2022-07-28 19:15:01