习题

2.1 数据集包含1000个样本,其中500个正例、500个反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。

2.2 数据集包含100个样本,其中正、反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。

2.3 若学习器A的F1值比学习器B高,试析A的BEP值是否也比B高。

2.4 试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。

2.5 试证明式(2.22)。

2.6 试述错误率与ROC曲线的联系。

2.7 试证明任意一条ROC曲线都有一条代价曲线与之对应,反之亦然。

2.8 Min-max规范化和𝑧-score规范化是两种常用的规范化方法。令x和x′分别表示变量在规范化前后的取值,相应的,令xmin和xmax表示规范化前的最小值和最大值,x′min和x′max表示规范化后的最小值和最大值,和σx分别表示规范化前的均值和标准差,则min-max规范化、𝑧-score规范化分别如式(2.43)和(2.44)所示。试析二者的优缺点。

2.9 试述2检验过程。

2.10* 试述在Friedman检验中使用式(2.34)与(2.35)的区别。