吴恩达机器学习ch11学习笔记

2020-04-26

Ch11 是对机器学习系统结构设计的探讨。对于模型训练，推荐先从简单入手，不断调优。对于二分类问题，有可能因为正负样本数量不均衡，导致类偏差的问题，引入了查准率和查全率的概念。最后对数据集的规模是否对模型有用，做了探讨。

准确率/查准率Precision：预测为正且正确的结果数占总预测结果数的比例
$$Precision = \frac{True;positives}{no.; of; predicted;as;positive} = \frac{True;positives}{True;positives + False;positives}$$
召回率/查全率Recall：预测为正且正确的结果数占实际为正的样本数的比例
$$Recall = \frac{True;positives}{no.; of; actual;positives} = \frac{True;positives}{True;positives + False; negatives}$$

对于一个垃圾邮件分类问题，若测试集中只有1%的垃圾邮件($y=1$)、99%的正常邮件($y=0$)，则：
1）若假设函数为$y=1$，则accuracy=0.99，recall=0/(0+99)=0，precision=0/(0+1)
2）若假设函数为$y=0$，则accuracy=0.01，recall=1/(1+99)=0.01，precision=1/(1+0)=1

所以无论数据集是否偏斜，只需要满足Precision和Recall均很高即可保证其实用性。

准确率与召回率的权衡

对二分类问题，我们对假设函数取一个阈值，进而分类。
$h_\theta(x)\geq threshold$，则$y=1$；$h_\theta(x) < threshold$，则$y=0$。

但针对不同的threshold，我们会有不同的Precision和Recall值，我们可以得到如下曲线：

11-2

threshould 设定越高，查准率Precision越高、查全率Recall越低。因为判断的准、但有更多正例被漏掉。
threshould 设定越低，查准率Precision越低、查全率Recall越高。因为找的全，但有更多负例被错判为正例。

于是我们引入一个评价指标：
$$F_1score = (2 * precision * recall) / (precision + recall)$$

$F_1score$越接近于1，则算法分类效果越好：

P=0，R=0–>F1=0
P=1,R=1–>F1=1

数据集规模

一般有，数据量越大，算法的性能就越好，但对于不同的分类算法，性能提升的幅度不同。我们有下图：
11-3

但对于欠拟合的模型，即使增加数据也无法获得好的效果。

所以：

如果模型欠拟合：增加特征（对神经网络增加hidden units）;
如果模型过拟合：增大数据集，使得$J_{cv} ≈ J_{train}$ ，从而降低过拟合。

BevanWu

吴恩达机器学习ch11学习笔记

目录

机器学习系统设计

垃圾邮件分类

误差分析

类偏差的误差度量

准确率与召回率的权衡

数据集规模