- 大话机器智能:一书看透AI的底层运行逻辑
- 徐晟
- 187字
- 2021-12-14 15:00:50
2.2 数据收集的偏差
数据收集是一项重要的工作,需要投入大量精力和时间,这是因为数据质量直接关乎分析结论的成败。然而,错误的数据收集方法可能造成结果偏差。比如统计对象出现错误,明明应该统计数据集合A,却统计了数据集合B。又比如统计对象不全面,只抽样了部分数据,却没有统计全体,或者忽略了数据分布存在偏斜等。这些错误的数据收集方法会产生两种常见的数据偏差——幸存者偏差和选择性偏差。
数据收集是一项重要的工作,需要投入大量精力和时间,这是因为数据质量直接关乎分析结论的成败。然而,错误的数据收集方法可能造成结果偏差。比如统计对象出现错误,明明应该统计数据集合A,却统计了数据集合B。又比如统计对象不全面,只抽样了部分数据,却没有统计全体,或者忽略了数据分布存在偏斜等。这些错误的数据收集方法会产生两种常见的数据偏差——幸存者偏差和选择性偏差。