- Python 3 爬虫、数据清洗与可视化实战(第2版)
- 零一
- 321字
- 2020-08-27 11:26:25
2.7 关于什么时候存储数据
许多人认为存储数据的环节是在清洗和组织数据之后,但实际上并不然。我们在工作中经常会遇到这样的场景,甲方或老板告诉你要采集某网站的文章标题,当你把标题采集下来后,对方说每个标题还需要对应上点赞数。此时如果有原始资料,则可以直接从原始资料中将“点赞数”字段清洗出来;如果没有原始资料,就需要重新采集,但如果重新采集时第一次采集的文章中有一部分被删除了,则会出现两次采集数据不相符的情况。在某些场景下,这种情况很尴尬,很难解释清楚,只能承认自己失误。
因此,数据存储一般发生在获取到网页的HTML或数据之后,未经过清洗和组织的数据是必须要保存的资料。保存好这些资料后,再写清洗和组织数据的脚本,将数据提取出来重新存入数据库或数据表中。