第2章 数据存储方式的演进

对于小批量的数据,可以使用“记事本”程序将其保存到硬盘里。但如果数据量越来越多,类型越来复杂,使用“记事本”程序保存就难以查询和修改。数据库的出现,就是为了便于从大量数据中查询和修改内容。

在程序开发中,常常涉及一些中间数据,这些中间数据会被频繁读/写。如果仅仅把中间数据放在内存中,则不便于从外界观察程序运行到了什么状态。而把中间数据保存到基于硬盘的传统数据库,又会影响程序性能。内存数据库的出现,就解决了这个问题。

2.1 从文件到MongoDB数据库

2.1.1 使用文件保存数据

对于少量数据,可以使用“记事本”程序来保存。但如果需要对数据进行计算,那么记事本显然就不能胜任了。此时可以考虑 Excel。还可以使用 Excel 的数据透视表来统计数据,如图2-1所示。

图2-1 使用数据透视表统计数据

Excel的一张表可以存放100万行左右的数据,那如果每天的数据都超过100万行呢?此时就不得不使用数据库来保存了。

2.1.2 使用MongoDB保存数据

使用数据库,可以保存大量的数据,这是数据库最基本的功能。另外,数据库还能够对数据进行逻辑运算、数学运算、搜索、批量修改或删除。

相比于传统的关系型数据库,MongoDB对于每一次插入的字段格式没有要求,字段可以随意变动,字段类型也可以随意变动,如图2-2所示。

图2-2 MongoDB对字段格式与内容不做限制

MongoDB可以并发插入上万条文档,这是传统关系型数据库所不能望其项背的。

2.2 从队列Queue到Redis

在某些场景下,使用队列可以提高程序的运行性能,但如何选择合适的队列也需要仔细考虑。

2.2.1 了解“生产者/消费者”模型

在餐馆吃饭时,厨师做完一道菜后就会把菜从传菜窗口递出去,然后继续做下一道菜。厨师不需要关心顾客是不是已经把菜吃完了。如果厨师做菜的速度大于顾客拿菜的速度,那么就会有越来越多的菜堆在传菜窗口。如果顾客拿菜的速度大于厨师做菜的速度,那么传菜窗口始终是空的,来一道菜就会立刻被拿走。

在程序开发中,这就是一个典型的“生产者/消费者”模型:厨师是生产者,负责生产;顾客是消费者,负责消费。厨师和顾客各做各的事情。传菜窗口就是队列,它把生产者与消费者联系在一起。

2.2.2 实例1:使用Python实现队列

实例描述

使用Python自带的queue对象来实现队列:

(1)使用Python实现一个简单的“生产者/消费者”模型。

(2)使用Python的queue对象做信息队列。

在Python使用多线程实现生产者与消费者的程序中,可以使用Python自带的queue对象来作为生产者与消费者沟通的队列。

在代码2-1中,生产者负责产生两个数字,消费者负责把两个数字相加。

代码2-1 简单的“生产者/消费者”队列

生产者固定每两秒生产一组数,然后把这一组数放进队列里。

消费者每次从队列里面取一组数,将它们相加然后打印出来。消费者取一次数的时间是1~10秒中的一个随机时间。

由于生产过程和消费过程的时间不对等,所以,可能会出现生产者生产的数据堆积在队列中的情况,如图2-3所示。

图2-3 生产的数据堆积

2.2.3 Python的Queue及其缺陷

代码2-1的运行结果存在两种情况:

● 如果消费者每次暂停的时间都小于2秒,那么队列始终是空的,来一组数立刻就被消费。

● 如果消费者每次暂停的时间都大于2秒,那么队列里的数就会越来越多。

但是,由于消费者暂停时间是随机的,我们不能提前知道它每次会暂停多久。

假定程序运行了1小时,请问队列里有多少数据?

如果使用Python自带的队列,就会出现以上的疑问。因为开发者不能直接看到队列的长度。如果开发者一开始就考虑到“需要随时观察队列长度”这个需求,那么可以通过对代码做一些修改来实现。但如果一开始没有打算观察队列长度,仅仅是临时起意,那该怎么办?

如果不仅想看队列长度,还想看里面每一组数都是什么,又该如何操作?

假设队列里已经堆积了一百组数,现在想增加消费者,该怎么增加?

如再运行一个Python程序,那能去读第一个正在运行中的Python程序中的队列吗?

Python 把队列中的数据存放在内存中。如果电脑突然断电,那队列里的数是不是全都丢失了?

为了防止丢数据,是否需要把数据持久化到硬盘?那持久化的代码怎么写,代码量有多少,考不考虑并发和读写冲突?

为了解决上述问题,在代码2-1的基础上,代码量要翻倍翻倍再翻倍。

2.2.4 实例2:使用Redis替代Queue

实例描述

使用Redis作为队列,从而解决实例1中遇到的各种问题。

(1)拆分“生产者/消费者”队列。

(2)使用Redis的列表作为队列。

如果使用Redis代替Python自带的队列,解决2.2.3小节中提出的所有问题,则代码量的变化甚至可以忽略不计。把生产者代码和消费者代码分别写到两个文件中。

1.生产者代码

代码2-2 使用Redis后的生产者代码

2.消费者代码

代码2-3 使用Redis后的消费者代码

提示:

读者不必太纠结本章中的代码,本书后面的章会对各个知识点做详细的解读。

现在,生产者和消费者可以放在不同的机器上运行,想运行多少个消费者就运行多少个消费者,想什么时候增加消费者都没有问题。

如果想观察当前队列里有多少数据,或者想看看具体有哪些数据在队列里,则执行一条命令:“llen队列名称”即可。图2-4中,当前队列中已经堆积了35组数据。

图2-4 观察当前队列中有多少数据

Redis自己会对数据做持久化处理,所以,即使电脑断电也不必担心。甚至,开发者还可以通过修改队列中的数据,从而影响消费者的输出结果。

本章小结

本章简单介绍了MongoDB与Redis的两个应用实例,从而引出了MongoDB和Redis在实际应用中的优势。其中,MongoDB 可以用来保存大量数据,且字段和格式均可以随意改变;Redis扩展了队列的应用范围,使得开发者可以方便地观察程序的运行状况,甚至在运行中改变程序的行为。