2.5 清洗和组织数据

至此,我们获得了一段目标的HTML代码,但还没有把数据提取出来,接下来在PyCharm中输入以下代码。

img

代码运行结果如图2-22所示。

img

图2-22

首先明确要提取的数据是标题和链接,标题在<a>标签中,提取标签的正文用get_text()方法;链接在<a>标签的href属性中,提取标签中的href属性用get()方法,在括号中指定要提取的属性数据,即get(&apos;href&apos;)。

从图2-23中可以发现,每篇文章的链接中都有一个数字ID。下面用正则表达式提取这个ID。

img

图2-23

需要使用的正则符号如下。

● \d:匹配数字。

● +:匹配前一个字符1次或多次。

在Python中调用正则表达式时使用re库,这个库不用安装,可以直接调用。在PyCharm中输入以下代码。

img

运行结果如图2-24所示。

这里使用re库的findall()方法,第一个参数表示正则表达式,第二个参数表示要提取的文本。