2.8 习题

一、选择题

1.下列哪个快捷键可以打开网页源代码?( )

A.【Shift+A】

B.【Shift+U】

C.【Ctrl+A】

D.【Ctrl+U】

2.下列哪个不是文件的编码格式?( )

A.UTF-8

B.ANSI

C.GBK

D.str

3.下列哪种是Unicode编码的书写方式?( )

A.a='中文'

B.a=r'中文'

C.a=u'中文'

D.a=b'中文'

4.下列关于Beautiful Soup的表述有误的是( )。

A.Beautiful Soup不仅支持Python标准库中的HTML解析器,还支持一些第三方解析器

B.Beautiful Soup可将复杂的HTML文档转换成树形结构

C.Beautiful Soup唯一的搜索方法是find_all()

D.Beautiful Soup 3 当前已停止维护

5.Beautiful Soup自动将输入文档转换为以下哪种编码?( )

A.Unicode

B.UTF-8

C.GBK

D.ASCII码

6.以下哪个选项不是GET方式和POST方式的区别?( )

A.GET从服务器上获取数据,POST向服务器传送数据

B.GET安全性非常低,POST安全性较高

C.GET执行效率比POST好

D.POST传送的数据量小于GET

7.下列关于爬虫的说法有误的是( )。

A.请求头是将自身伪装成浏览器的关键

B.大型网站通常都会根据Referer参数判断请求的来源

C.编码问题的存在会使爬虫程序报错

D.请求携带的参数封装在一个字典中,当作参数传给POST或GET

8.爬虫爬取数据的流程包括以下哪些选项?( )

A.发送请求

B.获取响应内容

C.解析内容

D.保存数据

9.关于网页结构的阐述,下列哪个选项是正确的?( )

A.<body>表示用户可见内容

B.<div>表示框架

C.<P>表示列表

D.<li>表示段落

10.以下哪些是requests库获取网页的方法?( )

A.requests.request()

B.requests.get()

C.requests.post()

D.requests.delete()

11.下列哪个选项可以复制路径?( )

A.copy xpath

B.copy selector

C.copy outerHTML

D.copy element

二、判断题

1.网页一般由三部分组成,分别为HTML(超文本标记语言)、CSS(层叠样式表)和JScript(活动脚本语言)。( )

2.安装好Python之后,就已经安装了requests库。( )

3.GET请求获取数据的方式不同于POST,GET请求数据必须构建请求头。( )

4.POST方式需要权限验证和请求内容,服务器通过权限放行,该方式具有查询和修改数据的权限。( )

5.requests库返回的数据可以是JSON格式的数据。( )

6.requests 是用Python语言编写的,基于 urllib,采用 Apache 2 Licensed 开源协议的 HTTP 库。( )

7.爬虫程序尽可能模拟浏览器发送请求就一定能爬取到数据。( )

8.导入Beautiful Soup时要先安装bs4库。( )

9.lxml解析器将文档转换成树形结构。( )

10.正则表达式\d可以用来匹配数字。( )

11.正则表达式由一些普通字符和一些元字符组成。( )

12.在Python中\n表示换行符。( )

13.如果需要在单引号之前或字符串结尾出现一个反斜杠,则需要用两个反斜杠表示。( )

14.通过User-Agent可以识别出是浏览器访问网页还是代码访问网页。( )

15.当遇到反爬虫时,构建请求头的伪装效果优于构建IP池。( )

三、应用题

用POST方式对某网页标题进行爬取,爬取内容如下图所示。

img