1.2 环境搭建及安装

在了解了相关背景知识后,我们将进入实际的操作阶段。Pandas需要运行在Python环境中,因此我们需要先安装Python开发环境,同时还需要安装代码编辑工具。它们的依赖关系如图1-2所示。

023-1

图1-2 Pandas安装依赖图

首先,在我们的电脑上必须有操作系统,如Windows,而开发语言如Python的解释器就安装在操作系统上。其次,Pandas是Python的第三方库,因而安装在Python环境下。最后,我们要安装代码编辑器,这有两种模式:一种是直接安装在操作系统上,如Sublime Text、Visual Studio Code、PyCharm之类;另一种是安装在Python环境下(本书推荐的Jupyter就作为一个三方库安装在Python环境下)。

1.2.1 Python环境安装

Python作为一门编程语言,它的代码需要一个解释器来进行解释,这个解析器就是专门针对Python代码的,只有它才知道这些代码是什么意思。当然,你可以从Python的官网(https://www.python.org)的下载栏目下载安装包,下载时需要按自己实际的操作系统(Windows、macOS等)下载相应的包,进行界面化安装。但我并不推荐这种方式,原因如下:

  • 这种安装方式比较复杂,对新手不友好,比如在Windows中还要设置一些环境变量;
  • 容易与已有的Python冲突,macOS操作系统会自带Python(注意:它是2.x版本,并不能直接使用);
  • 无法灵活切换Python版本,有时我们需要使用特定版本的Python,需要灵活切换,而这种方式无法做到。

那么怎样避免以上问题呢?推荐使用Anaconda,它是一个环境套件,能够解决上述问题。

1.2.2 Anaconda简介

Anaconda(https://www.anaconda.com)是一个用于科学计算的Python发行版,支持Linux、macOS和Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本Python并存、切换以及各种第三方包安装问题。

说到这里,先不要动手去下载安装。Anaconda是一个大而全的套件,里面已经为大家安装好了常用的库包,并且还自带一些开发工具,这些使其变得巨大无比,安装后体积超过1GB,运行很吃力。为了解决这个问题,miniconda出现了。它小巧,安装包才几十兆字节,下载、安装速度快。我们可以通过清华大学建立的镜像下载站点进行下载,由于服务器在国内,速度很快。

接下来,我们一起安装吧。

1.2.3 安装miniconda

miniconda可以到它的官网https://docs.conda.io/en/latest/miniconda.html下载,也可以在清华大学提供的镜像站点(地址如下)下载,速度很快。

https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/

当然,如果你实在需要大而全的Anaconda,可以用以下网址下载:

https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/

我们接着下载miniconda,按最后一列的时间排序,或者将页面拉到最后,找到最近发布的安装包。苹果系统选择MacOSX-x86_64.pkg进行下载,Windows系统选择Windows-x86_64.exe进行下载。py38字样代表Python的版本是3.8版本,推荐使用最新稳定版本,如图1-3所示。

024-1

图1-3 miniconda安装包下载

下载完成后,双击安装包按界面提示进行安装。安装完成后,Windows系统的开始菜单或桌面会出现一个终端管理器(Anaconda Prompt字样),苹果系统的启动器里会出现终端(Terminal);我们将它们统称为终端,后面会经常用到。在不同的系统中点击启动终端,会看到不同的字样。

在Windows系统中,可以看到终端界面中的如下字样,界面中的路径为你当前的操作路径。

(base) PS C:\Users\gairuo>_

macOS系统中的字样如下,gairuo是用户名,Downloads是当前所在的文件夹名称。

Last login: Wed Aug  8 15:28:02 on ttys001
(base) gairuo@MacBook-Pro Downloads %

由于miniconda支持多个Python虚拟环境,终端中的“(base)”是当前默认的环境名称。可以在终端中输入python-V后回车,查看Python的版本。需要注意的是,今后在终端执行操作时要留意是在哪个环境下。

1.2.4 多Python版本环境

目前我们已经将Python 3.8版本安装到了默认环境中,但有时候一些第三方库并不支持这个Python版本,可能只支持3.6或3.7版本,这就需要让多个Python版本在电脑中共存。还有一种需要多个Python版的情况是避免第三方库自身的版本冲突。在同一个Python环境中,一个第三方库只能存在一个版本,如果有其他两个库都依赖某个第三方库,且对Python版本的要求又不一样,就会造成麻烦。

上文我们在终端看到“(base)”就是它的默认环境,并知道了怎么查询当前环境的Python版本,如果需要多个Python版本,就需要创建新的环境,如果有则直接使用它。

注意

对于初学者或者只进行数据科学方面的学习和工作的人来说,一般默认环境就够用了,可以跳过这部分的操作。

下面是一些多环境的操作命令,在终端执行:

# 查看所有虚拟环境及当前环境
conda info -e
# 创建新环境,指定环境名称和Python版本
conda create -n py38data python=3.8
# 删除环境
conda remove -n py38data --all
# 进入、激活环境
conda activate py38data
# 退出环境
conda deactivate

1.2.5 安装编辑器

代码编辑器,即IDE,是编写代码的工具。代码编辑器可选择的比较多,一般可使用Jupyter Notebook(推荐)、Sublime Text、Visual Studio Code、PyCharm。

我们初学者不需要使用大型的工程项目编辑器,如Visual Studio Code、PyCharm,因为它们的安装操作都比较复杂。这里推荐使用Jupyter Notebook,因为它是一个基于网页、界面化、即时反馈结果的编辑器,而且后期在做数据分析、机器学习时,它的可视化功能也非常方便。

当然,如果你已经有十分中意的编辑器,也可以使用它。

1.2.6 Jupyter Notebook

Jupyter(https://jupyter.org)项目是一个非营利性开源项目,于2014年由IPython项目中诞生,它能支持所有编程语言的交互式数据科学和科学计算。它的特点是能够在网页上直接执行编写的代码,同时支持动态交互,在做数据可视化时尤其方便。

目前Jupyter有两个版本,Jupyter Lab和Jupyter Notebook,都是基于Web的交互式开发环境,其中Jupyter Lab为最新一代的产品。图1-4和图1-5分别为它们的截图。

026-1

图1-4 Jupyter Lab截图

027-1

图1-5 Jupyter Notebook截图

不过我们推荐安装Jupyter Notebook,因为它相对比较稳定、简洁,而且完全可以满足我们的需要。喜欢尝鲜的读者可以尝试一下Jupyter Lab。

1.2.7 用pip安装三方库

在开始接下来的一系列安装工作之前,我们先来了解一下Python第三方库的管理工具pip。它最常用的命令如下。

  • pip list:查看当前Python环境安装了哪些库。
  • pip install库名:安装新库,注意三个词之间要用空格隔开。
  • pip install库名1库名2库名3:同时安装多个库,多个库名之间用空格隔开。
  • pip install库名-U:将库的版本升级到最新版。
  • pip uninstall库名:卸载库。

此外,由于pip命令中存储库文件的服务器在境外,有时候会比较慢,可以在命令后增加-i参数,如:

pip install 库名 -i https://pypi.tuna.tsinghua.edu.cn/simple

-i后面是指定的镜像源,以上使用了清华大学的镜像源,由于其服务器在国内,下载速度非常快。除了清华大学的源,还可以使用豆瓣(https://pypi.douban.com/simple)、阿里云(http://mirrors.aliyun.com/pypi/simple)等提供的源。

如果在下载安装过程中出现红色提示,安装停止,可能是网络超时了,可重新输入命令(或者按键盘向上键从历史命令中调出)并回车重新安装,或者使用上面提到的其他下载源。如果出现终端命令提示符,则说明安装成功。

1.2.8 安装Jupyter Notebook

Jupyter Notebook是以Python第三方库的形式存在的,它同时依赖一些其他Python第三方库。由图1-2可以看出,它并没有安装在操作系统中(Visual Studio Code、PyCharm等是安装在操作系统中的),而是安装在Python中。

接下来安装Jupyter Notebook,这是我们安装的第一个Python第三方库。在终端中输入以下命令:

# 安装Jupyter Notebook,使用清华大学下载源加快下载速度
pip install jupyter -i https://pypi.tuna.tsinghua.edu.cn/simple

# 安装 Jupyter Lab 的命令如下
pip install jupyterlab

整个过程包含下载和安装两部分,由于依赖的库较多,需要耐心等待。出现终端命令提示符说明安装成功。

1.2.9 启动Jupyter Notebook

安装完成后就可以使用Jupyter Notebook了。在终端中输入以下命令:

jupyter notebook

如果安装的是Jupyter Lab,则使用以下命令:

jupyter lab

这样就会在浏览器中打开一个网页(如果没有自动打开,可将界面上提示的网址复制到浏览器中手动打开),如图1-6所示。

029-1

图1-6 Jupyter Notebook启动后的界面

如果网页中列出的目录和文件不是自己想要的,那么可以在启动Jupyter Notebook前切换目录。在Windows系统中,可以先输入d:并回车,切换到D盘(或者指定的其他盘符),然后再输入cd D:\gairuo\study(改为自己的实际目录)后回车,到达指定目录。在macOS中,可直接输入cd加目录,如cd/Users/gr/Downloads,回车后Jupyter Notebook就默认在你指定的目录下了。

需要注意的是,在我们使用Jupyter Notebook和Jupyter Lab的过程中全程不要关闭终端窗口,否则无法提供服务。编写和执行代码过程中会随时自动保存代码和执行内容。

1.2.10 使用Jupyter Notebook

下面介绍Jupyter Notebook的使用。建议大家从一开始就整理好自己的文件目录,记住创建的文件在哪个位置,这是很重要的。进入合适的目录后,点击页面中的New(新建)按钮并选择Python 3选项,这样就创建了一个代码编辑本,我们就可以在其中编写代码了。

首先修改文件名。点击页面左上角jupyter图标旁边的文件名,会弹出改名框,也可以选择File(文件)菜单下的Rename(重命名)选项进行改名。文件名最好要有规律,如带上日期、需求名之类。可以测试一下其他菜单,比如插入行、删除行、合并行、拆分行、重启服务等。

留意页面右上角“Python 3”旁边的圆圈,如果是实心圆,说明正在执行代码,同时代码行不会显示行执行编号,会显示星号,此时只需要等待就行。如果长时间未执行完成,可以选择Kernel菜单下的Restart进行重启。

另外需要注意的是,一个变量的值与执行顺序有关系(顺序可以参照In [10]字样括号中的数字),不要误认为与所在代码行的前后有关。

下面是一些快捷键,尽量使用这些快捷键来操作以提高效率。

  • Tab:代码提示(输入部分代码后按Tab键)。
  • Shift+Enter:执行本行并定位到新增的行。
  • Shift+Tab(1~3次):查看函数方法说明(光标在函数上按住Shift再按Tab键一到三次)。
  • D D:双击D键删除本行。
  • A / B:向上/向下增加一行。
  • M / R:Markdown / 代码模式。

1.2.11 安装Pandas

最后一步,安装Pandas库。在终端输入以下命令:

pip install pandas
# 如网络慢,可指定国内源快速下载安装
pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

Pandas依赖的第三方库比较多,需要耐心等待安装完成。我们在使用Pandas过程中会用到一些专门的库,如Excel读取生成、可视化等功能,方便起见,可以将后期会用到的其他包一次性安装好。

  • Excel处理相关包:xlrd、openpyxl、XlsxWriter
  • 解析网页包:Requests、lxml、html5lib、Beautiful Soup 4
  • 可视化包:Matplotlib、seaborn、Plotly、Bokeh
  • 计算包:SciPy、statsmodels

可以将这些包名放在一条命令中一次性安装:

pip install pandas xlrd openpyxl xlsxwriter requests lxml html5lib BeautifulSoup4\
matplotlib seaborn plotly bokeh scipy statsmodels -i\
https://pypi.tuna.tsinghua.edu.cn/simple

当然,后期还会遇到一些需要的第三方库,根据提示进行安装即可。

我们来检测一下Pandas是否安装成功。在Jupyter Notebook中输入如下代码并执行,如果出现版本号,则说明安装成功了。

import pandas as pd
pd.__version__

# '1.2.1'

1.2.12 小结

本节我们了解了环境搭建过程中的各种依赖关系,也成功安装了编写Pandas代码所需要的所有基础环境,接下来,可以正式开始我们的Pandas学习之旅了。