3.2 常用的数据分析工具有哪些

常用的数据分析工具有三种:一是数据库,二是统计分析工具,三是日常办公软件。只要掌握这三种数据分析工具,工作或生活中遇到的绝大多数数据分析问题都能得到解决。

3.2.1 数据库

数据库是指根据数据结构组织、存储和管理数据的“仓库”,它是建立在计算机存储设施基础之上的。

通俗来讲数据库就是一种电子化的“柜子”,里面存放着各种电子文件,用户可以对“柜子”中的电子文件进行新增、更新、删除等操作。

在进行数据分析时,我们常常需要将某些数据放入这样的“仓库”中,依据企业管理层的需求进行相应的处理。比如,企业人事部门的员工档案,包括姓名、年龄、性别、工资、简历等内容,需要存放在一张电子表中,这张表就可以视为一个小型的数据库。

通过这个小型的数据库,企业管理层就可以随时查询某员工的情况,也可以查询某个岗位的员工人数等。此外,财务管理、仓库管理也需要建立起这样的数据库,使企业能够实现管理自动化。

一般来说,数据库分三个层次,这是从三个不同的方向观察数据库后所得出的结果。

(1)底层

它位于数据库的最底层,是计算机、U盘等存储设备上实际存储的数据之和。这些数据属于原始数据,是其他两层数据的源头,由位串、字符和字组成。

(2)概念层

它位于数据库的中间一层,表示整个数据库的逻辑。它对每个数据的逻辑进行定义,负责厘清每个数据之间的逻辑关联,是存储记录的集合。

(3)用户层

它位于数据库的最上层,表示数据库中被用户使用的数据,体现了某个或某些特定用户使用的数据集合。

此外,数据库还有六大特点,如图3-2所示。

图3-2 数据库的六大特点

(1)数据共享

数据库能够提供数据共享功能。它包含所有用户同时存到数据库中的数据,也包括用户通过接口方式使用的数据。

(2)降低数据的冗余度

与一般的文件夹系统相比,因为数据库实现了数据共享,所以避免了用户存储大量的重复数据,降低了数据的冗余度,保证了数据的简洁性、一致性。

(3)独立性

数据库可以保证数据具有独立性。这个独立性包括结构独立性(数据库的逻辑结构与应用程序并不相关,具有独立性)和物理独立性(数据外部的物理条件发生变化并不影响数据)。

(4)集中控制

以往的文件夹系统中,数据处于分散的状态。不同的用户在处理相同的文件夹或者同一个用户在处理不同文件夹时,之间并没有必然的联系。而利用数据库可以完美解决这样的问题,它通过对数据的集中控制与管理,加强了各组数据之间的联系。

(5)保证数据的正确性与安全性

其主要内容包括三个方面:数据库能够防止数据丢失与错误更新,以及能够有效预防越权管理;数据库可保证数据的正确性、有效性;在同一时间周期内,数据库允许数据多路存取,并且能防止各个用户数据之间的交叉联系。

(6)修复故障

数据库可及时发现故障并修复故障,防止数据被破坏。这些故障包括数据库运行时出现的程序故障、对系统的误操作造成的数据错误等。

3.2.2 常用的统计分析工具

上文中我们已经对数据库进行了简单的介绍,大家对数据库的结构、功能、特点都有了初步的认识,接下来就让我们看看用哪些统计分析工具实现数据分析。

在1.1.3小节中我们对各种分析工具进行了简单的介绍,但没有进行深入解读。本小节将对常用的8种统计分析工具逐一介绍,希望能够对大家日后的数据分析有所帮助。

1.SAS

SAS是英文Statistical Analysis System的缩写。开发出SAS的SAS公司创立于1976年,到目前为止,该公司已经跻身全球500强。SAS采用按年租用的方式收费,SAS公司借此一年可收取12亿美元的租金。

SAS具有完备的数据查看、数据管理、数据分析功能,是一个组合式的软件工具。SAS共有三十多个功能模块,采用汇编语言编写,比较适合统计数据分析人员使用,而对于非统计数据分析人员来说,学习SAS比较困难。

SAS的主要功能有:统计分析、时间分析、决策分析、财务分析、质量管理等。在数据处理和统计分析领域,SAS被誉为最标准的软件和最权威的统计软件包。以上的这些功能是由多个功能模块互相辅助而成的,其中最基础的部分是BASE SAS模块。

BASE SAS模块是SAS的核心部分,承担着数据管理和维护用户使用环境的重任;同时它还能处理用户语言、协调SAS其他模块和产品,并有权调用其他模块和产品。

也就是说,BASE SAS模块相当于SAS的中央调度室,既可以单独存在,又可以与其他模块和产品相互配合。BASE SAS模块的正常运行能够有效保证SAS的正常运行。

此外,在BASE SAS模块的基础上,SAS还可以添加不同的模块从而增加不同的功能。例如:SAS/GRAPH(绘图模块)、SAS/OR(运筹学模块)、SAS/FSP(快速数据处理的交互式模块)、SAS/AF(交互式全屏幕软件模块)等。

目前SAS在我国的应用率不断增高,越来越多的企业开始采用SAS。在教育、银行、科研等领域,SAS已成为专业人员进行统计分析的标准软件。

然而,由于SAS的操作至今仍以编程为主,人机交互模式仍有欠缺,数据分析师想要掌握好SAS,需要花费较多的精力。而对大多数数据分析师而言,他们追求的是如何利用统计分析软件来解决自己的实际问题,因此也容易失去学习SAS的兴趣。但无论如何,SAS作为统计分析软件中的“老大哥”之一,在软件规模上难逢敌手。

2.SPSS

SPSS是英文Statistical Package for the Social Science 的缩写,是世界著名的统计分析软件之一。SPSS的特点是操作简洁方便,统计方法全面,绘制图形、表格较为轻松,输出结果直观。

SPSS公司创立于20世纪60年代末,并于1975年在芝加哥组建了SPSS总部。20世纪80年代以前,SPSS的主要客户为企事业单位。到了20世纪90年代,SPSS推出了世界上第一套统计分析软件的微机(微型计算机,又称微电脑)版本 SPSS/PC+,从此SPSS在个人用户市场牢牢占据着第一的位置。

SPSS/PC+一推出,便极大地扩展了SPSS的应用范围,使其快速地融入自然科学、社会科学等各个领域。使用过SPSS的人就SPSS的自动数据深入分析、功能设计齐全、制图直观等方面均给予了高度的评价。

SPSS采用Windows窗口展现各种分析数据方法,采用对话框的方式展现各种功能选择项。数据分析师只要掌握 Windows的操作方法和统计分析原理,就可以熟练使用该软件。

SPSS的主要功能包括统计分析、图表分析等。其过程包括描述性统计、一般线性模型、回归分析、聚类分析、生存分析、多重响应等几大类,而每一大类又分好几个小类。比如回归分析又分线性回归分析、Logistic回归分析、加权估计、非线性回归分析等多个类别。

此外,到目前为止,SPSS已推出20多个语种版本。

3.S-PLUS

S-PLUS是一个工业数据分析工具,同时又是一个数据分析应用开发平台,有较长的历史,获得过“美国计算机协会优秀软件奖”。

S-PLUS的特点是方便、灵活、交互、可视化。在市场营销、产品研发、财务分析、金融证券等方面,S-PLUS都有广泛的应用。

除此之外,S-PLUS还有强大的输入输出功能,不论数据在何处、格式如何,都能够被轻松地存取到S-PLUS之中,而且生成的结果也能够以任意格式输出(图形、表格、网页等)。S-PLUS拥有探索式图形技术,可以直观地展现数据之间的关系和趋势。S-PLUS还能提供80多种二维、三维图形库以及超过4200种统计分析函数,涵盖传统和现代统计分析、数据挖掘、数据预测等方面。

特别注意的是:S-PLUS的操作界面与Microsoft Office办公软件的完全一致,甚至它的分析结果可以被导入到Word文档、PowerPoint文档、Excel表格之中。当然,如果觉得不太熟悉,你也可以在Microsoft Office办公软件中使用S-PLUS功能,这取决于你的意愿。

S-PLUS是一个开放式的数据分析软件,允许使用者开发或下载新的算法集成到S-PLUS中。同时S-PLUS提供强大的S语言,使用者可以用它开发个性化系统,集成到其他任何系统中。如:S-PLUS的CONNECT/Java接口,可以使S-PLUS集成到Java程序中;S-PLUS的CONNECT/C++接口,可以使S-PLUS集成到C++程序中。

4.BMDP

BMDP是英文Bio Medical Data Processing 的缩写,它是世界上最早的统计分析软件。BMDP由美国加州大学于1961年研发,其特点是方法齐全、功能强大。但在1991年以后BMDP没有再推出新的版本以至于被SPSS公司收购。

5.Stata

Stata由美国计算机资源中心于1985年研发。其特点是操作命令简单、统计分析方法较齐全、输出形式简洁、图形精美。不足之处是数据的兼容性差,占用内存多。

6.EPINFO

EPINFO属于完全免费的软件,其特点是数据录入简单、操作方便、具有一定的统计功能,它主要用于流行病学领域的数据录入与管理工作。

7.Minitab

Minitab的特点是简单易懂,方便进行试验设计与质量控制。在国际知名高校统计学系开设的统计软件课程中,Minitab与SAS、BMDP并列。

8.SPLM统计分析软件

SPLM是英文Statistical Program for Linear Modeling 的缩写,由解放军第四军医大学统计教研室研发。其特点是利用线性模型实现各种统计方法的计算。也就是说它统计方法齐全、功能比较强大。

3.2.3 日常办公软件

学习完统计分析工具以后,接下来我们将一起学习数据分析中常用的办公软件。在职场中最常见的办公软件自然就是Microsoft Office办公软件中的Excel了。Excel基本上能够完成令数据分析师头疼的大多数工作,并且操作还十分简单。下面就跟随我一起见识一下Excel的强大功能吧。

1.函数功能

学会VLOOKUP、COUNT、SUMIF、COUNTIF、FIND、IF等函数功能,我们就能节省大量的数据处理时间,下面我就VLOOKUP函数进行介绍。

VLOOKUP函数是Excel的一个纵向查找函数,可以用来核对数据以及实现不同表格之间快速导入数据等功能。

VLOOKUP函数的操作步骤分为5步,如图3-3。

第一步,选中输入位置。在图3-3中,选中的输入位置为E1。

第二步,在选中位置输入“=VLOOKUP()”符号;

第三步,鼠标停留在括号中,选中查找值序列,也就是图3-3中的D2;

第四步,选中查找区域;再次返回查找区域第2列,也就是这一列的对应值;

第五步,输入0或1,其中0代表精确查找,1代表模糊查找。

图3-3 VLOOKUP函数的具体操作过程

最后,VLOOKUP函数规则总结为:(查找值,查找区域,返回查找区域第N列,查找模式)。

2.数据透视表

由于篇幅有限,其余几个函数的规则就不过多展开探讨了,接下来就让我们一起学习Excel中另一个重要的分析工具——数据透视表。若要以员工平均工资为原始数据,创建一个简单的数据透视表,具体的操作步骤如下。

首先,选中表中数据,点击插入数据透视表。然后弹出一个对话框,你可以选择一个表或区域,如果需要时常更新数据,建议选择几整列,当需要添加数据时,只要刷新数据透视表即可。在本例中选择A1到D8这个区域内的数据作为数据源,其结果如图3-4所示。

图3-4 创建数据透视表(第一步)

假如数据源较小,可以选择现有工作表;假如选择的数据源较大、内容较多,建议在新工作表中生成透视表,如图3-5所示。

图3-5 建立新工作表(第一步结果)

确定数据源与数据透视表位置以后,我们就可以在制订的工作表位置上创立一个空白的数据透视表。同时,该数据透视表的右侧会显示一个“数据透视表字段列表”窗口,可以进行拖动和设置。如图3-6所示。

图3-6 数据透视表字段列表(第二步)

数据透视表字段列表中显示的四个选项是原始数据区域第一行的内容,可以将它拖到下面的四个方框之中。例如,将姓名拖动到下方的“行标签”,作为横向分类的依据;将数量拖动到“数值”,作为统计汇总依据。同时,“数值”中有求和、计数、平均值、最大值、最小值、方差等选项。图3-7选中的是求和项。

图3-7 数据透视表字段列表的操作(第三步)

行标签处可以放入多个选项,选择的前后顺序依据个人需求而定。例如,图3-8所示,将“名称”字段排到“姓名”字段后面。

图3-8 数据透视表字段列表的操作(第三步结果)

完成以上三步以后,数据透视表就基本上创建完毕了,但是看完以后,我们就会发现一个问题:数据太抽象,不够直观。而在数据分析界有一句经典的话:字不如表,表不如图。因此我们需要想办法将这些数字转化为图形,化抽象为直观。那么到底该如何实现呢?这就需要利用数据透视表中的数据透视图功能。

首先,选中数据透视表中任意一个单元格,然后点击【选项】,再继续点击【数据透视图】,如图3-9所示。

图3-9 创建数据透视图(第一步)

点开数据透视图以后,选择一个合适的图表类型,点击“确定”按钮。本文中选择的是柱形图。如图3-10所示。

图3-10 创建数据透视图(第二步)

最终,创建的数据透视图如图3-11所示。

图3-11 创建数据透视图(第三步)

通过对日常办公软件、数据库、常用统计分析工具的综合分析,我们不难得出以下结论。

(1)确定自身定位

以上介绍的所有关于Excel的方法与技巧都只是一种辅助手段,辅助数据分析师进行数据分析,并且随着数据分析师自身定位的不同,这种辅助手段所带来的效果也不同。假如你只是某个小企业的数据分析师,那么日常办公软件对你来说用处很大。但假如你是某家大公司的数据分析师,那么你还需要学习专业的统计分析工具。

(2)终身学习

在这个知识爆炸的时代,终身学习才能保证自己不被淘汰,这一点在学习数据分析工具的过程中尤为重要,不要因为自己是小型企业的数据分析师,就甘于只掌握日常办公软件,相反,你应该更主动地学习专业的统计分析工具,这才能保证自己作为数据分析师的核心竞争力。