2.9 数据科学入门:基础的描述性统计

在数据科学中,通常会使用统计信息来描述和汇总数据。本节介绍几个具有此类功能的描述性统计数据,包括:

  • minimum—合集中的最小值;
  • maximum—合集中的最大值;
  • range—从最小值到最大值的范围;
  • count—合集中的值的个数;
  • sum—合集中的值的总和。

我们将在下一章研究如何确定countsum离中趋势度量(也称为离散程度度量),例如range,可以帮助我们确定值的分布情况。后面的章节将介绍其他的离中趋势度量,包括方差标准偏差

确定三个值中的最小值

我们来编写程序确定三个值中的最小值。下面的脚本提示用户按要求输入三个值,然后使用if语句确定三个值中的最小值并显示结果:

输入三个值后,程序每次处理一个值:

  • 首先,假设number1包含最小值,第8行将其赋值给变量minimum。当然,number2number3可能包含真正的最小值,因此必须将另外两个值与最小值进行比较。
  • 然后,第一个if语句(第10~11行)测试条件number2<minimum,如果此条件为True,则将number2赋值给minimum
  • 最后,第二个if语句(第13~14行)测试条件number3<minimum,如果此条件为True,则将number3赋值给minimum

此时,变量minimum中存储的是最小值,因此将它作为结果进行显示。我们执行了三次脚本,无论用户输入的第一个值、第二个值还是第三个值是最小值,脚本总是能够正确地找到最小值。

使用内置函数minmax确定最小值和最大值

Python有许多用于执行常见任务的内置函数。内置函数minmax分别计算一组值的最小值和最大值:

函数minmax可以接收任意数量的参数。

确定合集中值的范围

值的range指的是从最小值到最大值。在上面的例子中,range是从12到36。许多数据科学致力于了解数据的性质,描述性统计是其中的关键部分,因此,我们需要知道这些统计数据的含义。例如,如果有100个数字,范围为12到36,那么这些数字可以均匀地分布在这个范围内。在极端情况下,这100个数字也可能会包含99个12和1个36,或1个12和99个36。

函数式编程:约简

本书将介绍多种函数式编程的技巧,这些技巧可以使我们能够编写出更简洁、更清晰、更易于调试(即查找和纠正错误)的代码。minmax函数是称为约简的函数式编程概念的示例,minmax会将一个合集的值约简为一个值。书中还会用到许多其他的约简,例如合集中的值的总和、平均值、方差和标准偏差等,并且还会介绍如何自定义约简。

数据科学部分简介

在接下来的两章中,我们将继续讨论采用集中趋势度量的基础描述性统计,包括均值中值众数,以及离中趋势度量,包括方差标准偏差等。