1.1.2 数据及数据统计

1.数据的基本概念

数据是对事实、概念或指令的一种特殊表达形式。这种特殊表达形式可以用人工的方式或者用自动化的装置进行通信,翻译转换或者进行加工处理。简言之,数据是指记录下来的事实,是客观实体属性的值。数据的记载方式可以是多样的,不仅包括以数量形式表达的属性值,也包括以文字、图形或声音等编码形式所表达的属性值。

数据和信息两者既有联系又有区别。数据只有经过处理和解释后并赋予一定的意义才成为信息。信息不会随载荷它的物理介质改变而变化,但数据则会根据载体的不同表现出不同的形式和内容。

数据可以分为定量数据和定性数据两种。定量数据一般用来以数量形式描述某种数据特征,如身高、成绩、温度等。定量数据一般用数值型数据来表示,可以参与数据运算和比较大小。定性数据则用来描述数据的某种分类特征,属于非数值数据,即使用数字来表示定性数据,也只能作为字符代码,并不具有数值含义。

2.数据的简单统计

(1)总体、个体、样本和样本容量

总体是指考察对象的全体,通常也称为母体。个体是总体中的每一个被考察对象。样本是总体中所抽取的部分个体。样本容量是指样本中个体的数目。

(2)平均数

平均数是指在一组数据中所有数据之后除以数据的个数。平均数表示一组数据集中趋势的量数。常用的平均数指标有位置平均数和数值平均数。

①位置平均数。位置平均数是依照数据的大小顺序出现频数的多少确定的集中趋势的代表值,主要有众数、中位数等。

众数是一组数据中出现次数最多的数值,有时众数在一组数中有多个。简单地说,就是一组数据中占比例最多的那个数。用众数代表一组数,可靠性较差,不过众数不受极端数据的影响,并且求法简单。

中位数是一组数据按从小到大的顺序依次排列,处在中间位置的数,或是最中间两个数的平均值。和众数不同,中位数不一定在这组数据中。中位数是样本数据所占频率的等分线,它不受少数几个极端值得影响。在一组数据中,如果个别数据有很大的变动,选择中位数表示这组数据的“集中趋势”是更为合适的。

②数值平均数。数值平均数是以统计数列的所有各项数据来计算平均数,用以反映统计数列的所有各项数据的平均水平。这类平均数的特定是统计数列中的任何一项数据的变动,或大或小都会在一定程度上影响到数值平均值的计算结果。数值平均数分为算术平均数、调和平均数和几何平均数。

算术平均数是把n个数的总和除以n所得的商叫做这n个数的平均数,它是反映数据集中趋势的一项指标。

几何平均数是把n个观察值连乘积的n次方根就是几何平均数。

调和平均数是数值倒数的平均值。它是用来解决在无法掌握总体单位数时,只有每组的变量值和相应的标志总量,而需要求得平均数的情况下使用的一种数学方法。

3.常用的统计图表

(1)统计表

统计表是将原始数据用纵横交叉线条所绘制成的表格来表现统计资料的一种形式。它将统计资料按照一定的要求进行整理、归类,并按照一定的顺序把数据排列起来,使之系统化、条理化,让人感觉到数据的紧凑、简明与一目了然,也易于检查数据的完整性和正确性。统计表主要用数量来说明研究对象之间的相互关系,并将其变化规律和差别显著地表示出来。

统计表的内容一般都包括总标题、横标题、纵标题、数字资料、单位与制表日期。总标题是指表的名称,要求能简明扼要地表达出表的中心内容。横标题是研究事物的对象,标识每一横行内的数据的意义。纵标题是研究事物的指标,标识每一栏内数据的意义。数字资料是指个空格内按要求填写的数字,表内数字要求位置上下对齐、准确、小数点后所取位数要上下一致。单位是指表格里数据的计量单位。制表日期放在表的右上角,表明制表的时间。

按项目的多少,统计表可分为简单表、分组表和复合表3种。

只对某一个项目的数据进行统计的表格称为简单表,它常用来比较相互独立的统计指标,如表1-1所示。

表1-1 计算机应用基础课程及格率

分组表是指横标题按一个标志分组,结构形式与简单表基本相似,但通常设有合计栏。分组表用以说明综合水平,如表1-2所示。

表1-2 计算机应用基础课程不及格率

复合表是指统计项目在两个或两个以上的统计表格,如表1-3所示。

表1-3 信息工程系2011级专业课程成绩及格率

(2)统计图

统计图一般是根据统计表的资料,用点、线、面或立体图像鲜明地表达其数量或变化动态。常用统计图的类型有线图、直方图、直条图和饼形图等。

线图适用于连续变量资料,说明某事物因时间、条件推移而变迁的趋势。横轴常用以表示事物的连续变量,纵轴多表示率、频率或均数。

直方图是以面积表示数量,适用于表达连续性资料的频数或频率分布。横轴表示变量,尺度可以从0或其他值开始,但同一轴上的尺度必须相等。

直条图是用等宽直条和长短来表示各统计量的大小,适用于彼此独立的资料互相比较。

饼形图是以圆的半径将圆面分割成多个大小不等的扇形来表达构成比。