2.1.1 定义变量属性

为了满足统计分析的需要,可以为变量定义变量名、变量类型、变量标签、变量值标签等。在变量视图中每个变量可以指定11种变量属性,如图2-1所示。下面介绍常用属性的设置方法。

图2-1

1.定义变量名称

启动SPSS“数据编辑器”,在“变量视图”窗口中选中名称栏内的单元格,便可以输入或编辑变量名称,如图2-2所示。

图2-2

知识点拨

由于以前的SPSS版本的汉语兼容性不强,定义变量名通常使用英文字符或单词,但SPSS 28.0的汉语兼容性已非常出色,用户无须担心使用汉语变量名出现乱码的问题,用户完全可以放心地全部使用汉字来定义变量名,这样会使查看者更易于弄清变量名的含义。

定义变量名时需要注意以下规则。

  • 每个变量名必须是唯一的,不允许重复。
  • 变量名第一个字符必须是字母、汉字或特殊符号@、#、$。后续字符可以是字母、数字、非标点字符,如下画线和句点(.)的任意组合。
  • 变量名最多可包含64字节,在双字节语言,如中文中则为32个字符。
  • 变量名不能包含空格,且应避免用句点结束变量名,因为句点可能被解释为命令终止符,还要避免使用下画线结束变量名,因为这样的名称可能与命令和过程自动创建的变量名冲突。
  • 不能将保留关键字用作变量名。保留关键字包括All、AND、BY、EQ、GE、GT、LE、NE、LT、NOT、OR、TO和WITH。
  • 变量名不区分大小写,可以用任意混合的大小写字符来定义变量名,大小写只为显示目的。例如,变量名“编号”,可以用汉字“编号”来命名,也可以用id或ID表示;又如,变量名“项目1”,可以使用“项目a”“项目A”“项目_1”“item_a”或“ITEM_A”等方式加以命名。

注意事项 定义变量名的字母包括书写日常文字所用的任何非标点字符,但这些文字需要属于平台字符集所支持的语言,在汉语中即指汉字。

2.定义变量类型

变量类型共包含9种,如图2-3所示,可以分为三类,分别是数值型、字符串型以及日期型。

图2-3

(1)数值型

数值型可以细分为7种,是SPSS中常用的变量类型,包括数字、逗号、点、科学记数法、美元、定制货币以及受限数字,其中最为常用的是“数字”型。

(2)字符串型

字符串型的变量值是一串字符,但字符串变量只能用于相对简单的统计分析,在稍微复杂的统计分析中都会受到限制,因此建议尽量转换成数字。

(3)日期型

SPSS中的日期型变量可以用来表示日期或时间。日期型数据可以显示为多种格式,当在“变量类型”对话框中选择“日期”类型时,对话框右侧会显示各种格式,用户可以从中进行选择,如图2-4所示。

图2-4

3.定义变量的“小数位数”

数值型变量的默认小数位数为2,字符型变量的默认小数位数为0。小数位数的设置只是显示方式的改变,并不会对实际数值造成影响。

4.定义变量“标签”

在“变量视图”窗口的“标签”栏单元格中可以输入变量标签,如图2-5所示。变量标签是变量名的注释或说明,能够让用户更清楚地了解该变量的含义。

图2-5

知识点拨

变量标签中可以含有空格和变量名中禁用的保留字符。

例如,变量标签“最常上网地点”“最常上网方式”和“使用网络年限”分别是变量名“地点”“方式”和“年限”的说明或注释,如图2-6所示。

图2-6

5.定义变量的“值”

完成变量标签注解后,还需要为每个变量赋值并标注其含义。这一步在数据分析中极为重要,因为只有将所有变量予以赋值才能使问卷最终被量化,以达到通过SPSS进行分析的目的。例如,性别的数值只有1和2,其含义分别表示男生和女生,如图2-7所示。

图2-7

6.定义变量的“测量类型”

变量的测量类型有三个选项,分别为度量、有序和名义,默认为度量,不影响分析结果。

7.缺失值的处理

缺失值是指某个样本缺少特定变量的数据信息,例如,在问卷调查过程中,受访者没有给予回答,而是由研究者自行键入数值。缺失值不被纳入各种统计分析中。在SPSS中,缺失值分为系统缺失值和用户缺失值两种类型。

(1)系统缺失值

在变量中某个样本没有提供信息或提供的信息格式不正确,系统会自动将其设置为缺失值。数值型的变量数据,系统缺失值默认显示为“.”,字符串型的变量默认显示为空白。

(2)用户缺失值

用户自定义的用于识别某种特定信息的值称为用户缺失值,包含以下三种定义方式。

  • 无缺失值:默认为没有用户缺失值,只有系统缺失值。
  • 离散缺失值:缺失值为1~3个不连续的数值。
  • 范围加上一个可选的离散缺失值:缺失值是一个区域范围,并且可以设置某个离散的缺失值。

以调查问卷为例,在调查问卷中,性别变量有“1=男生”和“2=女生”两项,如果受访者没有作答,则单击“缺失”单元格右侧的按钮,如图2-8所示。打开“缺失值”对话框,选中“离散缺失值”单选按钮,在“离散缺失值”下的方框中输入9,此处最多可以添加3个间断(离散)的缺失值,如图2-9所示。

图2-8

图2-9

知识点拨

一般在缺失值的设定上,常以9作为问卷中未作答的数据,而以999作为学业成绩的未作答数据。若题目选项个数超过9个类别,则以99为该题目变量的缺失值。

假设某个问题有6个选项,分别为“非常不同意、不同意、不太同意、有点同意、同意、非常同意”,分别对应“1、2、3、4、5、6”,如果未作答以0代替,水平值大于7则表示输入错误的数值,因而缺失值范围,最低可以设定为7,最高为999。缺失值的输入方法如图2-10所示。

图2-10

8.其他属性的定义

除上述变量属性需要定义之外,“变量视图”窗口还有其他几个变量属性需要定义。如“宽度”用于定义变量名的可用长度,用户可以根据实际需要予以调节。而“列”和“对齐”分别规定数据视图中每个变量列的宽度及其对齐方式。程序分别默认为8字节和右对齐。用户也可根据需要予以调节。某些对话框支持可用于预先选择分析变量的预定义“角色”。当打开其中一个对话框时,满足角色要求的变量会自动显示在目标列表中。

可用角色包括以下几项。

  • 输入:该变量将用于输入,如预测变量、自变量。
  • 目标:该变量将用于输出或目标,如因变量。
  • 两者:该变量将同时用作输入和输出。
  • 无:该变量没有角色分配。
  • 分区:该变量将用于把数据划分为单独的训练、检验和验证样本。
  • 拆分:用于与SPSS Modeler相互兼容,具有此角色的变量不会在SPSS中用于拆分文件变量。

默认状态下,所有变量被分配为“输入”角色。