服务热线:4000-199-985
SPSS 中,虽然提供了很多的模型与方法供数据分析使用,但其中很多都需要满足正态性或方差齐性假设,如果我们忽视这一前提假设(虽然某些模型有一定耐受性),直接进行 SPSS 分析会大大增加犯两类错误的概率,显然得出的结论是不可靠的。
下面分别介绍 SPSS 关于样本数据正态性与方差齐性检验方法。
图示法
1.直方图。是否以钟形分布,还可以选择输出正态性曲线;
2.PP图和QQ图。如果样本数据对应的总体分布确为正态分布,则样本数据对应的散点应基本落在原点出发的45°线附近;
3.茎叶图。茎叶图的用途同直方图,它不仅具备与直方图相同的直观性,同时能精细表达样本数据的取值水平,当样本量小时,可以通过茎叶图进行正态性呈现;
4.正态分位图。数据集中在直线附件,数据不超出95%置信区间线即可说明数据呈正态分布。
注:图示法清晰直观,作为初步判断很有效,但为增加可信度还需要统计指示方法的检验
统计指示法
1.偏度和峰度。正态分布的偏度系数为0,峰度系数为3。
2.偏度峰度联合检验法(Jarque-Bera)。如果样本数据所来自的总体服从正态分布,则JB近似服从自由度为2的卡方分布。
Jarque-Bera检验相比于其他检验方法更容易成功地接受正态性假定,即Ⅰ类错误风险较低。Jarque-Bera检验不能用于小样本检验
3.Shapiro-Wilk检验。一般来说,可以使用Shapiro-Wilk检验判断数据的正态分布情况。如果数据接近正态分布,那么Shapiro-Wilk检验的P值就大于0.05;反之则小于0.05
适用于3 < 样本数< 5000 时的正态性检验,计算可得到一个相关系数,它越接近 1 就越表明数据和正态分布拟合得越好
4.Kolmogorov-Smirnor检验(KS)。其检验的是标化后的数据是否服从理论的分布。需要注意的是样本数据如果有结点(即是重复的数据),则无法计算准确的P值,需要先对结点处理
非参数检验KS检验基于经验分布函数,该检验适用大样本(N>2000)。
SPSS中有两个地方可以做K-S检验,一处在“分析(Analyze) >> 非参数检验(Nonparametric tests)>>单样本(One sample)”,另一处在“分析(Analyze)>>描述统计量(Descriptive Statistics)>>探索(Explore)”中。两者的检验方法不同,检验结果可能也会有差异。单样本检验是将变量的观察累积分布函数与指定的理论分布进行比较,该理论分布可以是正态分布、均匀分布、泊松分布或指数分布,是一种拟合优度检验,检验效率较低。Explore中的K-S和W检验是用一个综合指标来反映材料的正态性,资料的正态峰和对称峰两个特征有一个不满足正态性要求时,假阴性较大。单样本K-S检验统计量为Z,Explore分析中的K-S检验统计量为D。
5.Lilliefors检验(K-S检验的修正)。对KS正态性检验的的修正,适合大样本。适用于一般的正态性检验。
拓:【探索】-【绘图】-【带校验的正态图 】选择是否进行正态校验和离散检验
散点图:直观判断多组定量资料的方差齐性
通过绘制标准化残差和标准化预测值的散点图来进行判断。若残差满足方差齐性,则标准化残差的散点会在一定区域内,围绕标准化残差ei=0这条直线的上下两侧均匀分布,不随标准化预测值的变化而变化。标准化残差的分布随变量取值的增大而呈现扩或收敛趋势,说明残差不满足方差齐性的条件。
统计指示法
1.Levene检验。所分析资料可不具正态性,结果更为稳健。一般来说,如果Levene's检验的P值大于0.05,那么就说明各组间因变量的残差方差齐。
分析>>描述统计量>>探索>>绘制按钮>>方差齐性检验>>未转换
结果有4个:基于均值、中位数、基于调整自由度的中位数、基于截尾均值。其中基于均值的检验结果适用于正态分布,而中位数的结果适用于偏态数据,基于截尾均值的结果则适用于存在极端值的数据。
2.F检验和Bartlett χ2。要求数据资料具有正态性
因变量的残差具有等方差性,即因变量的残差不随自变量的变化而变化。在两者组成的散点图上,则表现为因变量的残差均匀的分布在其均值的上下两侧,不随自变量取值的变化而变化
检验方法:
操作过程:F分析>>回归(Regression)>>线性(Linear)
因变量:分析变量。
自变量:分组变量。
保存:保留标准化残差和标准化的因变量预测值
用散点图,添加行嵌量(分组变量),如果因变量的残差具有等方差性,不同预测值对应的残差应大致相同。即图中各点均匀分布,不会出现特殊的分布形状。如果残差分布不均匀,形成漏斗或者扇形,那么就不具有等方差性
1.“比例优势”假设也叫平行性检验,指无论因变量的分割点在什么位置,模型中各个自变量对因变量的影响不变,也就是自变量对因变量的回归系数与分割点无关。
有序序多分类logistics回归的前提假设之一,在【输出】—【平行性检验】中,若P >0.05,说明平行性假设成立,即各回归方程相互平行,可以使用有序Logistic过程进行分析。
平行线假设不能满足,可以考虑一下两种方法进行处理:①进行无序多分类Logistic回归,而非有序Logistic回归,并能接受因变量失去有序的属性;② 用不同的分割点将因变量变为二分类变量,分别进行二项Logistic回归。
2.多重多重共线性。多重共线性本质上是数据问题。
造成多重共线性的原因
· 解释变量都享有共同的时间趋势;
· 一个解释变量是另一个的滞后,二者往往遵循一个趋势;
· 由于数据收集的基础不够宽,某些解释变量可能会一起变动;
· 某些解释变量间存在某种近似的线性关系;
检验方法
· 自变量间的相关系数矩阵:如果相关系数超过0.9的变量在分析时将会存在共线性问题。在0.8以上可能会有问题。但这种方法只能对共线性作初步的判断,并不全面。
· 容忍度(Tolerance):即以每个自变量作为因变量对其他自变量进行回归分析时得到的残差比例,大小用1减决定系数来表示。该指标越小,则说明该自变量被其余变量预测的越精确,共线性可能就越严重。如果某个自变量的容忍度小于0.1,则可能存在共线性问题。
· 方差膨胀因子(VIF): 实际上就是容忍度的倒数。如果容方差膨胀因子(VIF)大于10,则表示有共线性存在。
· 特征根(Eigenvalue):该方法实际上就是对自变量进行主成分分析,如果相当多维度的特征根等于0,则可能有比较严重的共线性。
· 条件指数(Condition Idex):当某些维度的该指标数值大于30时,则能存在共线性。
处理多重共线性的原则
· 多重共线性是普遍存在的,轻微的多重共线性问题可不采取措施。
· 严重的多重共线性问题,一般可根据经验或通过分析回归结果发现。如影响系数符号,重要的解释变量t值很低。要根据不同情况采取必要措施。
· 如果模型仅用于预测,则只要拟合程度好,可不处理多重共线性问题,存在多重共线性的模型用于预测时,往往不影响预测结果。
解决方法
· 增大样本量,可部分的解决共线性问题。
· 采用多种自变量筛选方法相结合的方式,建立一个最优的逐步回归方程。
· 从专业的角度加以判断,人为的去除在专业上比较次要的,或者缺失值比较多,测量误差比较大的共线性因子。
· 进行主成分分析,用提取的因子代替原变量进行回归分析。
· 逐步回归进行分析,直接移除出共线性的自变量X,但此类做法导致自己希望研究的变量无法得到研究。
· 进行岭回归分析,它可以有效的解决多重共线性问题。
· 进行通径分析(Path Analysis),它可以对应自变量间的关系加以精细的刻画。