前言
本片开始介绍有关方差分析的知识。
方差分析
方差分析的基本原理是在20世纪20年代由英国统计学家Ronald A.Fisher在进行实验设计时为解释实验数据而首先引入的。方差分析是一种统计方法。目前,方差分析方法广泛应用于分析心理学、生物学、工程和医药的实验数据。本章首先介绍方差分析的基本原理,然后介绍只涉及一个因变量的单因子独立样本和双因子独立样本的方差分析方法
方差分析的原理
什么是方差分析
方差分析(analysis of variance,ANOVA) 是分析类别自变量对数值因变量影响的一种统计方法 。自变量对因变量的影响也称为自变量效应(effect)。由于影响效应的大小表现在因变量的误差里有多少是由自变量造成的,因此,方差分析是通过对数据误差的分析来检验这种效应是否显著。
研究分类型自变量对数值型因变量的影响
一个或多个分类型自变量
两个或多个 (k 个) 处理水平或分类
一个数值型因变量
有单因子方差分析和双因子方差分析
单因子方差分析:涉及一个分类的自变量
双因子方差分析:涉及两个分类的自变量
例题:
(数据:example8_1.RData)为分析小麦品种对产量的影响,一家研究机构挑选了3个小麦品种:品种1、品种2、品种3,然后选择条件和面积相同的30个地块,每个品种在10个地块上试种,实验获得的产量数据如下表所示。
分析“小麦品种” 对“产量”的影响
在上表中,“小麦品种”是类别变量,称为实验的因子(factor),品种1、品种2、品种3是因子的3个不同取值,称为处理(treatment)或水平(level)
这里的“地块”就是接受处理的对象或实体,称为实验单元(experiment unit)
产量则是因变量,每个地块上获得的产量是样本观察值。分析小麦品种对产量影响的统计方法就是方差分析。
如果只分析品种一个因子对产量的影响,则称为单因子方差分析(one-way analysis of variance)
如果两个因子对产量的单独影响,但不考虑它们对产量的交互效应(interaction),则称为只考虑主效应(main effect)的双因子方差分析,或称为无重复双因子分析(two-factor without replication)
如果除了考虑两个因子对产量的单独影响外,还考虑二者对产量的交互效应,则称为考虑交互效应的双因子方差分析,或称为可重复双因子分析(two-factor with replication)
误差分解
怎样分析小麦品种对产量是否有显著影响呢?由于品种对产量的影响效应体现在产量数值的误差里,因此,分析时首先应从数据误差的分析入手。方差分析的原理就是通过对数据误差的分析来判断类别自变量(小麦品种)对数值因变量(产量)的影响效应是否显著。
怎样分析数据的误差呢?从上表可以看出,每个品种(每种处理)各有10个实验数据,这些数据实际上是从每个品种的产量总体中抽出来的样本量为10的随机样本,共获得3个样本的30个实验数据.可以看出,这30个产量数据是不同的。
因此有如下定义
总误差(total error)
反映全部观测数据的误差
所抽取的全部30个地块的产量之间的误差