Дисперсионный анализ

Теоретические основы и принципиальная схема дисперсионного анализа

Рассмотренные выше приемы проверки статистических гипотез о существенности различий между двумя средними на практике имеют ограниченное применение. Это связано с тем, что для выявления действия всех возможных условий и факторов на результативный признак полевые и лабораторные опыты, как правило, проводят с использованием не двух, а большего числа выборок (1220 и более).

Часто исследователи сравнивают средние нескольких выборок, объединенных в единый комплекс. Например, изучая влияние различных видов и доз удобрений на урожайность сельскохозяйственных культур опыты повторяют в разных вариантах. В этих случаях попарные сравнения становятся громоздкими, а статистический анализ всего комплекса требует применения особого метода. Такой метод, разработанный в математической статистике, получил название дисперсионного анализа. Впервые его применил английский статистик Р. Фишер при обработке результатов агрономических опытов (1938 г.).

Дисперсионный анализ - это метод статистической оценки надежности проявления зависимости результативного признака от одного или нескольких факторов. С помощью метода дисперсионного анализа проводится проверка статистических гипотез относительно средних в нескольких генеральных совокупностях, имеющих нормальное распределение.

Дисперсионный анализ является одним из основных методов статистической оценки результатов эксперимента. Все более широкое применение получает он и в анализе экономической информации. Дисперсионный анализ дает возможность установить, насколько выборочные показатели связи результативного и факторных признаков достаточны для распространения полученных по выборке данных на генеральную совокупность. Достоинством этого метода является то, что он дает достаточно надежные выводы по выборкам небольшого численности.

Исследуя вариацию результативного признака под влиянием одного или нескольких факторов с помощью дисперсионного анализа можно получить помимо общих оценок существенности зависимостей, также и оценку различий в величине средних, которые формируются при различных уровнях факторов, и существенности взаимодействия факторов. Дисперсионный анализ применяется для изучения зависимостей как количественных, так и качественных признаков, а также при их сочетании.

Суть этого метода заключается в статистическом изучении вероятности влияния одного или нескольких факторов, а также их взаимодействия на результативный признак. Согласно этого с помощью дисперсионного анализа решаются три основных задачи: 1) общая оценка существенности различий между групповыми средними; 2) оценка вероятности взаимодействия факторов; 3) оценка существенности различий между парами средних. Чаще всего такие задачи приходится решать исследователям при проведении полевых и зоотехнических опытов, когда изучается влияние нескольких факторов на результативный признак.

Принципиальная схема дисперсионного анализа включает установление основных источников варьирование результативного признака и определение объемов вариации (сумм квадратов отклонений) по источникам ее образования; определение числа степеней свободы, соответствующих компонентам общей вариации; вычисления дисперсий как отношение соответствующих объемов вариации к их числу степеней свободы; анализ соотношения между дисперсиями; оценка достоверности разницы между средними и формулирование выводов.

Указанная схема сохраняется как при простых моделях дисперсионного анализа, когда данные группируются по одному признаку, так и при сложных моделях, когда данные группируются по двумя и большим числом признаков. Однако с увеличением числа групповых признаков усложняется процесс разложение общей вариации по источникам ее образования.

Согласно принципиальной схемы дисперсионный анализ можно представить в виде пяти последовательно выполняемых этапов:

1) определение и разложения вариации;

2) определение числа степеней свободы вариации;

3) вычисление дисперсий и их соотношений;

4) анализ дисперсий и их соотношений;

5) оценка достоверности разницы между средними и формулировка выводов по проверке нулевой гипотезы.

Наиболее трудоемкой частью дисперсионного анализа является первый этап - определение и разложения вариации по источникам ее образования. Порядок разложения общего объема вариации подробно рассматривался в главе 5.

В основе решения задач дисперсионного анализа лежит закон разложения (добавление) вариации, согласно которого общая вариация (колебания) результативного признака делится на две: вариацию, обусловленную действием исследуемого фактора (факторов), и вариацию, вызванную действием случайных причин, то есть

Предположим, что исследуемая совокупность поделена по факторным признаком на несколько групп, каждая из которых характеризуется своей средней величине результативного признака. При этом вариацию этих величин можно объяснить двумя видами причин: такими, которые действуют на результативный признак систематически и поддаются регулировке в ходе проводимого эксперимента и регулировке не поддаются. Очевидно, что межгрупповая (факторная или систематическая) вариация зависит преимущественно от действия исследуемого фактора, а внутригрупповая (остаточная или случайная) - от действия случайных факторов.

Чтобы оценить достоверность различий между групповыми средними, необходимо определить межгрупповую и внутригрупповое вариации. Если межгрупповая (факторная) вариация значительно превышает внутригрупповое (остаточную) вариацию, то фактор влиял на результативный признак, существенно изменяя значения групповых средних величин. Но возникает вопрос, каково соотношение между міжгруповою и внутрішньогруповою вариациями можно рассматривать как достаточное для вывода о достоверности (существенности) различий между групповыми средними.

Для оценки существенности различий между средними и формулировка выводов по проверке нулевой гипотезы (Н0 :х1 = х2 =... = хп) в дисперсионном анализе используется своеобразный норматив - Г-критерий, закон распределения которого установил Р.фишер. Этот критерий представляет собой отношение двух дисперсий: факторного, порождаемой действием изучаемого фактора, и остаточной, обусловленной действием случайных причин:

Дисперсионное отношение Г= £>и : £*2 американским статистиком Снедекором предложено обозначать буквой Г в честь изобретателя дисперсионного анализа Р.Фішера.

Дисперсии °2 іо2 являются оценками дисперсии генеральной совокупности. Если выборки с дисперсиями °2 °2 сделаны из одной и той же генеральной совокупности, где вариация величин имела случайный характер, то расхождение в величинах °2 °2 также случайна.

Если в эксперименте проверяют влияние нескольких факторов (А, В, С и т.д.) на результативный признак одновременно, то дисперсия, обусловленная действием каждого из них, должна быть сравнима с °е.гР , то есть

Если значение факторной дисперсии значительно больше остаточной, то фактор существенно влиял на результативный признак и наоборот.

В многофакторных экспериментах кроме вариации, обусловленной действием каждого фактора, практически всегда есть вариация, обусловленная взаимодействием факторов ($ав: ^лс ^вс $лііс). Суть взаимодействия заключается в том, что эффект одного фактора существенно меняется на разных уровнях второго (например, эффективность качества Почвы при разных дозах удобрений).

Взаимодействие факторов также должна быть оценена путем сравнения соответствующих дисперсий 3 ^в.гр :

При исчислении фактического значения Б-критерия в числителе берется большая из дисперсий, поэтому Б > 1. Очевидно, что чем больше критерий Бы, тем значительнее различия между дисперсиями. Если Б = 1, то вопрос об оценке существенности различий дисперсий снимается.

Для определения пределов случайных колебаний отношение дисперсий Г. Фишер разработал специальные таблицы Б-распределения (прил. 4 и 5). Критерий Бы функционально связанный с вероятностью и зависит от числа степеней свободы вариации к1 и к2 двух сравниваемых дисперсий. Обычно используются две таблицы, позволяющие делать выводы о предельно высокое значение критерия для уровней значимости 0,05 и 0,01. Уровень значимости 0,05 (или 5%) означает, что только в 5 случаях из 100 критерий Б может принимать значение, равное указанному в таблице или выше его. Снижение уровня значимости с 0,05 до 0,01 приводит к увеличению значения критерия Бы между двумя дисперсиями в силу действия только случайных причин.

Значение критерия также зависит непосредственно от числа степеней свободы двух сравниваемых дисперсий. Если число степеней свободы стремится к бесконечности (к-ме), то отношение Бы для двух дисперсий стремится к единице.

Табличное значение критерия Б показывает возможную случайную величину отношения двух дисперсий при заданном уровне значимости и соответствующем числе степеней свободы для каждой из сравниваемых дисперсий. В указанных таблицах приводится величина Б для выборок, сделанных из одной и той же генеральной совокупности, где причины изменения величин только случайные.

Значение Г находят по таблицам (прил. 4 и 5) на пересечении соответствующего столбца (число степеней свободы для большей дисперсии - к1) и строки (число степеней свободы для меньшей дисперсии - к2). Так, если большей дисперсии (числитель Г) к1 = 4, а меньшей (знаменатель Г) к2 = 9, то Га при уровне значимости а = 0,05 составит 3,63 (прил. 4). Итак, в результате действия случайных причин, поскольку малочисленные выборки, дисперсия одной выборки может при 5%-ном уровне значимости превышать дисперсию для второй выборки в 3,63 раза. При снижении уровня значимости с 0,05 до 0,01 табличное значение критерия Г, как отмечалось выше, будет увеличиваться. Так, при тех же степенях свободы к1 = 4 и к2 = 9 и а = 0,01 табличное значение критерия Г составит 6,99 (прил. 5).

Рассмотрим порядок определения числа степеней свободы в дисперсионном анализе. Число степеней свободы, что соответствует общей сумме квадратов отклонений, раскладывается на соответствующие компоненты аналогично разложению сумм квадратов отклонений (^общ = №^гр + ]¥вхр) , то есть общее число степеней свободы (к") раскладывается на число степеней свободы для межгрупповой (к1) и внутригрупповой (к2) вариаций.

Так, если выборочная совокупность, состоящая из N наблюдений, деленная на т групп (число вариантов опыта) и п подгрупп (количество повторностей), то число степеней свободы к соответственно составит:

а) для общей суммы квадратов отклонений (й7заг)

б) для межгрупповой суммы квадратов отклонений ^м.гР)

в) для внутригрупповой суммы квадратов отклонений вв.гР)

Согласно правилу сложения вариации:

Например, если в опыте было сформировано четыре варианта опыта (т = 4) в пяти повторностях каждый (п = 5), и общее количество наблюдений N = = т o п = 4 * 5 = 20, то число степеней свободы соответственно равно:

Зная суммы квадратов отклонений число степеней свободы, можно определить несмещенные (скорректированные) оценки для трех дисперсий:

Нулевую гипотезу Н0 по критерию Б проверяют так же, как и по и-критерию Стьюдента. Чтобы принять решение по проверки Н0, необходимо рассчитать фактическое значение критерия и сравнить его с табличным значением Ба для принятого уровня значимости а и числа степеней свободы к1 и к2 для двух дисперсий.

Если Бфакг > Ба, то в соответствии с принятым уровнем значимости можно сделать вывод, что различия выборочных дисперсий определяются не только случайными факторами; они существенные. Нулевую гипотезу в этом случае отклоняют и есть основание утверждать, что фактор существенно влияет на результативный признак. Если же < Ба, то нулевую гипотезу принимают и есть основание утверждать, что различия между сравниваемыми дисперсиями находятся в границах возможных случайных колебаний: действие фактора на результативный признак не является существенным.

Применение той или иной модели дисперсионного анализа зависит как от количества изучаемых факторов, так и от способа формирования выборок.

в Зависимости от количества факторов, определяющих вариацию результативного признака, выборки могут быть сформированы по одним, двумя и большим числом факторов. Согласно этому дисперсионный анализ делится на однофакторный и многофакторный. Иначе его еще называют однофакторним и многофакторным дисперсионным комплексом.

Схема разложение общей вариации зависит от формирования групп. Оно может быть случайным (наблюдение одной группы не связаны с наблюдениями второй группы) и неслучайным (наблюдение двух выборок связаны между собой общностью условий эксперимента). Соответственно получают независимые и зависимые выборки. Независимые выборки могут быть сформированы как с ровной, так и неровной численностью. Формирование зависимых выборок предполагает их равную численность.

Если группы сформированы в невипадковому порядке, то общий объем вариации результативного признака включает в себя наряду с факторным (міжгруповою) и остаточной вариацией вариацию повторностей, то есть

На практике в большинстве случаев приходится рассматривать зависимые выборки, когда условия для групп и подгрупп выравниваются. Так, в полевом опыте весь участок разбивают на блоки, с максимально вирівняннями условиями. При этом каждый вариант опыта получает равные возможности быть представленным во всех блоках, чем достигается выравнивание условий для всех проверяемых вариантов, опыта. Такой метод построения опыта получил название метода рендомізованих блоков. Аналогично проводятся и опыты с животными.

При обработке методом дисперсионного анализа социально-экономических данных необходимо иметь в виду, что в силу багаточисельності факторов и их взаимосвязи трудно даже при самом тщательном выравнивании условий установить степень объективного влияния каждого отдельного фактора на результативный признак. Поэтому уровень остаточной вариации определяется не только случайными причинами, но и существенными факторами, которые не были учтены при построении модели дисперсионного анализа. В результате этого остаточная, дисперсия как база сравнения иногда становится неадекватным своему назначению, она явно завышается по величине и не может выступать как критерий существенности влияния факторов. В связи с этим при построении моделей дисперсионного анализа становится актуальной проблема отбора важнейших факторов и выравнивания условий для проявления действия каждого из них. Кроме того. применение дисперсионного анализа предполагает нормальный или близкий к нормальному распределение исследуемых статистических совокупностей. Если это условие не выдерживается, то оценки, полученные в дисперсионном анализе, окажутся преувеличенными.

 
< Пред   СОДЕРЖАНИЕ   След >