Проверка статистических гипотез относительно распределений

Наряду с проверкой статистических гипотез относительно средних иногда требуется проверить гипотезы относительно характера распределения. Гипотезы о распределения заключаются в том, что распределение в генеральной совокупности подчиняется какому-либо определенному закону. Проверка гипотезы заключается в том, чтобы на основе сравнения фактических (эмпирических) частот с предполагаемыми (теоретическими) частотами сделать вывод о соответствии фактического распределения гипотетическому распределению.

Процедура проверки гипотезы о соответствии эмпирического распределения теоретическому состоит из следующих этапов:

1. Вычисление оценок параметров предполагаемого распределения на основе данных выборочного наблюдения.

2. Определение теоретических частот на основе полученных оценок параметров, исходя из теоретической функции частот.

3. Оценка близости эмпирического распределения теоретическому на основе определенного критерия согласия.

Поскольку нормальное распределение встречается довольно часто, то чаще всего проверяют гипотезы о соответствии выборочного распределения нормальному. Однако, наряду с нормальным распределением генеральные совокупности могут быть распределены и по другим законам. Поэтому выбор теоретического закона распределения должен базироваться на глубоком понимании характера формирования исследуемого явления или процесса. Определенную роль в решении этого вопроса может играть расчет статистических характеристик выборочных распределений и построение графиков (гистограммы, полигона, кумуляти т.д.). Так, о форме распределения делают вывод по выборочным коэффициентом скошенности и эксцесса: если они равны нулю или близки к нулю, то можно предположить, что исследуемое распределение принадлежит к нормальному; если средняя арифметическая и дисперсия равны или очень близки друг к другу, то можно предположить, что выборочное распределение соответствует распределению Пуассона.

Для проверки гипотезы о соответствии выбранных законов распределения (нормальное, біноміальне, Пуассона и т.д.) распределения в генеральной совокупности в большинстве случаев при расчете критериев согласия используются отклонения эмпирических частот от теоретических. Чем меньше это отклонение, тем точнее теоретический раздел воспроизводит выборочный и наоборот.

При проверке статистических гипотез относительно распределений может быть использован ряд критериев. Из множества критериев согласия, которые используются при проверке гипотез относительно распределений чаще других применяют мощный параметрический критерий Пирсона (%2 - хи-квадрат). Его вычисляют как сумму доли от деления квадрата разности между эмпирическими и теоретическими частотами на теоретические частоты:

где l - число интервалов (классов, групп) на которые разбит выборочное распределение; ni-частоты эмпирического распределения; ni - частоты теоретического распределения.

Из формулы следует, что чем меньше расхождение между п и п , тем ближе по значению друг к другу эмпирические и теоретические частоты, тем меньше %2. При полном совпадении теоретических и выборочных частот %2 = 0, в противном случае %2 > 0. Область изменения %2 от 0 к <ю. в При большом числе степеней свободы (к-"<ю) распределение %2 приобретает формы, близкой к нормальному распределению.

Чтобы оценить близость эмпирического и теоретического распределений необходимо рассчитать фактическое значение %2 и сравнить его с табличным значением при заданном уровне значимости (а) и соответствующем числе степеней свободы к.

Число степеней свободы определяют по-разному в зависимости от характера проверяем! гипотезы и особенностей исходной информации. Так, если проверяется гипотеза о согласованности выборочного и теоретического распределений, то число степеней свободы определяют по формуле

где И - число интервалов (классов, групп) выборки; 5 - число параметров генерального распределения, оцениваемых по данным выборки.

При оценке соответствия эмпирического распределения нормальному число степеней свободы к = И -1 - 2 = 1-3, поскольку для построения кривой нормального распределения оцениваются два параметра: средняя арифметическая и среднее квадратическое отклонение. Если проверяется соответствие выборочного распределения Пуассона, то оценивается один параметр X. Тогда число степеней свободы к = И - 1 - 1 = И - 2.

Если исходные данные представлены в виде таблицы распределения частот и необходимо проверить гипотезу о независимости распределения двух признаков, то число степеней свободы определяют по формуле:

где а - число строк; Ь - число столбцов.

Так, число степеней свободы к = (а - 1) o (Ь - 1) = (2 - 1) х (2 - 1) = 1 для таблицы 2 х 2, к = 4 для таблицы 3 х 3, к =2 для таблицы 3 х 2 и т.д.

Если проверяется гипотеза об однородности двух совокупностей, то число степеней свободы определяют по формуле к = п - 1, где п - число интервалов (классов, групп).

Как видно, для всех случаев число степеней свободы кроме обязательных ограничений всегда уменьшается на единицу, т.е. имеет место один линейный ограничивающий связь - равенство сумм эмпирических и теоретических частот.

Если полученное по выборке значение Хфакт - Ха, то нулевая гипотеза принимается. Если же Хфакт > Ха, т0 нулевая гипотеза отклоняется.

Фактическое значение можно вычислить и по другой формуле, которая следует из выше приведенной:

Эта формула не требует вычисления квадратов отклонений (в чем заключается ее простота), ее можно использовать и для проверки правильности вычислений.

Если исходные данные представлены в виде четырех клеточной таблицы распределения частот по двум признакам (2 х 2) с чисельностями пи:

то фактическое значение %2 может быть определено по формуле:

^2 критерий Пирсона используется для решения ряда задач, в частности, при проверке гипотез о согласии (соответствии) выборочного и теоретического распределений, о независимости распределений, об однородности совокупности. Относительно этих задач критерий %2 называют критерием согласия, независимости и однородности.

Применение критерия %2 требует соблюдения ряда условий, важнейшими среди которых являются:

1) объем выборки должен быть достаточно большим (при п < 50 мощность критерия %2 значительно снижается);

2) численность отдельных интервалов (классов) должно быть не менее пяти единиц. Если это условие не выполняется, то производится объединение малочисленных интервалов с числом единиц меньше 5 (как исключение таких интервалов может быть не более 20% от их общего количества);

3) частоты нельзя превращать в доли, так как это может привести к увеличению величины отклонений п п .

Рассмотрим пример проверки статистической гипотезы о соответствии эмпирического распределения нормальному. Для этого используем данные ряда распределения 100 хозяйств по надою молока на корову (табл. 4.2).

Расчет характеристик вариационного ряда распределения 100 хозяйств по надою молока (моды, медианы, коэффициентов скошенности и эксцесса) показал, что эмпирическое распределение очень близок к симметричному и характеризуется следующими параметрами:

1. средний надой на корову х = 32,6 ц;

2. выборочное среднее квадратическое отклонение ег= 3,2 ц;

3. величина интервала к = 2,0 ц;

4. численность выборочной совокупности п = 100. Рассмотрим все этапы процедуры проверки гипотезы.

1. Сформулируем нулевую и альтернативную гипотезы: Н0; эмпирическое распределение соответствует нормальному; На : эмпирическое распределение не соответствует нормальному.

2. Примем уровень значимости а = 0,05.

3. Самым мощным критерием проверки этой гипотезы есть %2 - критерий согласия Пирсона.

4. Для проверки Н0 необходимо рассчитать %2 и сравнить его с табличным значением Ха.

Сначала необходимо, исходя из предположения о соответствии эмпирического распределения нормальному построить теоретическое распределение (кривая нормального распределения), для построения которого используем параметры выборочного распределения х = 32,6 ц; 8 = 3,2 ц.

5. Порядок расчета теоретических частот нормального распределения и критерия %2 приведены в табл. 7.4.

6. Дадим некоторые пояснения к расчетам. Значение нормированного отклонения .,■ определяется как ---, где принимается среднее значение интервала.

Выражая длину интервала к также в единицах среднего

Таблица 7.4. Расчет теоретических частот нормального распределения и критерия

Расчет теоретических частот нормального распределения и критерия

к

квадратичного отклонения как ^ при известном объеме выборки п, можно рассчитать теоретические (ожидаемые) частоты для любого интервала, используя следующее соотношение:

Значение функции нормального распределения /(и) найдем по таблице (прил. 1)

Значение постоянного выражения п ^ для данной задачи составит

Тогда теоретические частоты пи нормального распределения составят: для первого интервала 62,5 o 0,0863 = 6; для второго интервала 62,5 o 0,2131 = 14 и т.д.

Интервалы с числом единиц меньше 5 необходимо объединить. Поэтому два последних интервала укрупнимо. Подсчитаем суммы теоретических и фактических частот и проверим их равенство общем итоге (п = 100).

7. Вычислим фактическое значение критерия %2. Последовательность вычисления %2 приведена в трех последних колонках табл. 7.4.

Такой же результат получим по другой формуле

8. Для установки табличного значения %2 необходимо определить число степеней свободы к. Определим его как число интервалов (групп, классов, с учетом укрупнения) без единицы и минус две постоянные величины, которые описывают кривую нормального распределения (~ и а):

По таблице (прил. 6) при а = 0,05 определим табличное значение

2

^0,05 =7,815.

9. Сравним фактическое значение %2, рассчитанное по данным выборки, с табличным:

нулевая гипотеза о нормальном распределении хозяйств по надоям молока на корову принимается. Другими словами, фактические данные согласуются с нулевой гипотезой.

 
< Пред   СОДЕРЖАНИЕ   След >