Критерий согласия х 2

Критерий х основано на сравнении эмпирической гистограммы распределения случайной величины с ее теоретической плотностью. Диапазон измеряемых эмпирических данных разбивают на к интервалов и рассчитывают статистику

2 _ ю и - пр и) 2

Хемп ~ / <, (5.7)

, = 1 пр,

где те - количество значений случайной величины, попавших в / -й интервал; п - объем выборки; г. и - теоретическая вероятность случайной величины попасть в / -й интервал.

Для гипотетического теоретического распределения, который имеет закон распределения Р (х), теоретическая вероятность г. и определяется ЯКР и = Р (х I + 1) - Р (х,), т.е.

г. и = | Р (х) ах = | Р (х) <1х - | Р (х) ах = Р (х, + 1) - Р и). (5.8)

V один две

В условиях к << п и второй - << п считается, что статистика% ЭМП имеет распределение

близок к распределению хи-квадрат для к-1 степеней свободы. Нулевая гипотеза Н 0 отклоняется на уровне значимости а, если химп> хии.

Пример 5.3. Проверить по критерию согласия% гипотезу о нормальном распределении эмпирических данных предыдущего примера 5.2. Последовательность решения: o Формулировка гипотез:

Н 0: эмпирическое распределение не отличается от нормального; Н и: эмпирическое распределение отличается от нормального.

o Статистический критерий химп равен сумме квадратов отклонений эмпирических частот Ши ожидаемых теоретических частот при (5.7).

o Последовательность расчета эмпирического критерия химп (результаты показано на рис. 5.7, необходимые формулы - на рис. 5.8):

Рис. 5.7. Результаты расчета критерия%

- Внести эмпирические данные в ячейки А1: В 11;

- Рассчитать количество классов k по формуле Стерджеса k = 1 + 3,32 - lg (n) Для этого выражение = ОКРУГЛ (1 + 3,32 * ЬОО (СЧЕТ (А3: В11)), 0) внести в ячейку D10 и получить k = 1 + 3,32lg (18) = 5,2 = 5;

- В ячейке D11 рассчитать размер классового интервала X = (x max -x min) / k с помощью выражения = (MAKC (A3: B11) -MHH (A3: B11)) / D10 и получить X ~ 2;

- Внести в ячейки D3: E8 значения начальных x i и конечных x i + i границ диапазонов х - кратными 2. Минимальное значение первого диапазона составляет -оо (ячейка D3), максимальное последнего интервала + оо (ячейка Е8)

- В ячейках F3: F8 рассчитать эмпирические абсолютные частоты m и с помощью функции = ЧАСТОТА (). Сумма частот m t равна объему выборки, то есть 18;

- Теоретическая вероятность случайной величины p и попасть в / '- и интервал рассчитывается как разница значений нормального распределения F (x и + 1) - F (x,). Значение нормального распределения можно получить с помощью функции MS

Excel = НОРМРАСЩ). Среднее ц и стандартное отклонение а х теоретического нормального распределения внести в ячейки F10 i F11 соответственно (замечание: замена параметров нормального распределения выборочными статистиками может привести к существенному искажению статистических выводов);

- Внести в другие ячейки соответствующие расчетные выражения по рис. 5.8 получить значение эмпирического критерия химп, Щ ° составит 4,53

Рис. 5.8. Формулы для расчета критерия х 2 ЭМП

o Критическое значение критерия х 2 кр можно получить с помощью функции = ХИ20БР (), которая возвращает значение двустороннего критерия в ячейках Е9 и 10 соответственно: -Ио Л ~ 9,24 и в ^ в Д 5 ~ 11,07.

o Принятие решения. Поскольку / 2 ели ~ 4,53 не превышает критического значения даже на уровне а = 0,1 (% 2 в, и ~ 9,24), нулевая гипотеза н 0 принимается.

o Формулировка выводов: разногласия эмпирического и теоретического нормального распределений могут иметь исключительно случайный характер.

Проверку нормальности эмпирического распределения выполним с помощью критерия Шапиро-Вилка XV.

Критерий Шапиро-Вилка W

Статистика критерия W Шапиро-Вилка имеет вид:

тина 2; коэффициенты а пи + 1 для небольших п и / 'приведены в табл. 1 Приложения.

Пример 5.4. Проверить по критерию Шапиро-Вилка гипотезу о соответствии нормальному закону распределения эмпирических данных примера 5.2. Последовательность решения:

o Формулировка гипотез:.

Н 0: эмпирическое распределение не отличается от нормального; Н 1: эмпирическое распределение отличается от нормального.

o Последовательность расчета эмпирического критерия XV (результаты показано на рис. 5.9, необходимые формулы - на рис. 5.10):

- В ячейках С2: 011 разместить индексы (/ ') и (п-i + 1), причем и изменяется от 1 до ш (ш в примере равна п / 2 = 18/2 = 9);

Рис. 5.9. Результаты расчета Х ¥ -критерия Шапиро-Вилка

- В ячейки Е2: Е11 внести 9 коэффициентов табл. 1 Приложения из строки для n = 18;

- Заполнить ячейки F2: G11 значениями x t ix n. I + 1 или "вручную", или с использованием функции MS Excel = ВПР (), которая по индексу в левом столбце таблицы возвращает значение в той же строке из указанного столбца таблицы;

- В ячейках H2: H11 рассчитать значение b = a n _ M (x n _ i + 1 - Х и)

- В ячейке H12 определить квадрат суммы параметров - (Sb и) 2, то есть числитель выражения (5.9), а в ячейке H13 - знаменатель - s 1;

- Значение критерия W в ячейке H14 равно (2Ь и) 2 / s 1 = 0,891;

- Критическое значение критерия W 18 (0,05) получить из табл. 2 приложений. Для n = 18 и <х = 0,05 это значение составляет 0,897 (см. Ячейку Н15 рис. 5.9).

Рис. 5.10. Формулы для расчета W-критерия Шапиро-Вилка

o Принятие решения происходит по правилу: если ¥ <¥ п (а), Н 0 отклоняется на уровне 2а. Поскольку XV ~ 0,891 не превышает критического значения 0,897 критерия Х ¥ 18 (0,05), нулевая гипотеза о нормальности распределения отклоняется на уровне 0,1.

o Формулировка выводов. Различие между эмпирическим и ожидаемым теоретическим нормальным распределениям можно считать статистически значимыми на уровне 0,1.

Таким образом, на основе сравнения трех критериев (асимметрии и эксцесса, хи-квадрат, Шапиро-Вилка) можно сделать следующие выводы:

- Нулевые значения моментов при применении критериев асимметрии и эксцесса могут приниматься и для распределений, отличных от нормальных. Близость выборочных значений асимметрии и эксцесса к теоретическим не обязательно свидетельствует о нормальности распределения результатов наблюдений. Эти критерии служат не столько для проверки нормальности, сколько для выявления отклонений распределения от нормального, или, точнее, для проверки альтернативных гипотез [49];

- Подавляющее большинство распределений наблюдений не представляется нормальными, поэтому в условиях реальных задач маловероятно принимать гипотезу нормальности. Корректнее утверждать, что распределения мало отличается от нормального;

- Критерий хи-квадрат, как и критерии моментов, не состоятелен. Его целесообразно применять только для отклонения гипотезы нормальности. К тому же, на мощность критерия хи-квадрат сильно влияет количество (к) и размер (Я) интервалов, практически этот критерий можно применять, если пр и> 5,

- Каждый критерий имеет свои "проблемы", существуют специально разработанные модификации различных классических критериев, например, типа "хи-квадрат", которые можно наиболее эффективно применять в конкретных ситуациях;

- При расчетах теоретического нормального распределения его параметры (г. и а х) не всегда известны исследователю. Замена их выборочными статистиками (X и s x) может привести к существенному искажению статистических выводов;

- Наиболее мощным и лишенным перечисленных недостатков оказался критерий Шапиро-Вилка Ж. По рейтингу этот критерий занимает первое место среди двадцати одного аналогичного метода [37, с.278] и может быть рекомендован для проверки нормальности эмпирических распределений.

Вопрос. Задача. 1. Какие основные недостатки критериев асимметрии и эксцесса для проверки нормальности распределений?

2. Когда целесообразно применять критерия хи-квадрат в задачах проверки нормальности распределений?

3. Проанализируйте схему выбора параметрических критериев в зависимости от характера совокупности и исследуемых задач.

4. Обоснуйте сравнительную характеристику трех критериев (асимметрии и эксцесса, хи-квадрат, Шапиро-Вилка) как средства оценки соответствия эмпирического распределения нормальному закону.

5. Повторите математические процедуры задач за примерами 5.1 и 5.4.

6. Выполните лабораторную работу № 10.

 
< Пред   СОДЕРЖАНИЕ   След >