Распределение Стьюдента
Теоретические положения по оценке выборочных характеристик на основе малых выборок (п < 30) впервые (1908 г.) разработал английский математик-статистик В.Госсет (печатал свои работы под псевдонимом Стьюдент). Позднее (1925 г.) Р.фишер дал более строгое доказательство этого распределения, которое получило название и распределения Стьюдента.
Отклонение выборочных средних от генеральной средней Стьюдент выразил в единицах стандартного отклонения
где в знаменателе используется среднее квадратическое отклонение выборки, тогда как в нормальном распределении - среднее квадратическое отклонение генеральной совокупности (сто). Р.фишер выразил эти отклонения в единицах стандартной ошибки
_ _5_
где ~ - средняя ошибка в малых выборках.
Среднее квадратическое отклонение в малых выборках определяется с учетом числа степеней свободы вариации (п - 1):
Теоретический и-распределение Стьюдента не зависит от параметров генеральной совокупности, он связан только с величинами, которые определяются непосредственно по данным выборки.
В литературе по математической статистике доказывается, что дифференциальная функция и - распределения Стьюдента (плотность распределения вероятностей) имеет вид
где А - величина, которая определяется с учетом числа степеней свободы вариации (к = п 1) с помощью гамма-функции (G - функции):
где Г(п) |х е высше - Гамма-функция.
0
Как видно, величина А зависит только от объема выборки и соответствует максимальной ординаті кривой распределения при и = 0. Вероятность того, что ошибка выборки будет не больше заданной величины ер = имя определяется интегральной функцией
Иначе говоря, в) = Р(итабл <факг), гдетабл ифакг - табличное (теоретическое) и фактическое значение нормированного отклонения.
и-распределение Стьюдента справедлив только для выборок, взятых из генеральной совокупности с нормальным распределением случайной величины.
На рис. 6.2. сравнивается кривая и-распределения Стьюдента с кривой нормального распределения.
Рис. 2.2. Сравнение и - распределения Стьюдента и нормального распределения: 1 - нормальное распределение; 2 - и-распределение Стьюдента
Кривая t распределения Стьюдента симметрична относительно оси ординат. В отличие от нормального распределения под концами кривой t - распределения Стьюдента при тех же значениях t размещена значительно большая часть площади. Таким образом, на долю больших отклонений от генеральной средней приходится значительная часть площади. Это означает, что для малых выборок вероятность допущения больших ошибок существенно повышается.
При увеличении объема выборки t - распределение Стьюдента приближается к нормальному распределению (практически считается достаточным и > 30), а при ы^<ю он становится нормальным.
Для определения значений функции S(t, и) распределения Стьюдента составлен ряд специальных таблиц, в которых приводятся расчетные значения S(t, и) при соответствующем числе степеней свободы вариации. По этим таблицам можно найти вероятность ошибки выборки при заданном значении нормированного отклонения t или значение t при заданном уровне вероятности суждения Г.
Приведем выдержку из таблицы вероятностей S(t, и) для значений nit, которые наиболее часто применяются (табл. 6.2).
Таблица 6.2. Извлечение из таблицы значений функции S (t, n) распределения Стьюдента (вероятности умноженные на 1000)
и t |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
12 |
15 |
20 |
00 |
1 |
608 |
626 |
636 |
644 |
650 |
654 |
656 |
662 |
666 |
670 |
683 |
2 |
860 |
884 |
902 |
908 |
914 |
920 |
924 |
930 |
936 |
940 |
954 |
3 |
942 |
960 |
970 |
976 |
980 |
984 |
984 |
988 |
992 |
992 |
997 |
Как видно из данных таблицы, вероятность расхождения между выборочной средней малой выборки и генеральной средней, зависит от двух величин: численности выборки п и нормированного отклонения и. Можно увидеть, что при увеличении п это распределение стремится к нормальному и при п = 20 уже мало от него отличается. При п^<ю. в таблице приведены значения для функции нормального распределения.
Другой аспект применения распределения Стьюдента приведенный в приложении 3, в котором данные значения и - критерия Стьюдента при разном уровне значимости (а) и числе степеней свободы вариации (к).
Распределение Пирсона
Для оценки различий между эмпирическими и теоретическими частотами разработан ряд критериев согласия, среди которых наиболее широкое применение получил критерий %г - хи-квадрат. На основе сопоставления фактического и теоретического (табличного) значения %г - критерия можно выяснить принадлежность данного эмпирического распределения некотором известном теоретическом типа распределения (например, есть или нет исследуемый распределение нормальным, біноміальним и др.).
Кривая, характеризующая распределение %г описывается уравнением
где к- число степеней свободы вариации.
Учитывая, что для целых положительных чисел гамма-функция Г(п) = п - 1, можно записать
Из уравнения плотности вероятности видно, что распределение х 2 зависит только от числа степеней свободы вариации (к = п - 1). Распределение %г не зависит от генеральной средней и генеральной дисперсии. При большой численности выборки (п = 30 - 40) распределение %г практически становится нормальным.
Для %г критерия составлены специальные таблицы, в которых приведены его значения при определенном числе степеней свободы вариации и заданном уровне вероятности (прил. 6).
Изложения аспектов прикладного применения %г - критерия дается в разделе, посвященном вопросам проверки статистических гипотез (раздел 7).
Распределение Фишера-Снедекора
При решении ряда задач корреляционно-регрессионного и дисперсионного анализа используется распределение Э, названный так по первой букве фамилии английского математика-статистика Г.Фишера.
Если и и V- независимые случайные величины, распределенные по закону %г с степенями свободы к1 и к2, мера
подчиняется распределению Е Фишера-Снедекора со степенями свободы к1 и к2. Принимая, что и > V, величина Е будет иметь значение не меньше единицы. Плотность распределения Е имеет вид
Из формулы видно, что распределение Е определяется двумя параметрами, то есть числами степеней свободы вариации к1 и к2. Это дает возможность составить таблицу распределения случайной величины Е, в которых различным значением уровня значимости и различным сочетаниям величин к1 и к2 соответствуют определенные значения Е-критерия (прил. 4 и 5).
Использование Е-критерия в статистическом анализе подробно рассмотрен в разделе 8 "Дисперсионный анализ".