Малые выборки
Рассмотренные выше приемы расчета характеристик выборочной совокупности (дисперсии, средней и предельной ошибок и т.д.) предусматривают достаточно большую численность выборки (п > 30). В то же время не всегда возможен и целесообразен большой объем выборки. В практике производственных наблюдений и в научно-исследовательской работе часто приходится пользоваться небольшими по объему выборками, численность которых не превышает 30 единиц (агрономические и зоотехнические опыты, проверка качества продукции, связанная с уничтожением образцов и др). В статистике они получили название малых выборок. Согласно выборки с численностью более 30 единиц называют большими выборками.
Небольшой объем выборки уменьшает ее точность по сравнению с большой выборкой. Однако доказано, что результаты, полученные с малыми выборками, также можно распространять на генеральную совокупность. Но здесь необходимо учитывать некоторые особенности, в частности, при расчете среднего квадратического отклонения. При малом объеме выборки следует пользоваться незміщеною оценкой дисперсии 52.
Основы теории малых выборок разработал английский математик-статистик В.Госсет (псевдоним Стьюдент). Исследования Стьюдента показали, что при небольшой численности совокупности среднее квадратическое отклонение в выборке значительно отличается от среднего квадратического отклонения в генеральной совокупности.
Поскольку среднее квадратическое отклонение генеральной совокупности является одним из параметров кривой нормального распределения, то использовать функцию нормального распределения для оценки параметров генеральной совокупности по данным малых выборок в силу получения больших ошибок неправомерно.
При расчете средней ошибки по выборках малой численности всегда надо пользоваться незміщеною оценкой дисперсии
где п - 1 - число степеней свободы вариации (к), под которым понимают число единиц, способных принимать произвольные значения, не меняя их общей характеристики (средней).
Например, проведено три наблюдения: х1 = 4; х2 = 2; х3 = 6. Средняя величина
Итак, свободно варьирующих величин остается только две, потому что третья может быть найдена по известным двумя величинами и средней:
Следовательно, для данного примера число степеней свободы вариации равен 2 (к = п - 1 = 3 - 1 = 2).
Стьюдент обосновал закон распределения отклонений выборочных средних от генеральной средней для малых выборок. Согласно распределения Стьюдента вероятность того, что предельная ошибка не превысит и-кратную среднюю ошибку в малых выборках зависит от величины и численности выборки.
Теоретическое нормированное отклонение для малых выборок получило название и-критерия в отличие от и-критерию нормального распределения, который применяется в больших выборках. Значение и-критерия Стьюдента приводятся в специальных таблицах (прил. 3).
Рассмотрим порядок определения средней и предельной ошибки для малой выборки на таком примере. Допустим, для определения величины потерь при уборке картофеля проведено перекопку пяти случайно отобранных площадок по 4 м2. Потери по площадкам составляли (кг); 0,6; 0,2; 0,8; 0,4; 0,5.
Средняя величина потерь
Судя по отдельным наблюдениям, величина потерь сильно варьирует и средняя только по пяти наблюдениях может иметь большую ошибку.
Для расчета ошибок выборки определим несмещенную оценку дисперсии
Рассчитаем среднюю ошибку выборочной средней, где вместо среднего квадратического отклонения используется его незміщена оценка:
По таблицам Стьюдента (прил. 3) установим, что при доверительной вероятности Г = 0,95 (уровень значимости а = 0,05) и при к = п - 1 = 5 - 1 = 4 степенях свободы вариации и = 2,78. Тогда предельная ошибка выборки равна
Итак, с вероятностью Р = 0,95 можно утверждать, что величина потерь на всем поле составит 0,5 ± 0,28 кг, или от 0,22 до 0,78 кг из расчета на 4 м2.
Как видим из примера, пределы случайных колебаний при малых выборках достаточно велики и могут быть сокращены за счет увеличения численности выборки и уменьшения колебания (дисперсии) признаки.
Если бы мы использовали для расчета доверительных границ генеральной средней таблицу интеграла вероятностей (прил. 2), то и было бы равным 1,96 и єх = іИзі = 1,96 o 0,10 = 0,20 кг, т.е. доверительный интервал был бы более узким (от 0,30 до 0,70 кг).
Малые выборки в силу своей небольшой численности даже при самой тщательной организации наблюдения не отражают достаточно точно показатели генеральной совокупности. Поэтому результаты малых выборок редко используются для установления надежных границ, в которых находятся характеристики генеральной совокупности.
Критерий Стьюдента применяется главным образом для проверки статистических гипотез о существенности различий между показателями двух или нескольких малых выборок (см. раздел 7).