Метод наименьших квадратов
В основе применения метода наименьших квадратов положено условие минимизации суммы квадратов отклонений выборочных данных от тех, которые определяются оценкой.
Пример 4.3. Определить оценку генерального среднего / и МНК случайной величины xза методом наименьших квадратов. Решение:
Согласно условию минимизации можно записать
n
u = £ (x - ее) 1 = min. (4.14)
Для определения экстремума первую производную функции u следует приравнять нулю
- DU - = -l £ (x, - //) = 0, откуда X (x и = Х x, - n <"= 0 и М = - Z x t.
d M ¡= 1 i = 1 i = 1 n, = 1
Итак, /} ЯНК = x. (4.15)
Таким образом, оценка по методу наименьших квадратов математического ожидания / и ЯНК случайной величины x является выборочное среднее x (эта оценка совпадает с оценкой максимального правдоподобия для случайной величины, имеющей нормальное распределение). Метод наименьших квадратов имеет широкое применение в практике статистических исследований, поскольку не требует знания закона распределения случайной величины и имеет достаточно разработан математический аппарат.
Интервальные оценки
Точечные оценки даже в тех ситуациях, когда они способны (приближаются к значению параметра при увеличении n), несмещенные (в среднем совпадают с параметром) и эффективные (имеют наименьшую степень случайных отклонений), есть все же приближенными показателями неизвестных параметров. их главным недостатком считается то, что при малом объеме выборки точечные оценки могут иметь значительное расхождение с тем параметром, который они оценивают, а это может привести к грубым ошибкам.
Интервальной оценке называется численный интервал, который покрывает 21 с определенной вероятностью неизвестный параметр генеральной совокупности. Этот численный интервал (2/1) называется доверительным интервалом, а вероятность - доверительной вероятностью в 22. Чаще всего доверительный интервал выбирается симметричным к параметру ©, то есть (© -а, © + а).
Размер доверительного интервала зависит от объема выборки п (уменьшается с ростом п) и от значения доверительной вероятности (увеличивается при приближении
в к единице). Отклонение оценки © п от параметра ©, что оценивается с определенной доверительной вероятностью в, называют случайной погрешностью репрезентативности. ее наибольшее отклонение является предельной погрешностью. Случайная погрешность репрезентативности возникает вследствие того, что исследуется не вся совокупность, а только ее часть (выборка). ее не следует путать с систематической погрешностью репрезентативности, которая является следствием нарушения принципа случайности при отборе элементов в выборку, что может иметь место в практической деятельности.
Доверительная вероятность в определяется исследователем по принципу практической невозможности, а именно: события с вероятностью, близкой к 1, считаются достоверными (достоверными) события с вероятностью, близкой к 0, признаются недостоверными (невозможными). Этот принцип не может быть доказано математически. К тому же он сформулирован в однократного выполнения испытания.
Наряду с понятием "доверительная вероятность" в используется понятие "уровень значимости" а. Между в и а существует соотношение: у = 1-я.
Уровень значимости а - указывает вероятность ошибки оценивания. Для практических целей используют различные значения доверительной вероятности в или
21 С.АЙвазян, Н. Кремер и др. настаивают на использовании именно слов "интервал покрывает", а не "содержит", поскольку границы численного интервала определяются по выборочным данным и поэтому являются случайными величинами [1, С. 289; 41, С. 320].
22 Иногда доверительную вероятность называют уровнем доверия или надежностью оценки. [41, С.
320].
уровня значимости а - все зависит от риска ошибки, который может себе позволить исследователь. Если в (доверительная вероятность) - это своеобразный "уровень доверия" принятие решения, то смысл параметра а (уровень значимости) можно трактовать как вероятность риска ошибиться при принятии решения. В психологических и педагогических исследованиях общепринятыми считаются так называемые стандартные значения в и а (см. Табл. 4.2).
Таблица 4.2
Значения доверительной вероятности в, уровня значимости "и параметра и
Доверительная вероятность |
Уровень значимости |
Параметр нормального распределения |
|
в |
а |
2а |
2 а / 2 |
0,90 (90% вероятности) |
0,10 (10% -й уровень) |
1,28 |
1,64 |
0,95 (95% вероятности) |
0,05 (5% -й уровень) |
1,64 |
1,96 |
0.99 (99% вероятности) |
0,01 (1% -й уровень) |
2,33 |
2,58 |
0,999 (99,9% вероятности) |
0,001 (0,1% -й уровень) |
3,09 |
3,29 |
Методы определения доверительных интервалов реализовано в основном на двух подходах: в знании точного распределения выборочных характеристик для малых объемов выборок и на асимптотических свойствах распределения выборочных характеристик для значительных объемов выборок.
Доверительный интервал размером 2А - это численный интервал, с доверительной вероятностью в покрывает истинное значение параметра генеральной совокупности. Например, генеральная среднее / ч может принадлежать к интервалу значений от (X-А) до (X + А), где выборочное X является серединой этого доверительного интервала. Ширина доверительного интервала 2А может быть точно вычислена для заданной доверительной вероятности в (или уровня значимости а) и вполне определенного распределения вероятностей. На рис. 4.1 показано ширину симметричного доверительного интервала генерального среднего / и для нормального распределения N (0,1).
Как видим, при увеличении доверительной вероятности в (уменьшенные значения а) ширина доверительного интервала 2А растет, что снижает точность определения параметра генеральной совокупности. Для нормального распределения модель интервальной оценки среднего генеральной совокупности / и имеет вид:
/ ие (Х-А, Х + (4.16)
где А = Аи2 Г х; X и s x - выборочное среднее и стандартное отклонение; п - объем выборки; 2а / 2 - параметр стандартного нормального распределения (см. Табл. 4.2); а - уровень значимости - вероятность того, что отклонение выборочного от генерального среднего не превысит А по абсолютному значению.
Рис. 4.1. Ширина доверительного интервала И для среднего / г = 0
Выражение (4.16) показывает, что среднее генеральной совокупности ¡1 покрывается
диапазоном значений от (X-А) до (X + А). Поскольку А-то для повышения
* Jn
точности при заданной доверительной вероятности следует увеличивать объем выборки n.
Пример 4.4. Выборка объемом 80 человек имеет среднее арифметическое X = 100 и стандартное отклонение s x = 5,6. Необходимо оценить доверительный интервал среднего генеральной совокупности fi на уровне значимости 0,05.
Последовательность решения:
o определить параметр стандартного нормального распределения для уровня значимости а с помощью функции MS Excel = НОРМСТОБР (0,05 / 2), которая возвращает значение 1,96;
o доверительный интервал среднего генеральной совокупности ¡1 равна
Л = 1,96 = 56 "1,23
л / и л / 80 '
Ответ: на уровне значимости 0,05 среднее генеральной совокупности fi принадлежит диапазону 100,0 + 1,23. Иначе говоря, с доверительной вероятностью 95% среднее fi покрывается диапазоном значений в пределах от 98,77 до 101,23.
Доверительный интервал удобно оценивать с помощью специальной функции MS Excel с соответствующими аргументами = ДОВЕРИТ (а; s x и). Так, например 4.4, функция = ДОВЕРИТ (0,05; 5,6; 80) возвращает уже известное значение 1,23. Вопрос. Задача.
1. Охарактеризуйте основные методы формирования эмпирической выборки.
2. Раскройте понятие статистической оценки.
3. Чем отличаются между собой точечное и интервальное оценивание?
4. Чем отличаются "параметры" от "статистик"?
5. Охарактеризуйте основные свойства статистических оценок.
6. Какая идея метода моментов как методы статистического оценивания?
7. В чем суть метода максимального правдоподобия?
8. Какие условия положено в основу метода наименьших квадратов?
9. В чем заключается суть интервального статистического оценивания?
10. Охарактеризуйте понятия "доверительная вероятность" и "уровень значимости". Какое соотношение существует между ними?
11. Что означает доверительный интервал и как его рассчитать?
12. Повторите математические расчеты за примерами 4.1 - 4.4.
13. Выполните лабораторную работу № 9.