Понятие статистической оценки. Точечная и интервальная оценка параметров генеральной совокупности
Поскольку все элементы генеральной совокупности для вычисления искомого параметра, как правило, использовать невозможно, то этот параметр пытаются судить по данным одной или нескольких выборок из генеральной совокупности.
Приближенное значение искомого параметра генеральной совокупности, установленное по данным выборочной совокупности, называют выборочной оценкой параметра.
Если искомый параметр генеральной совокупности обозначить через 0 , а
значения выборочной характеристики - 0 , то характеристика 0 в данном случае выступает как оценка параметра генеральной совокупности 0 .
В связи с тем, что значения выборочных характеристик устанавливаются по данным случайных выборок, то и сами оценки являются случайными величинами.
Оценка параметров является одним из центральных задач математической статистики и представляет собой совокупность методов, позволяющих делать научно обоснованные выводы относительно параметров генеральной совокупности по данным случайной выборки из нее.
Оценкой генеральной средней (математического ожидания) может выступать выборочная средняя, генеральной доли - выборочная доля, генеральной дисперсии - выборочная дисперсия и т.д.
Для того чтобы статистические оценки давали лучшие и хорошие приближения оцениваемых параметров, они должны обладать определенными свойствами и удовлетворять определенным требованиям. Основными свойствами оценок свойства несмещенности, состоятельности, эффективности и достаточности.
Незміщеною называют статистическую оценку 9 , математическое ожидание которой равно оцениваемому параметру 9 при любом объеме выборки, т. е. если она удовлетворяет равенству
Оценка называется смещенной, если ее математическое ожидание не равно оцениваемому параметру, т.е. М( 9 ) ф 9 .
Оценка параметра 9 9 называется состоятельной, если она подчиняется закону больших чисел, т.е. при п -"со приближается с вероятностью до искомого параметра:
Состоятельность оценки означает, что чем больше объем выборки, тем больше вероятность того, что ошибка оценки не превысит сколько угодно малого положительного числа е.
Эффективной называют такую несмещенную оценку 9 , которая имеет наименьшую дисперсию среди всех возможных незміщених оценок параметра 9 , исчисленного по выборкам одного и того же объема.
Оценка 9 называется достаточным (исчерпывающей), если она включает всю информацию, которая содержится в выборке относительно искомого параметра 9 .
Основными методами получения оценок параметров генеральной совокупности по данным выборки являются методы моментов, аналогии, наименьших квадратов, максимального правдоподобия и др.
Из всех перечисленных методов наиболее широко применяется метод максимального (наибольшего) правдоподобия. Суть этого метода, разработанного выдающимся английским математиком-статистиком Р.Й.Фішером, заключается в том, что из возможных оценок параметра выбирается та, которой соответствует наибольшая вероятность, то есть то значение, которое обращает функцию в максимум. Выборочная оценка 0 , которая обращает в максимум функцию правдоподобия, называется оценкой максимума правдоподобия.
Метод максимума правдоподобия позволяет получить состоятельные, эффективные, достаточные и незначительно смещенные оценки.
Используя метод максимума правдоподобия можно доказать, что выборочная средняя арифметическая является незміщеною, спроможною. эффективной и достаточной оценкой генеральной средней, а выборочная дисперсия является лучшей оценкой генеральной дисперсии. Этим в значительной мере и объясняется преимущество, которое предоставляется данным характеристикам по сравнению со всеми другими выборочными характеристиками.
В теоретическом курсе математической статистики доказывается, что математическое ожидание выборочной дисперсии не равно дисперсии генеральной совокупности. Поэтому выборочная дисперсия является смещенной оценкой генеральной дисперсии.
Для получения несмещенной оценки дисперсии генеральной совокупности необходимо выборочную дисперсию (О" ) умножить на так называемую поправку Бесселя
П-1. Тогда исправлена или скорректированная дисперсия (8 ) может быть определена по формуле
Математическое ожидание такой исправленной выборочной дисперсии при любом объеме выборки равно генеральной дисперсии. При достаточно большой численности выборки поправка Бесселя п-1", которая корректирует смещение выборочной дисперсии, практически равен единице и поэтому ею можно пренебречь. При п > 30 (большие выборки) практически нет разницы между оценками ст и 5 . При малых же значениях (п < 30; малые выборки) поправочный коэффициент значительно отличается от единицы. Поэтому при малом объеме выборки всегда нужно пользоваться незміщеною оценкой дисперсии 52. Можно доказать, что оценки ст и 5 - являются состоятельными оценками генеральной дисперсии &0 .
Оценка неизвестного параметра генеральной совокупности может быть проведена двояко: либо одним числом (точкой) - точечная оценка, или с указанием интервала, в котором с заданной вероятностью может находиться искомый параметр, - интервальная оценка.
Суть точечной оценки заключается в том, что за лучшую оценку искомого параметра генеральной совокупности в принимается найденное по выборке его конкретное числовое значение в , то есть принимается предположение, что 0=0.
Поскольку сама выборочная оценка является случайной величиной, а статистические выводы в связи с этим имеют вероятностный характер, то конкретная числовая характеристика (точка) обязательно должна быть дополнена величине средней ошибки (ы). Размеры ошибки оценки непосредственно связаны с величиной ее дисперсии (рассеивания): чем меньше дисперсия, тем меньше ошибка оценки, тем надежнее статистические выводы. Поэтому дисперсию на практике отождествляют с ошибкой оценки, а среднеквадратическое отклонение выборочной оценки называют средней ошибкой.
Среднюю ошибку оценки в общем виде определяют по формуле:
Квадрат средней ошибки (дисперсия выборочных средних) прямо пропорционален дисперсии ° и обратно пропорционален численности выборки п:
откуда формула для определения средней ошибки оценки примет вид:
Итак, определив по выборке среднее квадратичное отклонение, можно установить значение средней ошибки оценки, величина которой, как следует из формулы, тем больше, чем больше вариация случайной величины и тем меньше, чем больше численность выборки.
Результаты точечной оценки искомого параметра генеральной совокупности можно записать таким образом: за статистическую оценку параметра генеральной
совокупности принимается его выборочное значение (0 = 0 ) со средней ошибкой ±Мц .
При небольшом объеме выборки точечная оценка в значительной мере случайна и малоэффективна и поэтому может существенно отличаться от параметра генеральной
совокупности, то есть приводить к большим отклонениям 0-0 . По этой причине при небольшом объеме выборки целесообразно пользоваться интервальной оценкой.
Интервального называют оценку, которая определяется двумя числами - концами интервала, в котором с заданной вероятностью находится искомый параметр. Центром такого интервала, как правило, берут найденную выборочную оценку точки, а определение самых концов интервала связывается со средней ошибкой оценки и доверительной вероятностью. Следовательно, интервальная оценка является последующим дополнением и расширением точечной оценки параметра 0.
Установив доверительную вероятность, можно построить доверительный интервал. Доверительным интервалом для параметра 0 называется такой интервал, относительно которого можно с заранее установленной доверительной вероятностью Р = 1 - а, близкой к единице, утверждать, что он содержит неизвестное значение параметра 0. Другими словами, это интервал, который покрывает неизвестный параметр 0 с заданной вероятностью Р.
Для построения доверительного интервала необходимо указать такое предельное значение ошибки ер = (в-в), чтобы вероятность ее превышения была не больше а, то есть
Следовательно, интервальная оценка параметра в-в±ер, а доверительный интервал (Ир) имеет вид
где в эр - начало интервала; @ +ер - конец интервала.
Например, искомый доверительный интервал для оценки генеральной средней будет иметь вид:
где иц-Эр - предельная ошибка оценки.
Для построения надежного интервала сначала необходимо определить ошибку выборки, а затем по таблицам значений функции Лапласа (прил. 2) при заданном уровне вероятности найти значение.
Определив значение выборочной оценки и средней ошибки выборки, можно при заданном уровне вероятности или известном нормированном отклонении (аналогично построению надежного интервала для оценки генеральной средней) построить доверительный интервал для оценок других выборочных характеристик распределений (например, моды, медианы, дисперсии, частицы и др.).
Общий вид доверительного интервала такой
где Сд - средняя ошибка оценки, и определяется как ^Щв ) .
Ширина доверительного интервала напрямую зависит от величины предельной ошибки, которая в свою очередь зависит от величины дисперсии (рассеивания) оценки. Следовательно, чем меньше дисперсия выборочной оценки, тем уже доверительный интервал, тем точнее и надежнее статистические выводы.
В связи с этим основная организационная работа выборочного наблюдения заключается в том, чтобы принять меры, направленные на уменьшение дисперсии. Дисперсия оценки существенно зависит от способов формирования и отбора единиц в выборочную совокупность.
Проведем точечную и интервальную оценку генеральной средней по данным большой выборки на таком примере. Есть данные относительно стажа работы 30 трактористов: 2; 5; 15; 7; 18; 20; 9; 6; 18; 15; 4; 16; 25; 8; 30; 1; 26; 20; 21; 6; 35; 30; 18; 26; 31; 3; 24; 32; 17; 22. Доверительный уровень вероятности Р = 0,9545, которому соответствует и = 2.
Для определения средней ошибки выборки определим среднюю арифметическую и дисперсию.
Средний стаж работы трактористов
Выборочная дисперсия
Скорректированная дисперсия
Незміщена оценка дисперсии может быть определена и по другой формуле:
Средняя ошибка выборочной средней
Проведем точечную оценку среднего стажа работы в генеральной совокупности:
есть точечная оценка генеральной средней может быть записана так:
Это означает, что х = 17 лет является оценкой генеральной средней с ошибкой, равной 1,83 года.
Для проведения интервальной оценки и построения доверительного интервала определим предельную ошибку выборочной средней при Р = 0,9545 и и = 2. Предельная ошибка выборочной средней
Построим доверительный интервал, в котором с заданным уровнем вероятности находится средний стаж работы трактористов в генеральной совокупности:
Таким образом, доверительные границы интервала
что можно записать так: х = 17 ± 3,66 года.
Следовательно, с доверительной вероятностью Г = 0,9545 можно утверждать, что средний стаж работы трактористов в генеральной совокупности находится в интервале 13,34 - 20,66 года.
Точечная и интервальная оценка генеральной средней в малых выборках (п < 30) проводится аналогично оценке в больших выборках лишь с той разницей, что при определении предельной ошибки вместо и-критерия нормального распределения используется и - критерий Стьюдента (прил. 3).