статистического оценивания
Понятие статистического оценивания параметров
Основной целью статистического оценивания является определение действительных параметров генеральной совокупности на основе изучения выборочных показателей. При этом выборка должна достаточно хорошо воспроизводить свойства генеральной совокупности, то есть быть представительной или репрезентативной. Чтобы достичь репрезентативности, используют специальные методы формирования выборки. Наиболее распространенными считаются рандомизированные (простые и систематические), стратифицированные и кластерные выборки.
Простая рандомизированных выборка формируется из списка объектов генеральной совокупности по системе отбора, гарантирует равную вероятность попадания каждого объекта в выборку. В этом варианте различают три группы: всю генеральную совокупность; группу рандомизации, с которой проводится отбор; экспериментальную рандомизированную выборку. На практике способом случайного отбора формируют сначала любую группу потенциальных испытуемых. После измерений свойств их распределяют по группам ривноимовирнисним способом. В основу технологий рандомизации положен процесс генерации последовательности псевдослучайных чисел.
Систематическая рандомизированных выборка соответствует принципам ривноимови-рнисного отбора и считается оптимальной тогда, когда генеральная совокупность составляет большой список объектов. Например, для выборки объемом 100 объектов из генеральной совокупности объемом 100000 можно определить первый случайный объект (индекс), а затем взять еще 99 случайных индексов, причем каждый следующий объект должен отстоять от первого взятого к позиций.
Стратифицированная выборка гарантирует репрезентативность избранных лиц по отношению к выбранным в исследовании свойств. Например, если в составе исследуемой совокупности присутствовать является 600 лиц женского и 400 - мужского пола, то репрезентативная выборка объемом в 100 студентов должна сохранить пропорциональное (+60% и 40%) представительство лиц каждого пола. В случае простой (или систематической) рандомизированной выборки качественное и количественное соотношение лиц может быть неадекватным генеральной совокупности. Использование стратифицированной выборки ограничено тем, что довольно часто состав генеральной совокупности по основным подгрупп остается неизвестным.
Кластерная выборка способна решать проблему неполноты состава подгрупп формирования. Кластерный метод предусматривает поэтапный выбор групп (кластеров), а не отдельных элементов. Например, на первом этапе получения репрезентативной выборки студентов может выполняться формирования списка базовых учебных дисциплин. Тогда группой может быть список студентов различных специальностей, посещают занятия по определенному учебному предмету. Если список дисциплин достаточно большой (30-40 групп), можно случайным методом отобрать 8-10 таких групп. Если группы немногочисленны, можно исследовать всех студентов, если нет - можно сформировать более мелкие рандомизированные выборки. Степень и глубина ветвления (количество этапов группировки) определяется целью и условиями исследования. Кластерные выборки менее надежны, чем вероятностные из-зи наличии нескольких этапов отбора, каждый из которых добавляет свою погрешность. В случае же рандомизированной выборки исследователь рискует только один раз. Поэтому математическая теория выборочного метода в основном базируется на анализе собственно вероятностной выборки.
Теоретическую основу оценки с использованием выборочного метода составляет закон больших чисел, согласно которому при неограниченном увеличены объема выборки случайные характеристики выборки приближаются (сходятся по вероятности) к определенным параметров генеральной совокупности (см. 3.3) .. Например, для конечного генеральной совокупности выборочное среднее Х и дисперсия 8 х 2 приближаются к своим генеральных показателей (среднего ц и дисперсии а 2 соответственно). В случае бесконечной генеральной совокупности n = <") вместо среднего ц и дисперсии а 2 подразумевается математическое ожидание мх] и дисперсия вх распределения исследуемой случайной величины x.
Итак, генеральная совокупность (объем n и выборка (объем п) могут характеризоваться теми же содержательными показателями: для генеральной совокупности они называются "параметры", для выборочной совокупности - "статистики" (табл. 4.1). Статистика, используемых как приближенное значение неизвестного параметра генеральной совокупности называется статистической оценкой.
Таблица 4.1
Основные показатели генеральной и выборочной совокупностей
Показатели совокупностей |
Генеральная совокупность |
Выборка |
параметры: |
статистики: |
|
Среднее арифметическое |
ц |
X |
Дисперсия |
2 а |
2 Sx |
Стандартное отклонение |
а |
5х |
Коэффициент корреляции |
Рху |
|
Объем |
N |
п |
Таким образом, статистическая оценка 0- это выборочная статистика, содержащая информацию о соответствующем параметр генеральной совокупности 0 Более того, оценка параметра выполняется на основе статистики, которая в свою очередь является случайной величиной, поскольку реализуется в испытаниях как п независимых результатов наблюдений (например , значений х 1, х 2, х п случайной величины X). Таким образом, оценка © как случайная величина зависит и от закона распределения исследуемой случайной величины x, и от объема выборки п.
Обобщая вышесказанное, оценкой можно называть любую функцию результатов наблюдений & (х 1, х 2, ooo х п), с помощью которой делают выводы о значении параметра генеральной совокупности © (X).
Однако в исследованиях можно получить несколько различных функций от результатов наблюдений, которые можно использовать в качестве оценки параметра. Например, для оценки математического ожидания случайной величины (генерального среднего) можно предложить выборочные показатели: среднее, моду, медиану, которые (см. Разделе 2.2) могут принимать различные значения. Назвать "лучший" показатель как оценку на основе индивидуального значения невозможно. Принципиально это можно сделать только на основе выборочного распределения оценки, а именно: если распределение оценки & "концентрируется вблизи истинного значения параметра &, тем с большей вероятностью можно принять, что оценка незначительно отличаться от параметра. Строго говоря: математическое ожидание квадрата отклонения оценки от параметра должно быть наименьшим:
M [0 n -0] 2 = min. (4.1)
Такая условие относительно "лучшей" оценки.
Статистическое оценивание подразделяют на точечное и интервальное.