Меры изменчивости (ММ)
Ограниченность мер центральной тенденции для характеристики совокупностей можно продемонстрировать на примере двух выборок (рис. 2.29), которые имеют разные распределения, однако одинаковые (и это не сложно проверить) МЦТ (значение моды Мо, медианы Мы и среднего X равны 4).
Рис. 2.29. Свойства ММ
Однако выборки имеют существенную разницу значений основных ММ: дисперсий * х и стандартных отклонений 8 х (см. Два последних столбики рис. 2.29). Можно отметить своеобразную "чувствительность" показателей ММ относительно свойств совокупности.
Дисперсия выборки объемом п определяется как:
2 (х -X) 2 + (х 2 -X) 2 + ... + (х п - X) 2
^ = -: -, (2.3)
п -1
аб0 * 2 = ^ * ~>, д Есть X - среднее арифметическое выборки. п - 1
Дисперсия выборки * 2 х, рассчитанная по этой формуле, является несмещенной оценкой своего генерального параметра а 2 х благодаря внесению поправки Бесселя п / (п-1), то есть:
* 2 (х и ~ X) 2 Л (х и ~ X) 2. (2.4)
п п - 1 п - 1
Разницу п-1 называют числом степеней свободы к - количество объектов или значений в составе ограниченной статистической совокупности, которые могут свободно варьировать. Если ограничений свободы вариации существует несколько (у), то число степеней свободы равно к = п-в (где - греческая буква "ню").
Числитель формулы дисперсии можно превратить следующим образом:
Тогда формула дисперсии имеет следующий вид:
* 2 = - ^ (2х 2 "ПХ 2). (2.5)
п -1
Если данные представлены делениями частот, дисперсия определяется как
* 2 = Э / и (х - X) 2, (2.6)
п -1
где Хи - варианты несгруппированных частот или центральные значения классовых интервалов в случае сгруппированных частот; / - дифференциальные частоты, X - среднее.
Дисперсия служит мерой однородности совокупностей эмпирических данных. Чем выше однородность, тем ниже значение дисперсии. Для полностью однородных совокупностей дисперсия равна нулю.
Дисперсия генеральной совокупности объемом N определяется как:
или = ^ (Хи -, где р = N ^ х и - среднее арифметическое генеральной совокупности.
Стандартное отклонение выборки определяется как в х = д / УХ ~. (2.8) Стандартное отклонение генеральной совокупности а х = ^ х ". (2.9)
Коэффициент вариации В х используется в случае сравнительной оценки разнокачественных средних величин и определяется (в том числе в%) как отношение стандартного отклонения к среднему арифметическому:
в и = у х / X -100%. (2.10)
Асимметрия А х характеризует степень несимметричности распределения относительно его среднего. Положительная асимметрия указывает на отклонение вершины распределения в сторону отрицательных значений, отрицательная - в сторону положительных.
Ax = Ц - i (x -X) 3. (2.11)
Эксцесс E x характеризует относительную выпуклость или сглаженность распределения выборки по сравнению с нормальным распределением. Положительный эксцесс обозначает относительно заостренный распределение, отрицательный - относительно сглажен.
Ex = - L - 4 o £ (X -X) 4 -3. (2.12)
П ■ (S x) i = 1
"Стандартом" распределений служит нормальное распределение N (ji, o) с нулевой асимметрией и эксцессом. Для него А х = 0 - нормальное распределение является симметричным относительно среднего значения, и Е х = 0 - деление "идеальный» - не заостренный и не сглажен.
Замечания. Для определения выборочных значений асимметрии A x и эксцесса E x применяют точные расчетные формулы, аналогичные тем, что использует MS Excel:
Для асимметрии
На рис. 2.30 показано, что коэффициенты К], К 2 и К 3 при увеличении объема выборки п асимптотически приближаются к единице (примерно для п> 30), а формулы (2.12) и (2.126) переходят в формулы (2.11) и (2.12) соответственно.
Предлагаем самостоятельно определить, насколько могут отличаться результаты точных и "упрощенных" расчетов ММ в зависимости от объема выборки п.
На качественном уровне можно наглядно оценить показатели описательной статистики благодаря выборочным распределениям частот. Например, форма распределений на рис. 2.31 свидетельствует о одинаковые показатели МЦТ (средние, моды и медианы выборок одинаковы) и различные показатели ММ (дисперсии и стандартные отклонения разные).
На рис. 2.32 показано распределения двух одинаковых по однородности выборок (дисперсии одинаковы), но разных по средним показателям. Эти выборки имеют также нулевые значения асимметрии и эксцесса.
На рис. 2.33 - 2.36 показано, как форма распределения частот может быть "деформирована" относительно формы нормального (стандартного) распределения. Именно показатели асимметрии и эксцесса используются для проверки соответствия эмпирического распределения нормальному закону (см. 5.2)