Размах вариации
Простейшим показателем вариации является размах вариации, который представляет собой разницу между максимальным и минимальным значениями признака.
В интервальных рядах распределения размах вариации определяют как разницу между верхней границей последнего и нижней границей первого или как разницу между серединами интервалов.
Безусловным преимуществом показателя размаха вариации является простота его расчета. Однако он не может в полной мере охарактеризовать вариацию признака, поскольку не учитывает всех значений признака, промежуточных между максимальным и минимальным значениями. Не учитывает он и частот. Особенность показателя размаха вариации заключается в том, что он зависит только от двух крайних значений признака, которые могут оказаться не достаточно типичными. В связи с этим размах вариации отражает иногда случайное, а не типичное для данного ряда колебания. Указанные недостатки размаха вариации сужают область его практического применения. В основном он используется для предварительной оценки вариации. Поэтому необходимы другие показатели вариации, которые основываются на всех значениях признака в данной совокупности.
Более совершенным показателем измерения вариации является среднее линейное и среднее квадратическое отклонения, которые устраняют указанные выше недостатки размаха вариации.
Среднее линейное отклонение представляет собой среднюю арифметическую из абсолютных значений отклонений отдельных вариант от средней арифметической.
Прямые скобки означают, что абсолютные значения отклонений берутся по модулю, то есть суммирование выполняется без учета знаков (плюс или минус). Такая условность объясняется тем, что поскольку сумма отклонений индивидуальных значений признака от средней в первой степени равно нулю (нулевое свойство средней арифметической), то для получения суммы всех отклонений, отличного от нуля, каждое отклонение следует принимать как положительную величину.
Показатель среднего линейного отклонения более обоснован по сравнению с размахом вариации. Он не зависит от случайных колебаний крайних значений, поскольку опирается на все значения признака, учитывает всю сумму отклонений индивидуальных вариантов от средней арифметической и частоты.
Однако и этот показатель вариации имеет существенные недостатки. Основным является то, что в нем не учитываются знаки (направленность) отклонений. Произвольное отбрасывание алгебраических знаков отклонений приводит к тому, что математические свойства этого показателя является далеко не элементарными, а это значительно усложняет использование среднего линейного отклонения при решении задач, связанных с вероятностными расчетами. Поэтому среднее линейное отклонение используется редко.
Попытки сложить показатель вариации, который бы устранял недостатки размаха вариации, среднего линейного отклонения приводит к дисперсии и среднего квадратичного отклонения.
Дисперсией называют средний квадрат отклонений индивидуальных значений признака от средней арифметичної. ее определяют по формулам:
Среднее квадратическое отклонение получают путем извлечения корня квадратного из дисперсии:
Содержательное значение среднего квадратического отклонения такое же, как и среднего линейного отклонения. Оно показывает на сколько в среднем отклоняются индивидуальные значения вариант от их среднего значения.
Среднее квадратическое отклонение является мерилом надежности средней. Чем меньше оно, тем лучше средняя арифметическая отражает всю исследуемую совокупность. Преимущество среднего квадратичного отклонения по сравнению со средним линейным отклонением заключается в том, что при расчете никакого условного предположения о суммирования отклонений без учета знаков не допускается, поскольку все отклонения возносятся к квадрату.
Среднее квадратическое отклонение еще называют стандартным отклонением. Оно как размах вариации и среднее линейное отклонение является величиной именуемой и выражается в тех же единицах измерения, что и варианты исследуемой признаки и средняя величина (ц, кг, грн., м, ц/га и т.д.)
Дисперсия и среднее квадратическое отклонение широко применяются на практике. Объясняется это тем, что они входят в большинство теорем, которые являются фундаментом математической статистики. Кроме того, дисперсия может быть разложена на составные элементы, которые дают возможность оценить влияние различных факторов, обуславливающих вариацию исследуемого признака. В следующих разделах будет показано, как дисперсия используется для оценки результатов выборочного наблюдения, построения показателей тесноты корреляционной связи, в дисперсионном анализе и т.д.
Среднее квадратическое отклонение играет важную роль в анализе рядов распределения. В условиях нормального распределения существует следующая зависимость между величиной среднего квадратического отклонения и количеством наблюдений: в пределах х± 1а располагается 0,683 или 68,3 % количества наблюдений; в пределах х± 2а-0,954 или 95,4%; в пределах х ± 3а - 0,997 или 99,7% количества наблюдений. В действительности на практике почти не встречаются отклонения, которые превышают ± 3 ст. Отклонение 3 ст может считаться максимально возможным. Это положение называют "правилом трех сигм".
Если показателем центра распределения используется медиана, то для характеристики вариации можно применить так называемое квартальное отклонение:
где 21 и 23 - соответственно первый и третий квартили распределения.
Этот показатель также можно применить вместо размаха вариации, чтобы избежать недостатков, связанных с использованием крайних значений признака.
Между средним квадратичным отклонением, средним линейным отклонением, квартальным отклонением и размахом вариации в нормально распределенной совокупности существует такое соотношение:
Наряду с вариацией количественных признаков в социально-экономических явлениях имеет место и вариация качественных признаков. При этом если есть только два взаимоисключающие варианты, то такую вариацию называют альтернативной. При альтернативной изменчивости одни единицы совокупности обладают данным признаком, а другие не владеют. Например, рассмотрение сельскохозяйственных животных с точки зрения их полового и породного состава (бычки и телочки, породная и беспородная скот), годности продукции (пригодна и бракованная) и т.д. дает альтернативную признак. Наличие признака у единицы совокупности обозначают 1, а отсутствие - 0; долю единиц, обладающих данным признаком, обозначают р, а не знающих - q. Очевидно, что р + q = 1. Откуда г = 1 - q, q = 1 - г.
Дисперсия альтернативного признака определяется по формуле:
Таким образом, дисперсия альтернативного признака равна произведению доли единиц, обладающих данным признаком, на долю единиц, не обладающих ею.
Среднее квадратическое отклонение альтернативного признака равна:
Поскольку р + q не может быть больше единицы (0,5+0,5), то дисперсия не может превышать 0,25.
Например, при осмотре партии сельскохозяйственной продукции 2% оказалось бракованной. Обозначим наличие брака - 1, а отсутствие - 0, долю бракованной продукции-г, а доброкачественной - д.
Следовательно, среднее квадратическое отклонение, которое показывает как в среднем отклоняются индивидуальные значения признака от средней арифметической равна 0,14, или 14%.
При сравнении колебания совокупностей, имеющих различные единицы измерения и значение средних величин, делать выводы о степени вариации по средним линейным и средним квадратичным отклонениям трудно. Поэтому с целью получения сопоставимых данных необходимо от абсолютных показателей вариации перейти к относительным. Эти показатели рассчитываются как отношение абсолютных показателей вариации к средней арифметической (медианы). Используя за абсолютные показатели вариации размах вариации, среднее линейное отклонение, среднее квадратическое отклонение и квартальное отклонение, получим относительные показатели колебания (чаще всего они выражаются в процентах):
где Q - квартальное отклонение; Q1 - первый квартиль; Q2 - медиана; Q3 - третий квартиль.
Учитывая, что среднее квадратическое отклонение дает обобщенную характеристику колебания всех вариантов совокупности, коэффициент вариации является показателем относительной вариации, чаще всего применяется. Его применяют не только для сравнительной оценки вариации, но и для характеристики однородности совокупности. При этом исходят из того, что если коэффициент вариации меньше 33%, то совокупность считается однородной (для распределений близких к нормальному).
Отметим, что приведенная граница оценки однородности совокупности достаточно условная. Вопрос о степени интенсивности вариации должно решаться для каждой исследуемой признаки индивидуально исходя из сравнения вариации, что наблюдается, с некоторой ее обычной интенсивностью, принятую за норму.
Расчет перечисленных показателей вариации осуществим по данным распределения 100 хозяйств по надою молока на корову (табл.5.1.).
Напомним, что ранее в разделе 4 по данным исследуемого распределения были вычислены следующие характеристики: средняя арифметическая х = 32,64 ц, первый квартиль - Q1 = 30,17 ц, медиана - Q2 = 32,72 ц, третий квартиль - Q3 = 35,00 ц.
Абсолютные показатели вариации
Таблица 5.1. Данные для расчета среднего линейного и среднего квадратического отклонений
Дисперсия
Среднее квадратическое отклонение
Квартальное отклонение
Относительные показатели вариации
Коэффициент осцилляции
Относительное линейное отклонение
Коэффициент вариации
Относительное квартальное отклонение
Итак, надои молока по данной совокупности хозяйств колеблются в пределах ± 3,2 ц (а), или на 9,8% по отношению к среднему надою.