Математические свойства дисперсии и упрощенные способы ее расчета
Дисперсия обладает рядом математических свойств, которые позволяют упростить расчеты. Рассмотрим их.
1. Дисперсия постоянной величины равна нулю:
Это свойство следует из того, что дисперсия является показателем рассеяния вариант вокруг средней арифметической, а средняя арифметическая постоянной величины равна этой величине.
2. Если из всех значений вариант отнять постоянную величину (х0), то дисперсия не изменится:
Это означает, что дисперсию можно рассчитать не по данным значения признака, а по отклонениям от любого постоянного числа.
3. Если все значения вариант уменьшить (увеличить) в одно и то же число раз (к), то дисперсия уменьшится (увеличится) в к2 раз, а среднее квадратическое отклонение в к раз:
Это означает, что все значения признака можно разделить на постоянное число (например, на величину интервала), вычислить среднее квадратическое отклонение, а затем умножить его на это постоянное число:
4. Если исчислить средний квадрат отклонений от любой величины А, в той или иной степени отличающейся от средней арифметической (х), то он всегда будет больше среднего квадрата отклонений, исчисленного от средней арифметической:
При этом больше на вполне определенную величину - на квадрат разности между средней и этой условно взятой величиной, то есть на
где а2 - средний квадрат отклонений от средней арифметической; а - средний квадрат отклонений от любой величины А.
Это означает, что дисперсия от средней всегда меньше дисперсий, исчисленных от любых других произвольных величин, то есть она имеет свойство минимальности.
Ряд свойств дисперсии основывается на равенстве:
т.е. дисперсия равна разности между средней из квадратов вариант и квадратом средней. Это равенство вытекает из того, что если произвольную величину А приравнять к нулю, то предыдущая формула дисперсии принимает вид:
Эта формула широко используется в статистике для упрощенного расчета дисперсии (табл.5.2).
Итак, получен такой же результат, что и при расчете дисперсии обычным способом.
Использование указанных выше свойств дисперсии позволяет упростить ее вычисления. Так, используя вторую и третью свойства в ряду распределения с равными интервалами, дисперсию можно вычислить способом отсчета от условного нуля (способом моментов) по формуле:
где к - величина интервала; х0 - начало отсчета.
Превращая приведенную формулу, дисперсию и среднее квадратическое отклонение можно определить через моменты первого и второго порядков:
где - = - отклонения в интервалах; к
Тогда формулы для вычисления дисперсии и среднего квадратического отклонения можно записать в таком виде:
Итак, дисперсия, вычисленная с использованием условных моментов, равна произведению квадрата величины интервала на разницу условных моментов первого и второго порядков. Такой способ расчета дисперсии получил название образа моментов или способу отсчета от условного нуля.
Рассчитаем дисперсию этим способом для нашего примера (табл. 5.2.)
Таблица 5.2. Данные для расчета дисперсии упрощенным способом и способом отсчета от условного нуля
При этом возьмем к = 2 ц, х0 = 33 ц.
Такой же результат получим и через условные моменты первого и второго порядков.
Итак, расчеты дисперсии и среднего квадратичного отклонения тремя способами совпали и дают одни и те же результаты
Виды дисперсий и правило их сложения
Изучая колебания признака в целом по всей совокупности и опираясь на общую дисперсию, мы не можем определить влияние отдельных факторов на вариацию признака, что нас интересует. Эту задачу можно решить с помощью построения статистических группировок. Если исследуемую совокупность разделить на отдельные совокупности (группы) по признаку, что нас интересует, то это даст возможность разложить общую дисперсию признака на две дисперсии, один из которых будет характеризовать часть вариации, обусловленную влиянием фактора, положенного в основу группировки, а вторая - вариацию, возникающую под влиянием других факторов (кроме фактора, положенного в основу группировки). Таким образом, для совокупности, разделенной на группы по какому-либо признаку, можно определить следующие виды дисперсий: общую, межгрупповую и внутри-групповую.
Общая дисперсия (ст2аг) характеризует колебания (вариации) признака под влиянием всех условий (факторов), вызвавших эту вариацию. Она исчисляется как отношение суммы квадратов отклонений индивидуальных значений признака (*,) от общей средней (х0) к числу единиц совокупности:
Межгрупповая (факторная) дисперсия (^2мгр) характеризует вариацию признака
под влиянием изучаемого фактора (условия), положенного в основу группировки. Она исчисляется как отношение суммы квадратов отклонений групповых средних (х,-) от общего среднего к числу единиц совокупности:
где х,- и / - групповые средние и численности по отдельным группам.
Внутрішньогрупова дисперсия (ств2гр) характеризует вариацию признака, обусловленную неучтенными при группировке факторами. Она зависит от условия (фактора), положенного в основу группировки и характеризует вариацию признака только за счет условий и факторов, действующих внутри группы. Для отдельных групп внутригрупповая вариация рассчитывается как отношение суммы квадратов отклонений индивидуальных значений признака (*,) от групповых средних (х,-) к числу единиц совокупности:
Она может быть также определена как средняя арифметическая взвешенная из групповых дисперсий (ст,2):
Все три упомянутые дисперсии связаны между собой таким равенством: величина общей дисперсии равна сумме величин межгрупповой и внутригрупповой дисперсий:
Это равенство получило название правила сложения дисперсий.
Зная любые два вида дисперсий, всегда можно найти или проверить правильность расчета третьего вида:
Сопоставлением межгрупповой и общей дисперсий ( согласно объемов вариации) можно определить степень влияния факторного признака, положенного в основу группировки, на колебания результативного признака. При этом определяют так называемое корреляционное отношение:
а2 W
^2 _ г^г _ м.гр , же характеризует долю вариации, обусловленную факторным
аобщ фзаг
а1 W
признаку. Остальные вариации = -ф2- = 1-Т2 определяется неучтенными при группировке случайными причинами.
Очевидно, что чем больше доля межгрупповой дисперсии в общей дисперсии, тем сильнее влияние групирующей признаки на исследуемый признак.
Правило сложения дисперсий находит широкое практическое применение в статистическом анализе оценки существенности и степени влияния отдельных факторов на общее колебания результативных признаков (см. дисперсионный и корреляционный анализ).
Рассмотрим порядок определения общего объема вариации и дисперсии, их разложения на межгрупповую и внутригрупповое на примере данных полевого опыта (табл.5.3.).
Таблица 5.3. Влияние различных доз удобрений на урожайность льна-долгунца (соломка, ц/га)
Анализ данных таблицы показывает, что урожайность льна-долгунца колеблется как под влиянием доз удобрений (по вариантам опыта), так и в пределах того самого варианта опыта (по повторениях). Итак, кроме удобрений на урожайность влияют и другие факторы.
Нужно определить общий объем вариации урожайности льна-долгунца, разбив его на вариацию, связанную с действием удобрений (межгрупповую вариацию) и вариацию, обусловленную неучтенными в опыте факторами (внутри-групповую вариацию).
Введем условные обозначения: т - число вариантов опыта (т = 3); п - число повторений (п = 4); N - общее число наблюдений = т ■ п = 3 o 4 = 12) .
Для определения соответствующих сумм квадратов отклонений и дисперсий возведем в квадрат урожайность (табл.5.4).
Таблица 5.4. Квадраты урожайности по повторениях
Вычислим суммы квадратов отклонений, характеризующих общую, меж-групповую и внутригрупповое вариации:
а) общая Ш,а! в = £ -и - N ■ -02 = 16340,40 -12 ■ 36.22 = 615,12;
б) межгрупповая 1¥ЖІр = ы(£ -2 - тХ02)= 4(4080,20 - 3 ■ 36,2)2 = 595,52;
в) внутригрупповая
для первого варианта опыта
Общая сумма внутригрупповой вариации составит:
Эту же сумму можно найти и другим способом, исходя с правилом сложения (разложения) вариации:
Таким образом, можно записать, что
Итак, общая вариация урожайности льна-долгунца (615,12) расчленена на систематическую, обусловленную влиянием различных доз удобрений (595,52) и случайную, вызванную действием неучтенных в опыте факторов (19,60).
За указанными суммами квадратов отклонений определим общую, межгрупповую и внутригрупповое дисперсии:
По правилу сложения дисперсий можно записать:
Итак, доказано, что общая дисперсия равна сумме межгрупповой и внутригрупповой дисперсий.
Сопоставляя между собой межгрупповую и общую дисперсии, определим корреляционное отношение, которое характеризует силу влияния изучаемого фактора на результативный признак:
Итак, 96,8% общего колебания урожайности льна-долгунца приходится на долю удобрений, а 3,2% обусловлено другими неучтенными в опыте факторами.