Статистическая оценка выборочных показателей связи
В тех случаях, когда изучение корреляционной зависимости базируется на выборочных данных, возникает необходимость оценки выборочных показателей корреляции (коэффициентов регрессии и корреляции).
Статистическая оценка выборочных показателей корреляции позволяет сделать вывод о том, насколько выборочные статистические показатели соответствуют показателям генеральной совокупности. Однако такая оценка проводится в случаях, когда: 1) выборка сформирована в случайном порядке; 2) выборка сделана из нормально распределенной совокупности; 3) отклонения фактических значений результативного признака от его теоретических значений, вычисленных по уравнению, также распределены нормально.
Рассмотрим порядок статистической оценки выборочных показателей связи при парной линейной регрессии.
В корреляционному анализе средняя ошибка выборки рассчитывается на основе остаточной дисперсии, поскольку эта величина характеризует точность подбора кривой фактических данных. Однако остаточная дисперсия, рассчитанная по выборочным данным, уменьшает действительную величину остаточной дисперсии в генеральной совокупности, то есть является смещенной оценкой. Это смещение корректируется внесением в знаменатель формулы остаточной дисперсии поправки на потерю степеней свободы. При парной линейной зависимости теряются соответственно числу параметров уравнения (а и Ь) две степени свободы, при корреляции трех переменных с параметрами а, Ь и с - три степени свободы и т.д.
Квадрат средней ошибки выборочного коэффициента регрессии представляет собой отношение остаточной дисперсии, скорректированной на потере числа степеней свободы вариации, до суммы квадратов отклонений независимой переменной.
Обозначая остаточную дисперсию через °ух , а квадрат средней ошибки выборочного коэффициента регрессии через Мв , получим
где т - количество параметров уравнения регрессии, равное двум при парной линейной зависимости; п - численность выборки. Соответственно, средняя ошибка коэффициента регрессии:
Предельная ошибка выборочного коэффициента регрессии определяется по формуле:
где и - значение нормированного отклонения, величина которого устанавливается по таблицам. Для больших выборок (п > 30) значение X находят по прил. 2, для малых выборок (п < 30) - за доп. 3.
Доверительные границы коэффициента регрессии в генеральной совокупности (Ь0) составят:
Вероятность выборочного коэффициента регрессии определяется как отношение:
Если /факт > гтабл при заданном уровне значимости и соответствующем числе степеней свободы вариации, то нулевая гипотеза о равенстве коэффициента регрессии в генеральной совокупности нулю (Ь0 = 0) отвергается и делается вывод о том, что выборочный коэффициент регрессии является вероятным если же /фак! < /табл, то нулевая гипотеза принимается и делается вывод о том, что значение Ь в выборке является несущественным, случайным.
Вычислим среднюю и предельную ошибку для коэффициента регрессии, характеризующая зависимость продуктивности коров от уровня кормления (Ь = 0,813 ц).
Определим остаточную дисперсию, используя коэффициенты уравнения регрессии В = 3,22 + 0,813 х и данные табл. 9.1.
Рассчитаем скорректированную остаточную дисперсию
где т - число параметров уравнения регрессии (т = 2).
Определим среднюю ошибку параметра Ь: и:- _
Проверим достоверность выборочного коэффициента регрессии Ь, выдвинув нулевую гипотезу, а именно: коэффициент регрессии в генеральной совокупности равен нулю: Н0: Ь0 = 0; : Ь0 ф 0.
Рассчитаем фактическое значение и критерия Стьюдента:
По таблице (прил. 3) при а = 0,05 и числе степеней свободы к = п - т = 10 - 2 = 8 найдем и0,05 = 2,307.
Так ифакг > і005 (7,240 > 2,307), от нулевой гипотезы, которая предполагает отсутствие связи между урожайностью и качеством Почвы в генеральной совокупности (Ь0 = 0), следует отказаться. Выборочный коэффициент регрессии Ь = 0,813 является вероятным, существенным.
Вычислим предельную ошибку выборочного коэффициента регрессии:
Определим интервал, в котором с заданным уровнем значимости находится коэффициент регрессии в генеральной совокупности:
Итак с уровнем значимости а = 0,05 (с вероятностью ошибиться в 5 случаях из 100) можно утверждать, что величина коэффициента регрессии, который характеризует связь между продуктивностью коров и уровнем кормления в генеральной совокупности находится в интервале от 0,553 до 1,073 ц на 1 ц кормовых единиц.
Для проверки достоверности выборочного коэффициента корреляции определяют его среднюю и предельную ошибки выборки.
Средняя ошибка выборочного коэффициента корреляции определяется по формуле:
где г0 - значение коэффициента корреляции в генеральной совокупности, которое приближенно заменяется значением выборочного коэффициента корреляции; п - численность выборки; т - число параметров уравнения регрессии.
Применение этой формулы связано с двумя ограничениями: 1) численность выборки должна быть достаточно большой; 2) выборочный коэффициент корреляции не должен быть близким к единице. В тех случаях, когда выборочный коэффициент корреляции близок к единице (г > 0,8), для проверки гипотезы о его вероятность рекомендуется применять метод преобразованной корреляции, предложенный Г. Фишером.
Предельная ошибка выборочного коэффициента корреляции определяется по формуле:
Доверительные пределы, в которых находится значение коэффициента корреляции в генеральной совокупности, составят
Вероятность выборочного коэффициента корреляции определяется как отношение
Если іфакг > ітабл, то нулевая гипотеза о равенстве нулю коэффициента корреляции в генеральной совокупности отклоняется и делается вывод о вероятности полученного по выборке коэффициента корреляции. Если же < ітабл, то нулевая гипотеза принимается и делается вывод о том, что полученное по выборке значение коэффициента корреляции несущественно, имеет случайный характер.
Кроме рассмотренного приема, оценка выборочного коэффициента корреляции может быть проведена более простыми способами. Для определения достоверности выборочного коэффициента корреляции можно пользоваться специальными таблицами (прил. 9), в которых приводятся критические значения коэффициента корреляции при заданном уровне значимости (а) и соответствующем числе степеней свободы вариации (к = п - т).
Если при заданном а и соответствующем к фактическое значение выборочного коэффициента корреляции больше табличного значения (гта6л), то теснота связи между исследуемыми признаками считается вероятной и наоборот.
Проведем оценку достоверности выборочного коэффициента корреляции, характеризующий тесноту связи между продуктивностью коров и уровнем кормления (г = 0,9344).
Поскольку в примере численность выборки невелика (п = 10), а выборочный коэффициент корреляции близок к единице (г = 0,9344), оценку его достоверности проведем с помощью метода Г. Фишера, который получил название преобразованной корреляции.
Г. Фишер доказал, что распределение логарифмической функции выборочного линейного коэффициента корреляции (2) приближается к кривой нормального распределения даже при небольшом объеме выборки и высоком значении г.
Величина 2 определяется по формуле
Переход от г к 2 и обратно осуществляется с помощью специальных таблиц, которые исключают потребность логарифмирования.
Средняя квадратическая ошибка 2-распределения зависит только от объема выборки и определяется по формуле:
Вычислим среднюю ошибку 2-распределения для нашего примера
По таблице (прил. 8) найдем, что коэффициент корреляции г = 0,9344 соответствует 2 = 1,658.
Определим отношение 2 к средней ошибки выборочного коэффициента корреляции:
Найдем табличное значение-критерия Стьюдента (прил. 3) при а = 0,05 и к= 10 - 2 = 8; /0,05 = 2,307.
Поскольку фактическое отношение и оказалось больше табличного і005 (4,386 > 2,307), то можно сделать вывод о том, что выдвинутая гипотеза о равенстве нулю коэффициента корреляции в генеральной совокупности не согласуется с фактическими данными, в связи с чем она должна быть отклонена. Выборочный коэффициент корреляции является вероятным, существенным.
Построим доверительный интервал, в котором с заданным уровнем значимости находится коэффициент корреляции в генеральной совокупности:
г0 = 2 ± и/4 =1,658 + 2,307 o 0,378 = 1,658 ± 0,872, то есть от 0,786 до 2,530.
Пользуясь таблицей значений 2 в обратном порядке, найдем границы доверительного интервала для коэффициента корреляции в генеральной совокупности:
0,66 < г0 < 0,99.
Итак, с заданным уровнем значимости а = 0,05 можно утверждать, что теснота связи между продуктивностью коров и уровнем кормления в генеральной совокупности находится в пределах от 0,66 до 0,99.
Вероятность выборочного коэффициента корреляции может быть установлена и без вычислений по таблице Г. Фишера (прил. 9).
Для нашего примера табличное значение коэффициента корреляции при а = 0,05 и к = 8 составит г005 = 0,632.
Поскольку Гфакг > г005 (0,9344 > 0,632), можно подтвердить предыдущий вывод о том, что выборочный коэффициент корреляции является вероятным. Это дает основание для вывода о действительном связь между продуктивностью коров и уровнем кормления в генеральной совокупности.