Криволинейная корреляция

Исследование формы связи иногда обусловливает необходимость использования нелинейных (криволинейных) уравнений регрессии. Это объясняется тем, что взаимодействие между признаками, характеризующими отдельные явления и процессы, нередко имеет более сложный характер, чем просто пропорциональные зависимости.

Характерной особенностью этой связи является то, что равномерное изменение одного признака сопровождается неравномерной изменением (увеличением или уменьшением) значения другого признака.

Нелинейные формы связи присущи многим процессам в сельском хозяйстве. Так, рост и развитие растений, накопление ими продуктивной массы, как правило, во времени развивается нелинейно. Известно также, что если почвы насыщены влагой больше определенной нормы, то урожайность сельскохозяйственных культур начинает снижаться. Продуктивность коров в зависимости от числа отелей (возраста коров) сначала имеет тенденцию к росту, достигая максимума в 5-7 отеле, а потом начинает закономерно снижаться.

При исследовании криволинейных связей, так же как и при изучении линейных связей, принципиальное значение имеет выбор формы и уравнения связи, которое наиболее точно отразит существует связь. Для решения этой задачи используются те же приемы, что и при обосновании линейной связи. При этом особое внимание принадлежит графическому методу.

Криволинейные формы связи весьма разнообразны. В статистическом анализе чаще всего используют параболу второго порядка, гиперболу и степеневу функцию.

При криволинейной зависимости система уравнений строится так же, как и для линейной связи: исходное уравнение умножается на коэффициенты при неизвестных и произведения суммируются почленно. Так, система уравнений для параболы второго порядка

имеет вид:

Одной из особенностей параболы второго порядка является то, что она всегда имеет точку перегиба (критическую точку), которая характеризует оптимальный вариант размера величины результативного признака и меняет свое направление только один раз. Если в уравнении параметр а1 выраженный положительным числом, а параметр -а2 отрицательным, то кривая меняет направление с роста на снижение.

Система уравнений для гиперболы

Формулы, которые следуют из решения этой системы уравнений для определения параметров гиперболы имеют вид:

Чтобы облегчить вычисления параметров уравнений регрессии способом наименьших квадратов при криволинейной зависимости выбранное уравнение регрессии целесообразно свести к линейному виду соответствующими преобразованиями.

Процесс преобразований нелинейных уравнений регрессии в линейные называют лінеаризацією.

Покажем на примере трех нелинейных функций, наиболее часто применяемых при изучении взаимосвязей, преобразование к линейному виду.

~ - ь

1. Гиперболу * ~ а + х сводят к линейному виду, заменив X

_ 1

новой переменной (ее обратным значением 2 ~ х );

2. Параболу второго порядка ~х - а +Ьх +сх превращают заменив квадрат значений факторного признака (х = х2). Получим линейную функцию двух переменных:

~ _ ь

3. Степеневу Ух ~ ах сводят к линейному виду логарифмуванням

Дальнейшие расчеты аналогичны расчетам линейной функции. Система уравнений имеет вид :

Формулы для определения параметров степенной функции

В отличие от прямолинейной зависимости коэффициенты регрессии криволинейной регрессии нельзя интерпретировать однозначно, так как скорость изменения результативного признака при разном значении фактора будет неодинаковой. Например, если зависимость суточных надоев от возраста коров, которая характеризуется тем, что с изменением возраста сначала производительность возрастает, а затем постепенно снижается, выразить уравнением параболы второго порядка

Ух = а + Ьх + сх , то коэффициент а1 покажет скорость прироста продуктивности коров, а а2 - ее замедление.

Порядок определения показателей связи при криволинейной зависимости рассмотрим на следующем примере (табл. 9.2).

Таблица 9.2. Данные для расчета показателей корреляционной связи

Данные для расчета показателей корреляционной связи

Для определения формы связи между суточными надоями (в) и возрастом коров (*) построим график - корреляционное поле (рис. 9.2).

Корреляционное поле зависимости суточных надоев от возраста коров

Рис. 9.2. Корреляционное поле зависимости суточных надоев от возраста коров

Из графика видно, что между суточным надоем и возрастом коров связь нелинейный. Суточный надой растет по мере раздоя к 6-7 отела, а затем снижается. Расположение точек на корреляционному поле показывает, что связь между надоем и возрастом коров можно выразить уравнением параболы второго порядка:

где Ух - суточный надой, кг; х - возраст коров, лет; а, Ь, с - параметры уравнения.

Для определения параметров уравнения регрессии а, Ь, с составим систему уравнений, для чего последовательно перемножим все члены исходного уравнения на коэффициенты при неизвестных, а полученные произведения подытожим:

Все необходимые для решения системы нормальных уравнений данные (Эу; Эх; Ех2; Эх; Ех4; Еух; Еух2; 2у2) рассчитаем в табл. 9.2. Подставим полученные данные в систему уравнений:

Решим систему уравнений и найдем коэффициенты регрессии а, Ь, с: а) разделим все члены уравнения на коэффициенты при а (первое на 20, второе - на 123, третье - на 859):

б) вычтем из 5-го уравнения 4-е и с 6-го уравнения 5-е, в результате получим систему уравнений с двумя неизвестными:

в) разделим оба уравнения на коэффициенты при Ь:

г) вычтем из 9-го уравнения 10-е: 0,2451 = - 0,6972 с,

отсюда с = - 0,3515;

д) подставим значение с в уравнение 9 и найдем коэффициент регрессии Ь:

0,3204 = Ь + 12,7569 o (- 0,3515) ; Ь = 4,8044;

е) определим коэффициент регрессии а подставив значение Ь и с в первое уравнение:

201 = 20а = + 123 o 4,8044 + 859 (- 0,3515); а = - 4,4001.

Проверим правильность вычисления коэффициентов регрессии по формуле:

10,05 = - 4,4001 + 4,8044 o 6,15 + (- 0,3515) o 42,95 = 10,05. Следовательно, уравнение регрессии, характеризующее связь между суточным надоем и возрастом коров, имеет вид:

Коэффициент регрессии Ь = 4,8044 показывает, что по мере роста возраста коров

до 7 лет (см. график и ожидаемое значение надоев - Ух ) суточные надои увеличиваются на 4,8044 кг, а затем с увеличением возраста продуктивность коров уменьшается. Об этом свидетельствует коэффициент регрессии с = - 0,3515 кг, который показывает замедление приростов производительности коров.

Оптимальное значение фактора можно рассчитать по формуле

Определим ожидаемые (расчетные) значения суточных надоев для разного возраста коров (Ух ).

Для этого в уравнение регрессии вместо х (возраст коров) подставим его конкретные значения х = 3, 4, 5, ...10. Так, ожидаемое значение суточного надоя коров в возрасте 3-х лет составляет

~х=3 = -4,4001 + 4,8044 o 3 - 0,3515 o 32 = 6,85 кг;

Для коров в возрасте 4-х лет

ух = 4 =-4,4001 + 4,8044 o 4 - 0,3515 o 4 2 = 9,19 кг и т.д.

Результаты расчетов запишем в последнюю колонку табл. 9.2. Проверим правильность расчетов:

За ожидаемыми значениями суточных надоев на рис. 9.2 построим теоретическую лінів регрессии.

Особое значение в изучении взаимосвязей между признаками в экономике принадлежит многофакторном корреляционно-регрессионном анализе, при котором определяется зависимость результативного признака от нескольких факторов одновременно.

Использование ЭВМ и типовых программ корреляционно-регрессионного анализа позволяет решать корреляционные модели различных зависимостей и выбрать из этого множества такое уравнение, которое наиболее точно описывает степень приближения фактических данных к теоретическим и соответственно дает наименьшую сумму квадратов отклонений фактических данных от рассчитанных по уравнению связи.

Многофакторный корреляционно-регрессионный анализ может быть применен для:

1) расчета ожидаемых (теоретических) значений результативного признака;

2) сопоставления и оценки фактического и расчетного значений результативного признака;

3) сравнительного анализа различных совокупностей;

4) объективной оценки результатов работы предприятий;

5) выявление резервов производства;

6) разработка нормативов;

7) прогнозирования общественных явлений и т.д.

Парная корреляция, в силу того, что вместе с исследуемым фактором на результативный признак оказывают влияние и другие факторы не всегда дает правильное представление о связи между результативным и факторным признаком (преувеличивает или преуменьшает степень зависимости). Преимущество многофакторного корреляционно-регрессионного анализа по сравнению с простой корреляцией заключается в том, что он позволяет оценить степень влияния на результативный признак каждого из включенных в модель (уравнение) факторов при фиксированном положении (на среднем уровне) остальных факторов.

Методология множественной корреляции основывается на общих принципах корреляционного анализа. В то же время в ней осложняется содержательный анализ, возрастает сложность математического аппарата.

При формировании множественной корреляционной модели необходимо учитывать ряд ограничений, связанных с отбором, количеством и взаимосвязью факторов, выбором формы связи (уравнения регрессии).

Отбор наиболее существенных факторов в корреляционной модели является одним из наиболее важных и принципиальных задач многофакторного корреляционно-регрессионного анализа. Естественно, что все факторы, которые влияют на изучаемый результативный признак, уравнение регрессии включить нельзя. Из всего комплекса таких факторов необходимо отобрать наиболее важные, существенные. Увлечение большим количеством факторов при относительно небольшой численности совокупности может привести к некачественным результатам. Кроме того, с увеличением в уравнении регрессии количества параметров значительно затрудняется интерпретация полученных результатов.

Большую роль в отборе факторов играют заблаговременно построены и проанализированы факторные группировки. Очень важное значение здесь приобретают комбинационные группировки, которые позволяют определить влияние на результативный признак фактора, что интересует исследователя, при фиксированных значениях других факторов. Можно сделать однозначный вывод о том, что статистические группировки составляют основу для корреляционного и дисперсионного анализа и наибольшей эффективности последние достигают в сочетании с методом группировок.

Практические расчеты показывают, что для обеспечения устойчивости параметров уравнения связи, количество факторов включенных в модель, должна быть в 6 - 8 раз меньше численности исследуемой совокупности. При этом совокупность, из которой отбирают факторы, должна быть качественно однородной.

Отбирая факторы, нужно исключать те, что взаимно дублируют друг друга и находятся в функциональном связи. Функциональный или близкий к нему связь между самими факторами указывает на мультиколинеарнисть (для двух - коллинеарность). Наличие мультиколлинеарности свидетельствует о том, что эти факторы отражают ту же сторону влияния на результативный признак.

При высокой коррелированности факторов (теснота связи между двумя факторами превышает г > 0,8) влияние одного из них аккумулирует и влияние второго. Полученные при этом корреляционные модели становятся неустойчивыми.

При формировании корреляционной модели в нее нужно включить один из этих факторов, который существеннее влияет на результативный признак. При мультіколінеарності включения в корреляционной модели взаимосвязанных факторов возможно тогда, когда теснота связи между ними меньше, чем теснота связи результативного признака с каждым фактором. Нужно, чтобы корреляционная модель содержала независимые и такие, которые не дублируют друг друга, факторы. Нежелательным является включение к одной модели частичных и общих факторов. Полностью следует исключить факторы, функционально связанные с результативным признаком.

Тяжелой и сложной проблемой построения уравнения множественной регрессии является также выбор функции связи, то есть выбор математического уравнения, которое наиболее полно проявляет характер взаимосвязи между результативным признаком и включенными в уравнение регрессии факторами.

Одна из сложностей заключается во взаимосвязи и взаимодействия факторов между собой и с результативным признаком. Поэтому обычные приемы, используемые при выборе формы связи при парной корреляции (графический и др.) здесь мало приемлемы.

Выбор уравнения регрессии может опираться на положения теории исследуемого явления или практический опыт предыдущих исследований. Если таких данных нет, то помочь в решении этого вопроса может построение комбинационных группировок, таблиц распределения численностей, экспертные оценки, изучение парных связей между результативным признаком и каждым фактором, графики, переборки функций разных типов (при решении задач на ЭВМ), последовательный переход от линейных уравнений связи в более сложных видов и т.д.

Выполнение всех этих приемов связано со значительным количеством лишних подсчетов. Поэтому, принимая во внимание, что корреляционные связи в большинстве случаев отображаются функциями линейного типа или степенными, которые путем логарифмирования или замены переменных можно свести к линейному виду, уравнение множественной регрессии можно строить в линейной форме. При п переменных линейное уравнение имеет вид:

где Ух - зависимая переменная (результативный признак); Xi - независимые переменные (факторы);

а0 - начало отсчета, экономического смысла нет;

и,2,..., ап - коэффициенты регрессии.

Уравнение, с помощью которого выражается корреляционная связь между несколькими признаками называют уравнением множественной регрессии. Параметры уравнения регрессии, так же как и в случае парной корреляции, находят способом наименьших квадратов.

Коэффициенты множественной регрессии показывают степень среднего изменения результативного признака при изменении соответствующего факторного признака на единицу (одно свое значение) при условии, что все остальные факторы, включенные в уравнение регрессии, остаются постоянными (фиксированными) на одном (среднем) уровне.

Коэффициенты множественной регрессии, характеризующих связь между результативным признаком и фактором при фиксированном значении других факторов, называются коэффициентами чистой регрессии, а коэффициенты парной регрессии - коэффициентами полной регрессии.

Коэффициенты чистой регрессии, имеют разный физический смысл и единицы измерения не дают четкого представления о том, какие именно факторы наиболее существенно влияют на результативный признак. Кроме того, величина коэффициентов регрессии зависит от степени вариации признака.

Чтобы привести коэффициенты чистой регрессии к сопоставимому виду, их выражают в стандартизированной форме в виде коэффициентов эластичности (Э) и бета-коэффициентов (г).

Коэффициенты эластичности показывают, на сколько процентов изменится величина результативного признака при изменении соответствующего фактора на один процент при фиксированном значении других факторов.

Коэффициенты эластичности и коэффициенты чистой регрессии связаны между собой следующим отношением:

где а,- - коэффициент чистой регрессии при г'-м факторе;

х и у - средние значения соответственно г'-го фактора и результативного признака.

Бета-коэффициенты показывают, на сколько среднеквадратических отклонений &изменится результативный признак при изменении соответствующего фактора на одно значение среднеквадратического отклонения &х (при постоянстве других факторов, включенных в уравнение регрессии).

Бета-коэффициенты вычисляются по формуле:

где а,- - коэффициент чистой регрессии при г'-м факторе;

и °'у - средние квадратические отклонения соответственно по г'-му фактору и результативной признаку.

Из приведенной формулы следует, что бета-коэффициенты имеют тот же знак (плюс. минус), что и коэффициенты чистой регрессии.

По сути бета-коэффициенты характеризуют факторы, в развитии которых скрываются наибольшие резервы улучшения результативного признака.

При парной линейной связи коэффициент корреляции представляет собой бета-коэффициент:

Как отмечалось выше, коэффициент множественной детерминации (К2) показывает, какая часть общей вариации результативного признака определяется вариацией факторов, включенных в корреляционной модели. Чтобы определить долю влияния каждого фактора в общей вариации, надо коэффициент множественной детерминации разложить на составные части:

где - коэффициенты отдельного определения, которые можно найти по формуле:

где а,- - коэффициенты чистой регрессии;

~ - дисперсия результативного признака;

Сухие - сопряженная вариация результативного признака и одной из факторных признаков.

Величину Сухие определяют по формуле:

Разложение общего объема вариации результативного признака на составные части можно осуществить и другим способом. Для этого нужно найти произведение парных коэффициентов корреляции ( ух, ) на соответствующие бета-коэффициенты ( Р ), а полученные по всем факторам результаты просуммировать

Чтобы определить долю влияния каждого фактора в суммарном влиянии факторов, включенных в уравнение регрессии, рассчитывают коэффициенты отдельного определения (^ ):

Если нужно долю влияния каждого фактора определить в процентах, то найденные коэффициенты умножают на сто процентов.

Порядок определения и анализа показателей связи при множественной корреляции рассмотрим на примере зависимости урожайности зерновых культур (у) от четырех факторов: качества Почвы количества минеральных удобрений, внесенных на 1 га зерновых культур, ц действующего вещества (*2); стоимости силовых и рабочих машин на 100 га пашни, тыс. грн. (*3); трудозабезпеченості (количество среднегодовых работников на 100 га сельскохозяйственных угодий, чел.; (*4).

Исходные данные представим в виде матрицы (табл. 9.3).

Предварительное изучение формы зависимости между указанными признаками показало, что связь может быть выражен с помощью линейного уравнения регрессии:

Таблица 9.3. Матрица исходных данных для многофакторного корреляционно-регрессионного анализа урожайности зерновых культур

Матрица исходных данных для многофакторного корреляционно-регрессионного анализа урожайности зерновых культур

Решив уравнение множественной регрессии и рассчитав другие показатели корреляционной связи на ЭВМ, получим такую машинограму:

На ЭВМ получена такая корреляционная зависимость урожайности от включенных в модель факторов (1-й столбец машинограммы):

ух = -4,8215 + 0,0730х,. + 2,8948х2 + 0,4753х3 + 0,4860х4.

Дальнейший анализ связан с проверкой значимости коэффициентов регрессии. Для этого определим табличное значение X - критерия нормального распределения (п > 30) и сравним его с фактическими значениями (3-й столбец машинограммы).

Табличное значение и - критерия нормального распределения при заданном уровне доверительной вероятности Р = 0,95 составит и = 1,96 (прил. 2).

Соответствующие фактические значения нормированных отклонений для коэффициентов регрессии следующие:

Фактические значения коэффициентов и выше табличного значения (и = 1,96). Поэтому приведенное выше уравнение регрессии можно использовать для дальнейшего анализа.

Коэффициенты регрессии показывают на сколько изменится урожайность зерновых культур при изменении каждого фактора на единицу его измерения при фиксированных значениях других факторов, включенных в уравнение. Так, улучшение качества Почвы на один балл увеличивает урожайность на 0,0730 ц/га. увеличение дозы внесения удобрений на 1 ц действующего вещества - на 2,8948 ц/га. увеличение стоимости силовых и рабочих машин на 100 га пашни на одну тысячу гривен - на 0,4753 ц/га, увеличение трудозабезпеченості работниками на 100 га сельскохозяйственных угодий на одного человека - на 0,4860 ц/га.

Коэффициент множественной корреляции (10-й столбец машинограммы), который характеризует тесноту связи между урожайностью и ее факторами, равен К = 0,9375.

Коэффициент множественной детерминации (11-й столбец машинограммы) К2 = 0,93752 = 0,8790 показывает, что вариация урожайности в связи с изменением рассматриваемых факторов, составляет 87,90%.

Тесноту связи между признаками, включенными в уравнение регрессии характеризуют 4-й 1 9-й столбцы машинограммы и составленная на их основе такая матрица парных коэффициентов корреляции:

Из данных матрицы видно, что урожайность находится в достаточно тесной связи с включенными в модель факторами. Так, теснота связи между урожайностью и качеством Почвы составляет гУх1 = 0,6740, между дозами удобрений

Гухг = 0,8577, между обеспеченностью техникой и рабочей силой - соответственно

Гух3 = 0,6895 и Гух4 = 0,8077. Значительная теснота связи наблюдается между факторами.

Наибольшее влияние на урожайность зерновых культур, если делать выводы по приведенным уравнением регрессии, имеют дозы внесенных удобрений и трудозабезпеченність, потому что коэффициенты регрессии при этих коэффициентах наибольшие (а2 = 2,8948, а4 = 0,4880), затем обеспеченность техникой (а3 = 0,4753) и качество Почвы (а1 = 0,0730).

Однако, коэффициенты регрессии, имеют разный физический смысл и единицы измерения, не дают четкого представления о том, какие факторы наиболее существенно влияют на урожайность. Для проведения такого анализа на ЭВМ рассчитаны коэффициенты эластичности, которые показывают, на сколько процентов изменится величина результативного признака у при изменении величины фактора на 1% при фиксированном значении других факторов (6-й столбец машинограммы).

На основании вычисленных коэффициентов эластичности

можно сделать вывод, что увеличение на 1% обеспеченности техникой ведет к увеличению урожайности соответственно на 0,4052 %, трудозабезпеченості - 0,3525 %, удобрений - на 0,2434 и качества Почвы - на 0,1964 %.

Таким образом, наибольшее влияние на урожайность имеют обеспеченность техникой и рабочей силой.

Однако и этих данных недостаточно, чтобы составить объективное представление однако, как по группе исследуемых хозяйств распределяются факторы по их влиянию на резервы роста урожайности зерновых культур.

С этой целью на ЭВМ вычисляют /В - коэффициенты, которые показывают, на сколько среднеквадратических отклонений ау изменится результативный признак (урожайность) при изменении соответствующего фактора на одно значение своего среднеквадратического отклонения ау. По сути /В - коэффициенты характеризуют факторы, в развитии которых скрыты наибольшие резервы увеличения результативного признака (урожайности).

Фактические значения коэффициентов Д (5-й столбец машинограммы) такие:

В рассчитанной нами модели наибольшие возможности увеличения урожайности заложено в удобрениях (/¡2 = 0,4453), потому что при изменении на одно среднее квадратическое отклонение доз удобрений урожайность меняется на 0,4453 своего среднего квадратического отклонения. Далее по степени влияния идут такие факторы: обеспеченность рабочей силой (Д = 0,2356), качество Почвы (Д = 0,2338) и обеспеченность техникой (Д = 0,2163). Сила влияния на урожайность последних трех факторов практически одинакова.

Коэффициент множественной детерминации, который равен К2 = 0,8790, свидетельствует о том, что колебания урожайности, которые объясняются вариацией включенных в уравнение регрессии факторов, равна 87,9 %. Вызывает интерес разложения общего объема вариации урожайности на вариацию за счет каждого включенного в уравнение регрессии фактора. Для этого рассчитаем коэффициенты детерминации, которые определяются как произведение парных коэффициентов корреляции на г коэффициенты за соответствующими факторами (4-й и 5-й столбцы машинограммы).

Все расчеты сведем в табл. 9.4.

Таблица 9.4. Разложение общего объема вариации по факторам

Разложение общего объема вариации по факторам

Таким образом, с 87,9% общего колебания урожайности зерновых культур 15,8 % объясняется вариацией качества Почвы, 38,2 % - количеством внесенных удобрений, 14,9% - обеспеченностью техникой и 19,0% -трудозабезпеченністю. Самым влиятельным фактором, как показали расчеты, являются удобрения.

Заключительным этапом многофакторного корреляционно-регрессионного анализа является оценка результатов работы каждого хозяйства по достигнутым уровнем урожайности зерновых культур. Для этого нужно сравнить расчетный (теоретический) и фактический уровни урожайности (12-й столбец машинограммы). С целью экономии места здесь приведены данные только для первых трех и последнего хозяйства.

Плюсовая разница свидетельствует о том, что в этих хозяйствах фактическая урожайность оказалась выше расчетной, а минусовая разница наоборот.

Сравнение фактического и теоретического уровней урожайности в отдельных хозяйствах показывает, что в 14 хозяйствах с 30 урожайность оказалась выше расчетной. В других 16 хозяйствах она не превышала теоретического уровня. Это говорит о том, что еще во многих хозяйствах не использованы в достаточной мере имеющиеся резервы увеличения урожайности зерновых культур.

 
< Пред   СОДЕРЖАНИЕ   След >