КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ
Задание: для пары признаков, один из которых является факторным (среднемесячная начисленная заработная плата по субъектам РФ за 2007.), а другой результативным (средние цены на первичном рынке жилья по субъектам РФ за 2007г.), провести корреляционно-регрессионный анализ.
Решение:
Для построения поля корреляции понадобиться корреляционная решётка. Группировку по факторному признаку производим используя расчеты из второго задания. Всего получилось 7 интервалов длиной 4000 рублей.
Теперь разделим совокупность на группы по результативному признаку. Размах его вариации равен 97702 рублей. По формуле Стерджесса k =7,20.
Целесообразно разделить совокупность по результативному признаку на 7 групп. Получаем интервал для каждой группе 13957,43 рублей, примерно15000 рублей. Из 80 единиц совокупности исключаем те, для которых неизвестны значения показателя ”Средние цены на первичном рынке жилья, руб.” - получаем 71 единицу.
Таблица 5.1 Корреляционная решетка показателей “Среднемесячная начисленная заработная плата, руб.” (X) и ”Средние цены на первичном рынке жилья, руб.”(Y).
X |
Y |
|||||||
15000-30000 |
30000-45000 |
45000-60000 |
60000-75000 |
75000-90000 |
90000-105000 |
105000-120000 |
? |
|
5 000-9 000 |
11 |
8 |
- |
- |
- |
- |
- |
19 |
9 000-13 000 |
12 |
21 |
2 |
- |
- |
- |
- |
35 |
13 000-17 000 |
- |
8 |
3 |
- |
- |
- |
- |
11 |
17 000-21 000 |
- |
2 |
- |
- |
1 |
- |
- |
3 |
21 000-25 000 |
- |
1 |
- |
- |
- |
- |
1 |
2 |
25 000-29 000 |
- |
1 |
- |
- |
- |
- |
- |
1 |
29 000-33 000 |
- |
- |
- |
- |
- |
- |
- |
0 |
? |
23 |
41 |
5 |
0 |
1 |
0 |
1 |
71 |

Рисунок 5.1 - Поле корреляции
Оценку тесноты связи проведем с помощью таких показателей, как коэффициент корреляции, ЭКО, коэффициент детерминации, Спирмена, Пирсона, Кэндэла и Фехнера, коэффициенты ассоциации и контенгенции.
Коэффициент корреляции: (Приложение К)
Вывод: коэффициент корреляции характеризует наличие линейной связи между признаками и пороговое значение для него составляет 0,7, то есть можно сказать, что линейная связь между признаками отсутствует.
Эмпирическое корреляционное отношение и коэффициент детерминации:
Считаем среднюю в каждой группе по формуле простой арифметической, и для каждой группы считаем остаточную дисперсию. Потом рассчитывается средняя остаточная дисперсия, как средняя взвешенная из остаточных, где вес - количество единиц в группе. Она составляет 101015032,8 рублей2. Считаем межгрупповую дисперсию (81966384,03) и общую (182981416,8). Расчет и полученные данные представлены в Приложение К. Можно провести проверку, и получим, что общая дисперсия равна сумме средней остаточной и межгрупповой:
101015032,8+81966384,03=182981416,8
Коэффициент детерминации считаем как частное межгрупповая дисперсия от общей, и он составляет примерно 0,45. ЭКО равен корню из коэффициента детерминации и составляет 0,67. Вывод: связь умеренная, так как значения коэффициента детерминации и ЭКО очень близки к пороговым: 0,5 и 0,7 соответственно.
Коэффициент Спирмана (Приложение Л) равен 0,63: согласно данному коэффициенту связь прямая, довольно тесная, так как пороговое значение составляет 0,5.
Коэффициент Кендалла (Приложение М) равен 0,47, это значение немного меньше порогового (0,5) и указывает на то, что связь прямая, слабая.
Значение коэффициент Фехнера (Приложение Н) равно 0,41, что является меньше порогового (0,5), что указывает на отсутствие связи.
Коэффициенты Пирсона и Чупрова рассчитывается на основе корреляционной решетки, представленной в Таблице 5.1. Для расчета данного коэффициента найдем значение (Приложение П). Коэффициент Пирсона будет равен 0,72, а коэффициент Чупрова составил 0,42. Эти коэффициенты указывают на то, что связь достаточно тесная.
Коэффициенты контингенции и ассоциации рассчитывать не имеет смысла, так как они считаются для альтернативных признаков.
Таблица 5.2 - Сводка рассчитанных коэффициентов
Коэффициент |
Полученное значение |
Пороговое значение |
Вывод |
Коэффициент корреляции |
0,60 |
0,7 |
Связь умеренная, прямая |
ЭКО |
0,67 |
0,7 |
Связь умеренная |
Коэффициент детерминации |
0,45 |
0,5 |
Связь умеренная |
Коэффициент Спирмена |
0,63 |
0,5 |
Связь тесная, прямая |
Коэффициент Кендалла |
0,47 |
0,5 |
Связь умеренная, прямая |
Коэффициент Фехнера |
0,41 |
0,5 |
Связь умеренная, прямая |
Коэффициент Пирсона |
0,76 |
0,3 |
Связь тесная |
Коэффициент Чупрова |
0,48 |
0,3 |
Связь тесная |
Если делать выводы о наличии связи, опираясь на данную таблицу, можно сказать что связь есть, так как коэффициент Пирсона, Чупрова и Спирмена больше пороговых значений, а коэффициенты Фехнера и Кендела очень близки к пороговым значениям. Однако все эти коэффициенты характеризуют связь, исходя из значений рангов или частот проявления признака, а не из значений самого признака. Поэтому в первую очередь необходимо учитывать коэффициенты корреляции, детерминации и ЭКО, которые рассчитываются непосредственно на основании самих значений признака. Их значения не дотягивают до пороговых (однако очень близки к ним), поэтому нельзя с уверенностью сказать о наличии тесной связи.
Построим уравнение парной регрессии.
Чтобы определить вид связи между признаками проведем регрессионный анализ (построим уравнение регрессии).
Чтобы построить уравнение регрессии, воспользуемся методом наименьших квадратов. Суть метода состоит в том, что в качестве линии регрессии выбирается такая линия, которая наиболее точно описывает поле корреляции. Для определения такой линии по каждому предполагаемому варианту линии регрессии (прямая, парабола, гипербола) рассчитывается сумма квадратов отклонений фактических значений признаков от их теоретических значений. В качестве уравнения выбирается то, которому соответствует наименьшее значение суммы квадратов отклонений.
Уравнение прямой можно получить с помощью Excel:
y = 2,1056x + 11331
Как и уравнение параболы:
y = -0,00006x2+ 3,9247x - 904,1
Уравнения гиперболы приведём вручную - расчёты в Приложении Р. Оно получилось
у=33307,05849+24434401,91/х
Из трех вариантов наименьшая сумма квадратов отклонений - у параболы, следовательно, наше уравнение регрессии - параболическое и зависимость - параболическая (Приложение Ж).
Таким образом, можно сделать общий вывод, что связь между признаками - параболическая, прямая, но не очень тесная, т.е. с ростом среднемесячной заработной платы, средние цены на первичном рынке жилья увеличиваются, но это не единственный фактор.