РЕГРЕССИЯ
Статистические связи между переменными исследуются не только методами корреляционного, но и регрессионного анализа, которые дополняют друг друга. Основная задача корреляционного анализа - определение связи между случайными переменными и оценка его интенсивности и направления. Основная задача регрессионного анализа является установление формы и изучения зависимости переменных.
Регрессия позволяет по величине одного признака (переменная x) находить средние (ожидаемые) значения другого признака (переменная В), связанной с x корреляционно. Поскольку в исследованиях конкретный вид взаимосвязей неизвестный, одна из главных задач регрессионного анализа состоит в подборе соответствующего выражения В = / (X), график которого проходит через эмпирические точки (или достаточно близко к ним) и таким образом связывает переменные x и В.
Выражение В = / (X) называется уравнение регрессии, функция / (X) - функция регрессии, а их графики - линии регрессии. Регрессионный анализ выявляет количественную зависимость признака-фактора (зависимой переменной) от одного или нескольких признаков-факторов (независимой переменной). Эта зависимость может быть одномерной или ба-гатомирною (множественной), как линейной, так и нелинейной.
Одномерная линейная регрессия
Одномерная линейная регрессия предполагает только две переменные, например, независимую x и зависимую В, а также уравнения линейного типа Т = а 0 + a 1 ■ X. Линейная регрессии дает возможность выявлять, насколько меняется средняя величина одного признака при изменении другой. Построение линейной регрессии заключается в расчетах коэффициентов линейной регрессии а 0 и а 1:
X (х - - В)
а - £ (- X)2; (2.28)
а 0 = В - а 1 ■ X, (2.29)
где В и X - средние значения переменных В и x.
Выбор значений коэффициентов а 0 и а 1 выполняется по методу "наименьших квадратов" так, чтобы сумма ^ (в; -В ~) = ^ Су _ а 0 _ а 1 ■ Х и) 2 была минимальной.
Если независимой признаком выступает В а зависимой - x, то уравнение линейной регрессии будет иметь другой вид типа X = Ь 0 + Ь 1 -В. Коэффициенты линейной регрессии Ь 0 и Ь 1 отличаться от коэффициентов а 0 и а 1.
Пример 2.10. Оценить зависимость успешности обучения (У) от затраченного времени (X). Эмпирические данные представлены в таблице рис. 2.62.
Последовательность решения:
o Выполнить расчеты коэффициентов регрессии а 0 и а 1:
- В ячейки В15 и С15 внести = СРЗНАЧ (Б3: Б13) и = СРЗНАЧ (С3: С13) и получить средние значения массивов X ~ 2,39 и В ~ 4,09;
- В ячейках Б3: Н13 рассчитать разницы, произведения и квадраты разниц с помощью соответствующих формул, что показано на рис. 2.63;
- В ячейках Р14: Н14 рассчитать суммы произведений и квадратов разниц;
- В ячейках Б17 и Б17 рассчитать коэффициенты линейной регрессии а 1 и а 0 с помощью выражений = Р14Л314 и = С15-017 * В15:
я1 = 7,11 / 5,19 ~ 1,37 и а0 = 4,09-1,37-2,39 ~ 0,82;
Рис. 2.62. Расчеты линейной регрессии
Рис. 2.63. Формулы для расчета линейной регрессии
- Выполнить в ячейках 13: 113 расчеты теоретического значения 7 с ре-гресийним уравнением F = 0,82 + 1,37 ■ X. Для этого в ячейку 13 внести выражение = $ 0 $ 18 + $ 0 $ 17 * Б3. Аналогичные выражения внести в другие ячейки колонки I;
- В ячейках Н17: Н18 аналогичным способом рассчитать коэффициенты регрессии Ь 0 и Ь 1 регрессионного уравнения X = Ь 0 + ЬгУ;
- В ячейке Б21 рассчитать коэффициент корреляции с помощью выражения = Р14 / КОРЕНЬ (В14 * И14) или = Пирсон (Б3: Б13; С3: С13), получить г ху ^ 0,76;
- Построить графики линейной регрессии (рис. 2.64).
Выводы. Уравнение регрессии F = 0,82 + 1,37oX а также X = 0,67 + 0,42-У (графики регрессии) дают возможность аналитического прогнозирования значений зависимой переменной с помощью независимой переменной. Полученные регрессионные уравнения имеют разные коэффициенты регрессии и выполняют различные прогнозируя функции: первое прогнозирует В по значениям X, второе - наоборот, x по значениям В (конечно, если такое прогнозирование имеет смысл).
Множественная регрессия
Множественная регрессия - это оценка, например, переменной В линейной комбинацией т независимых зминнихх 1, х 2, х т. Самый простой вариант регрессии имеет место для т = 2, когда необходимо спрогнозировать зависимость одной переменной В от двух переменных х 1 и Х 2. Уравнение такой множественной регрессии имеет вид:
? = Б х ■ X! + Б 2 ■ X 2 + Б 0, (2.30)
где Б1 = ь1 o Зу / ^; Б 2 = Ь 2 ■ $ в / $ г;, Б 0 = В - А х ■ X 1 - А 2 o X 2;
Ь 1 = (Г у 1 ~ Г у2 o Г 12) / (1 - Г 1 2 2); Ь 2 = (Г у2 "Г у 1 'Г 12) / (1" ^ 2)
с в, с 1, с 2, В, X 1, X 2 - стандартные отклонения и средние значения В, х 1 и х 2; Г у 1, Г у 2, г 12 - коэффициенты парной корреляции Пирсона между В и Х 1, В и Х 2, Х 1 и Х 2. Для оценки связи, с одной стороны, переменной В, а с другой - двух переменных Х 1 и Х 2, используют коэффициент множественной корреляции:
Ку-1,2 = д / Ь 1 o Г у 1 + Ь 2 o Г у2. (2.31)
Пример 2.11. Спрогнозировать зависимость переменной В от комбинации независимых зминнихХ 1 и Х 2 по эмпирическим данным рис. 2.65. Последовательность решения:
o Выполнить расчеты коэффициентов множественной регрессии и множественной корреляции (рис. 2.65 и 2.66):
- В ячейки В15: 015 внести = СРЗНАЧ (В3: В14), = СРЗНАЧ (С3: С14) и = СРЗНАЧ (03: 014), получить средние значения В ~ 4,00, X ~ 5,83 и й 2 = 3 , 17;
- В ячейки В16: 016 внести функции = СТАНДОТКЛОН (В3: В14),
= СТАНДОТКЛОН (С3: С14), = CTAHflOTFJIOH (D3: D14) и получить стандартные отклонения s y ~ 0,74; s 1 ~ 2,17 и s 2 ~ 1,11;
- В ячейках В17: В19 рассчитать коэффициенты парной корреляции Пирсона с помощью функции MS Excel = Пирсон () с соответствующими аргументами и получить следующие значения r y1 ~ 0,68; r y2 ~ 0,11 и r 12 ~ -0,21;
- В ячейки В20 и В21 внести выражения = (B17-B18 * B19) / (1-B19 A 2) и = (B18-B17 * B19) / (1-B19 A 2), получить значение b 1 ~ 0,74 и b 2 ~ 0,27;
- В ячейки Е20: Е22 внести выражения = B20 * B16 / C16, = B21 * B16 / D16 и = B15-E20 * C15-E21 * D15, получить значения коэффициентов множественной регрессии В1 ~ 0,25; ^ 2 ~ 0,18 и В-0 ~ 1,97;
Рис. 2.65. Параметры регрессии и множественная корреляция Я в-1 ^
- Выполнить в ячейках Е3: Е14 расчеты теоретического значения 7 по уравнению множественной регрессии типа Г = 0,251oX 1 + 0,18oX 2 +1,97. Для этого в ячейку Е3 внести выражение = $ Е $ 20 * С3 + $ Е $ 21 * Б3 + $ Е $ 22. Аналогичные выражения внести в ячейки Е4: Е14;
- В ячейку В22 внести выражение = КОРЕНЬ (В20 * В17 + В21 * В18) и получить значение коэффициента множественной корреляции Я в-1 ^ ~ 0,73.
Рис. 2.66. Формулы для расчета регрессии и множественной корреляции
Регрессионное уравнение 7 = 0,251 oX 1 + 0,18oX 2 +1,97 дает возможность прогнозирования переменной В по переменным х 1 и Х 2. Например, прогнозируемыми значениями могут быть следующие: 1 ~ 2,83 дляХ 1 = 2 и Х 2 = 2 и 1 ~ 3,08 дляХ 1 = 3 и Х 2 = 2 и др. Коэффициент множественной корреляции Я у 1 2 = 0,73 свидетельствует о существенном прямая связь между переменной В, с одной стороны, и переменными Х 1 и Х 2, с другой, однако оценить вклад в корреляцию каждой переменной отдельно не представляется возможным.
Вопрос. Задача.
1. Раскройте идею методов регрессии как средства прогнозирования.
2. Охарактеризуйте прогнозирующие возможности одномерной линейной регрессии.
3. Охарактеризуйте прогнозирующие возможности множественной регрессии.
4. Повторите математические процедуры задач за примерами 2.10 - 2.11.
5. Выполните лабораторную работу № 7.