Корреляционного анализа
Задачей описательной статистики является не только систематизация эмпирических данных в виде распределения частот и расчеты типовых показателей МЦТ и вариаций признаков ММ, но и выявление связи между переменными, оценка его направления и интенсивности. Сравнивая различные виды связей, можно выделить три типа зависимостей между переменными X и Y:
функциональная зависимость определяет значение переменной Y от X однозначно;
корреляционная зависимость определяет среднее значение переменной Y от X;
стохастическая зависимость определяет распределение переменной Y от X.
Итак, наиболее общей считается стохастическая зависимость. Корреляционная зависимость является зависимостью стохастической, функциональная - рассматривается как частный случай корреляционной зависимости.
Сущность корреляции
Корреляция (от лат. Correlatio - соотношение) - это статистическая зависимость между случайными величинами, носит вероятностный характер.
Корреляционные связи можно изучать на качественном уровне с диаграмм рассеяния эмпирических значений переменных X и Y (рис. 2.51) и соответствующим образом их интерпретировать. Так, например, если повышение уровня одной переменной сопровождается повышением уровня другой, то речь идет о положительную корреляцию или прямая связь (рис. 2.51 а, б). Если же рост одной переменной сопровождается снижением значений другой, то мы имеем дело с отрицательной корреляцией или обратной связью (рис. 2.51 г, г). Нулевой называется корреляция при отсутствии связи переменных (рис. 2.51 в). Однако нулевая общая корреляция может свидетельствовать лишь об отсутствии линейной зависимости, а не вообще об отсутствии любого статистического связи.
Рис. 2.51. Диаграммы рассеяния эмпирических значений переменных X и Y:
а) строгая положительная корреляция; б) сильная положительная корреляция; в) нулевая корреляция; г) умеренная отрицательная корреляция; г) строгая отрицательная корреляция; д) нелинейная корреляция
В психолого-педагогических исследованиях в основном наблюдаются связи нелинейные (см. Рис. 2.51 д). Например, рост мотивации сначала повышает эффективность научения, а затем наступает снижение производительности (эффект "перемотивации" - закон Иеркса-Додсона). Количественная мера корреляционной связи оценивается по значениям коэффициентами корреляции в пределах от -1 до +1. Отрицательные значения коэффициентов указывают на обратную связь, положительные - на прямую. Нулевое значение может свидетельствовать об отсутствии связи. Интенсивность связи (слабая связь - умеренный - существенный - сильный) оценивается по абсолютному значению коэффициентов корреляции.
Методы расчета степени корреляционных связей тесно связаны с применяемыми измерительными шкалами (табл. 2.4).
Таблица 2.4
Коэффициенты корреляции в зависимости от типов измерительных шкал
Шкалы признаки В |
Шкалы признака X |
||
Интервальная (отношений) |
Ранговая |
Номинальная |
|
Интервальная (отношений) |
Коэффициент Пирсона г х в; Дихотомический коэффициент корреляции <р; Тетрахоричний коэффициент корреляции т ш |
||
Ранговая |
Коэффициент Спирмена г "(при условии, если для х шкалу интервалов или отношений превратить в ранговое шкалу) |
Коэффициенты корреляции Спирмена т Кендалла; Коэффициент конкордации В |
|
Номинальная |
Точечно-бисериальный коэффициент корреляции мая ^; бисериальный коэффициент корреляции гьии |
Рангов-бисериальный коэффициент корреляции |
Коэффициент ассоциации Ф; Коэффициент контингенции Юла 6; Коэффициенты сопряженности Чупрова К и Пирсона С |
Изучение связи между признаками, которые принимают случайные значения, начинается с оценки его линейности.
Линейная корреляция
Линейный корреляционная связь для эмпирических данных, измеренных по шкале интервалов или отношений, оценивается с помощью коэффициента корреляции Пирсона г ху
где Хи и в и - значения переменных X и Y; х и у - средние X и Y; п - объем выборки.
8 Указанные методы расчета с использованием компьютерной техники можно найти в учебнике [56].
Формула (2.22) может быть преобразована, если заменить значения переменных Х и и в и нормируемыми значениями 2 х и г в, и будет выглядеть так:
Пример 2.7. Оценить связь между переменными X и В по эмпирическим данным таблицы рис. 2.52 двумя способами с использованием формул (2.22) и (2.23). Способ 1.
Последовательность решения:
o оценить характер линейности связи между признаками X и Y с помощью диаграммы рассеяния (рис. 2.52);
Рис. 2.52. Диаграмма рассеяния признаков
o том, что корреляция линейная и продолжить расчеты коэффициента корреляции Пирсона г ху (рис. 2.53 и 2.54);
o в ячейках В16 и С16 рассчитать средние значения х и у
х = и х и = 112,00; В = 1 ул = 18,17;
o в ячейках и в15 рассчитать суммы квадратов разниц:
X (х - X) 2 = 386,00; £ (у, - в) 2 = 311,67;
¡= 1, = 1
Рис. 2.53. Результаты расчета коэффициента корреляции г ху
o в ячейке Н18 рассчитать сумму произведений разниц:
X (х и - X) o (в и - у) = 242,00;
¿= 1
o в ячейке В17 рассчитать коэффициент корреляции г ху по формуле:
ГХУ = ■ 242,00 - 0,70. л / 386,00 o 311,67
Рис. 2.54. Расчетные формулы Значение г ху ~ +0,70 свидетельствует о существенном прямая связь между признаками.
Способ 2.
Последовательность решения:
o Результаты расчета г ху по нормируемым данным показано на рис. 2.55, расчетные формулы рис. 2.56.
Рис. 2.55. Результаты расчета г ху по нормируемым данным
o в ячейках В16 и С16 рассчитать средние значения х и у;
o в ячейках В17 и С17 рассчитать стандартные отклонения в х и в в;
Рис. 2.56. Формулы расчета г ху по нормируемым данным o в столбиках Б и Е рассчитать нормированные данные 2 х и 2 в (обратите внимание,
что среднее нормированных данных равна 0, а стандартное отклонение - 1,00);
o в ячейке В18 рассчитать коэффициент корреляции r xy по формуле (2.23);
Выводы. Одно и то же значение r xy ~ +0,70 рассчитан двумя способами. Методы расчета по нормируемым данным выглядит более лаконично. Значение парного коэффициента корреляции Пирсона r xy можно получить с помощью специальной функции MS Excel = Пирсон ().