Коэффициент корреляции и уравнения регрессии
Если определенному значению одной величины соответствует не одно, а целая совокупность значений другой величины, то считают, что между этими двумя величинами существует корреляционная связь. Корреляционная связь имеется тогда, когда изучаемое явление, подвергается воздействию не одного, а многих различных факторов. Так, стаж влияет на производительность труда, но не определяет ее полностью, поскольку производительность труда зависит также от уровня образования, возраста рабочего, его квалификации и др. Поскольку явления общественной жизни сложные и многофакторные, связь между признаками практически всегда корреляционный.
Если каждому значению одного признака соответствует такая совокупность значений другого признака, что достаточно близко расположена вокруг своего среднего (то есть все значения совокупности не отличаются от своего среднего арифметического), то такой корреляционная связь считают более тесным. Количественно теснота корреляционной связи оценивается с помощью коэффициентов корреляции.
Для оценки линейного корреляционной связи между двумя признаками, измеренные в метрических шкалах, часто используют коэффициент корреляции Пирсона (его еще называют коэффициентом произведения моментов). Этот показатель всегда приобретает значение в числовом интервале от -1 до +1. Знак коэффициента показывает "направление" связи. Положительный коэффициент корреляции (r> 0) свидетельствует о "прямой" связь между признаками (то есть такой, когда увеличение значения одного признака увеличивает значение другого признака), а отрицательный (г <0) - о "обратный" связь (такой, когда рост одного признака ведет к уменьшению другого признака). Так, между заработной платой рабочего и количеством производимых им деталей существует прямая связь (чем больше произведено деталей, тем выше будет заработная плата), а между заработной платой и количеством бракованных деталей существует обратная связь (ведь чем больше бракованных деталей было обнаружено в продукции определенного рабочего, тем меньше будет его заработная плата).
Плотность связи оценивается по абсолютному значению коэффициента корреляции. Ноль (r = 0) свидетельствует об отсутствии линейной связи между признаками. Максимальные значения (r = 1 и r * - 1) коэффициента свидетельствуют о полном (или функциональный) линейная связь между признаками (соответственно функциональный прямую связь и функциональный обратная связь). Промежуточные значения (-1 <г <0та0 <г <1) интерпретируются так: чем больше абсолютное значение показателя, тем теснее корреляционная связь. Как правило, если абсолютное значение коэффициента превышает 0,3, то можно говорить об умеренном линейная связь между признаками, а если превышает 0,8 - об очень тесная связь между признаками.
Коэффициент корреляции Пирсона оценивает связь между двумя признаками, только предполагая, что значение одного признака связаны с соответствующими средними иного признака линейной зависимостью, то есть оценивает только линейный по форме корреляционная связь. Итак, если два признака связаны между собой тесно (даже функционально), но их связь по форме существенно отличается от линейного, коэффициент корреляции Пирсона может принимать значения "ноль". Итак, если коэффициент корреляции Пирсона между двумя существенно равна нулю, то нельзя говорить об отсутствии корреляционной связи между ними; это свидетельствует лишь об отсутствии линейного корреляционной связи.
Для признаков, заданных в порядковых шкалах, вычисляют ранговые коэффициенты корреляции (Спирмена и Кендела), которые также приобретают значение между -1 и +1 и интерпретируются так же, как и коэффициент корреляции Пирсона.
Корреляция между двумя признаками свидетельствует о причинной связи между ними, когда либо один из признаков является частичной причиной другой, или оба признака связаны общими причинами. Количественная оценка корреляционных связей может помочь исследователю отбросить несущественные связи, четко очертить направление поисков, сравнить влияние различных факторов и тому подобное.
Методы регрессионного анализа позволяют оценить плотность связи между двумя признаками и оформить представление о виде этой связи в виде уравнения (так называемого уравнения регрессии), описывающий зависимость между средним значением одного признака (зависимой, поведение которой изучают) и значениями некоторой совокупности признаков (независимых факторов, влияние которых на зависимую признак пытаются оценить). В социологических исследованиях, как правило, осуществляется поиск такой зависимости в линейном виде (т.е. в виде линейного уравнения), поэтому речь идет об уравнении линейной регрессии.
Знание зависимости в виде уравнения позволяет не только объяснить поведение зависимой признаки, но и прогнозировать значение ее при различных изменений значений независимых признаков. Например, пусть на основе анализа факторов, влияющих на уровень заработной платы на данном предприятии, было построено уравнение линейной регрессии
описывающий связь между заработной платой (зависимая признак) и двумя такими независимыми признаками, как стаж%. (измеряется годами) и уровень образования% 2 (измеряется годами) работника. Анализируя это уравнение, мы видим, что с ростом трудового стажа работника в год его средняя заработная плата растет на 16,82 грн, а с повышением уровня образования в год средняя заработная плата растет только на 11,56 грн. Итак, на этом предприятии трудовой стаж имеет большее влияние на среднюю заработную плату работника, чем уровень его образования.
Очень важной для получения надежных и статистически обоснованных результатов является оценка значимости статистических показателей. Это целый комплекс математических процедур, позволяющих ответить на ряд вопросов относительно вычисленных статистических показателей и параметров выборочной совокупности. Так, если мы вычислили коэффициенты корреляции между двумя признаками и получили число, не равное нулю, нас должно заинтересовать, действительно этот коэффициент существенно отличается от нуля (а следовательно, фиксирует наличие линейного корреляционной связи), или эта разница случайно и вызвана только погрешностью нашей выборки. На такой вопрос может ответить процедура оценки значимости различия коэффициента корреляции от нуля, учитывающей объем выборки и нужен исследователю уровень надежности (т.е. вероятность принятия ошибочного решения), о котором уже шла речь при рассмотрении критерия ^ -квадрат для двумерных таблиц. Для каждого вычисленного коэффициента корреляции делается оценка на уровне надежности 1% и 5%.
Кроме оценки значимости отличия от нуля коэффициента корреляции между двумя признаками, достаточно часто применяют также процедуру оценки значимости различий между двумя процентными значениями (например, опрошенных, разницы между процентами недовольных условиями труда на этом предприятии среди женщин и среди мужчин), разницы между двумя средними (например, между средней заработной платой на одном и на другом предприятии), между двумя коэффициентами корреляции.