Понятие корреляционной зависимости
При изучении случайных величин в общем случае необходимо рассматривать стохастическую зависимость, когда каждому значению СВ Х может соответствовать одно и более значений СВ Y, причем до опыта нельзя предсказать возможное соответствие. В случае стохастической связи изменение CВY, вследствие изменения СВ Х, можно разбить на 2 компоненты: 1. функциональную, связанную с зависимостью Y от Х, 2. случайную, связанную со случайным характером самих СВ Х и Y. Соотношение м/у функциональной и случайной компонентой определяет силу связи. Отсутствие первой компоненты указывает на независимость СВ Х и Y, отсутствие второй компоненты показывает, что м/у CВ X и Y существует функциональная связь.
Важным частным случаем стохастической зависимость является корреляционная. Корреляционная зависимость м/у переменными величинами - это та функциональная зависимость, которая существует м/у значениями одной из них и групповыми средними другой. (Корреляционные зависимости Y на Х и Х на Y обычно не совпадают). Корреляционная связь чаще всего характеризуется выборочным коэффициентом корреляции r, который характеризует степень линейной функциональной зависимости м/у CB X и Y. Для двух СВ Х и Y коэффициент корреляции имеет => св-ва:
1. -1?r?1;
2. если r=+ 1, то м/у СВ Х и Y существует функциональная линейная зависимость;
3. если r=0, то СВ Х и Y некоррелированны, что не означает независимости вообще;
4. если Х и Y образуют систему нормально распределенных СВ, то из их некоррелированности => их независимость.
Коэффициенты корреляции Y на Х и Х на Y совпадают.
Корреляция используется для количественной оценки взаимосвязи двух наборов данных с помощью коэффициента корреляции. Коэффициент корреляции выборки представляет собой ковариацию двух наборов данных, деленную на произведение их стандартных отклонений.
Критерий согласия
Проверка гипотезы о предполагаемом законе неизвестного распределения производится так же, как и проверка гипотезы о параметрах распределения, т. е. при помощи специально подобранной случайной величины -- критерия согласия.
Критерием согласия называют критерий проверки гипотезы о предполагаемом законе неизвестного распределения.
Имеется несколько критериев согласия: ч2 («хи квадрат») К. Пирсона, Колмогорова, Смирнова и др.
Ограничимся описанием применения критерия Пирсона к проверке гипотезы о нормальном распределении генеральной совокупности (критерий аналогично применяется и для других распределений, в этом состоит его достоинство). С этой целью будем сравнивать эмпирические (наблюдаемые) и теоретические (вычисленные в предположении нормального распределения) частоты. Обычно эмпирические и теоретические частоты различаются.
Случайно ли расхождение частот? Возможно, что расхождение случайно и объясняется малым числом; наблюдений, либо способом их группировки, либо другими причинами. Возможно, что расхождение частот неслучайно (значимо) и объясняется тем, что теоретические частоты вычислены, исходя из неверной гипотезы о нормальном распределении генеральной совокупности. Критерий Пирсона отвечает на поставленный выше вопрос. Правда, как и любой критерий, он не доказывает справедливость гипотезы, а лишь устанавливает, на принятом уровне значимости, ее согласие или несогласие с данными наблюдений.
Итак, пусть по выборке объема п получено эмпирическое распределение:
варианты xl, x1, x2 ... xs,
эмп. частоты ni n1 п2 ... ns.
Допустим, что в предположении нормального распределения генеральной совокупности, вычислены теоретические частоты п. При уровне значимости б, требуется проверить нулевую гипотезу; генеральная совокупность распределена нормально.
В качестве критерия проверки нулевой гипотезы примем случайную величину

(*)
Эта величина случайная, так как в различных опытах она принимает различные, заранее неизвестные значения. Ясно, что чем меньше различаются эмпирические и теоретические частоты, тем меньше величина критерия (*) и, следовательно, он в известной степени характеризует близость эмпирического и теоретического распределений.
Заметим, что возведением в квадрат разностей частот устраняют возможность взаимного погашения положительных и отрицательных разностей. Делением на n'i достигают уменьшения каждого из слагаемых; в противном случае сумма была бы настолько велика, что приводила бы к отклонению нулевой гипотезы даже и тогда, когда она справедлива. Разумеется, приведенные соображения не являются обоснованием выбранного критерия, а лишь пояснением.
Доказано, что при n>? закон распределения случайной величины (*), независимо от того, какому закону распределения подчинена генеральная совокупность, стремится к закону распределения ч2 с k степенями свободы. Поэтому случайная величина (*) обозначена через ч2, а сам критерий называют критерием согласия «хи квадрат».
Число степеней свободы находят по равенству
k=s-1-r
где s -- число групп выборки; r -- число параметров предполагаемого распределения, которые оценены по данным выборки.
В частности, если предполагаемое распределение -- нормальное, то оценивают два параметра (математическое ожидание и среднее квадратическое отклонение) поэтому r=2 и число степеней свободы
k=s-1-r=s-1-2-s-3.
Если, например, предполагают, что генеральная совокупность распределена по закону Пуассона, то оценивают один параметр X, поэтому r=1 и k=s-2.
Поскольку односторонний критерий более «жестко» отвергает нулевую гипотезу, чем двусторонний, построим правостороннюю критическую область, исходя из требования, чтобы вероятность попадания критерия в эту область, в предположении справедливости нулевой гипотезы, была равна принятому уровню значимости б:
Т.о., правосторонняя критическая область определяется неравенством
а область принятия нулевой гипотезы -- неравенством
Обозначим значение критерия, вычисленное по данным наблюдений, через ч2набл и сформулируем правило проверки нулевой гипотезы.
Правило. Для того чтобы, при заданном уровне значимости, проверить нулевую гипотезу H0: генеральная совокупность распределена нормально, надо сначала вычислить теоретические частоты, а затем наблюдаемое значение критерия

(**)
и по таблице критических точек распределения ч2, по заданному уровню значимости б, и числу степеней свободы k=s-3, найти критическую точку ч2 (б; k).
Если ч2набл<ч2кр - нет оснований отвергнуть нулевую гипотезу.
Если ч2набл >ч2кр -- нулевую гипотезу отвергают.
Замечание 1. Объем выборки должен быть достаточно велик, во всяком случае не менее 50. Каждая группа должна содержать не менее 5--8 вариант; малочисленные группы следует объединять в одну, суммируя частоты.
Замечание 2. Поскольку возможны ошибки первого и второго рода, в особенности, если согласование теоретических и эмпирических частот «слишком хорошее», следует проявлять осторожность.
Замечание 3. В целях контроля вычислений, формулу (**) преобразуют к виду