Понятие корреляционной зависимости

При изучении случайных величин в общем случае необходимо рассматривать стохастическую зависимость, когда каждому значению СВ Х может соответствовать одно и более значений СВ Y, причем до опыта нельзя предсказать возможное соответствие. В случае стохастической связи изменение CВY, вследствие изменения СВ Х, можно разбить на 2 компоненты: 1. функциональную, связанную с зависимостью Y от Х, 2. случайную, связанную со случайным характером самих СВ Х и Y. Соотношение м/у функциональной и случайной компонентой определяет силу связи. Отсутствие первой компоненты указывает на независимость СВ Х и Y, отсутствие второй компоненты показывает, что м/у CВ X и Y существует функциональная связь.

Важным частным случаем стохастической зависимость является корреляционная. Корреляционная зависимость м/у переменными величинами - это та функциональная зависимость, которая существует м/у значениями одной из них и групповыми средними другой. (Корреляционные зависимости Y на Х и Х на Y обычно не совпадают). Корреляционная связь чаще всего характеризуется выборочным коэффициентом корреляции r, который характеризует степень линейной функциональной зависимости м/у CB X и Y. Для двух СВ Х и Y коэффициент корреляции имеет => св-ва:

1. -1?r?1;

2. если r=+ 1, то м/у СВ Х и Y существует функциональная линейная зависимость;

3. если r=0, то СВ Х и Y некоррелированны, что не означает независимости вообще;

4. если Х и Y образуют систему нормально распределенных СВ, то из их некоррелированности => их независимость.

Коэффициенты корреляции Y на Х и Х на Y совпадают.

Корреляция используется для количественной оценки взаимосвязи двух наборов данных с помощью коэффициента корреляции. Коэффициент корреляции выборки представляет собой ковариацию двух наборов данных, деленную на произведение их стандартных отклонений.

Критерий согласия

Проверка гипотезы о предполагаемом законе неизвестного распределения производится так же, как и проверка гипотезы о параметрах распределения, т. е. при помощи специально подобранной случайной величины -- критерия согласия.

Критерием согласия называют критерий проверки гипотезы о предполагаемом законе неизвестного распределения.

Имеется несколько критериев согласия: ч2 («хи квадрат») К. Пирсона, Колмогорова, Смирнова и др.

Ограничимся описанием применения критерия Пирсона к проверке гипотезы о нормальном распределении генеральной совокупности (критерий аналогично применяется и для других распределений, в этом состоит его достоинство). С этой целью будем сравнивать эмпирические (наблюдаемые) и теоретические (вычисленные в предположении нормального распределения) частоты. Обычно эмпирические и теоретические частоты различаются.

Случайно ли расхождение частот? Возможно, что расхождение случайно и объясняется малым числом; наблюдений, либо способом их группировки, либо другими причинами. Возможно, что расхождение частот неслучайно (значимо) и объясняется тем, что теоретические частоты вычислены, исходя из неверной гипотезы о нормальном распределении генеральной совокупности. Критерий Пирсона отвечает на поставленный выше вопрос. Правда, как и любой критерий, он не доказывает справедливость гипотезы, а лишь устанавливает, на принятом уровне значимости, ее согласие или несогласие с данными наблюдений.

Итак, пусть по выборке объема п получено эмпирическое распределение:

варианты xl, x1, x2 ... xs,

эмп. частоты ni n1 п2 ... ns.

Допустим, что в предположении нормального распределения генеральной совокупности, вычислены теоретические частоты п. При уровне значимости б, требуется проверить нулевую гипотезу; генеральная совокупность распределена нормально.

В качестве критерия проверки нулевой гипотезы примем случайную величину

(*)

Эта величина случайная, так как в различных опытах она принимает различные, заранее неизвестные значения. Ясно, что чем меньше различаются эмпирические и теоретические частоты, тем меньше величина критерия (*) и, следовательно, он в известной степени характеризует близость эмпирического и теоретического распределений.

Заметим, что возведением в квадрат разностей частот устраняют возможность взаимного погашения положительных и отрицательных разностей. Делением на n'i достигают уменьшения каждого из слагаемых; в противном случае сумма была бы настолько велика, что приводила бы к отклонению нулевой гипотезы даже и тогда, когда она справедлива. Разумеется, приведенные соображения не являются обоснованием выбранного критерия, а лишь пояснением.

Доказано, что при n>? закон распределения случайной величины (*), независимо от того, какому закону распределения подчинена генеральная совокупность, стремится к закону распределения ч2 с k степенями свободы. Поэтому случайная величина (*) обозначена через ч2, а сам критерий называют критерием согласия «хи квадрат».

Число степеней свободы находят по равенству

k=s-1-r

где s -- число групп выборки; r -- число параметров предполагаемого распределения, которые оценены по данным выборки.

В частности, если предполагаемое распределение -- нормальное, то оценивают два параметра (математическое ожидание и среднее квадратическое отклонение) поэтому r=2 и число степеней свободы

k=s-1-r=s-1-2-s-3.

Если, например, предполагают, что генеральная совокупность распределена по закону Пуассона, то оценивают один параметр X, поэтому r=1 и k=s-2.

Поскольку односторонний критерий более «жестко» отвергает нулевую гипотезу, чем двусторонний, построим правостороннюю критическую область, исходя из требования, чтобы вероятность попадания критерия в эту область, в предположении справедливости нулевой гипотезы, была равна принятому уровню значимости б:

Т.о., правосторонняя критическая область определяется неравенством

а область принятия нулевой гипотезы -- неравенством

Обозначим значение критерия, вычисленное по данным наблюдений, через ч2набл и сформулируем правило проверки нулевой гипотезы.

Правило. Для того чтобы, при заданном уровне значимости, проверить нулевую гипотезу H0: генеральная совокупность распределена нормально, надо сначала вычислить теоретические частоты, а затем наблюдаемое значение критерия

(**)

и по таблице критических точек распределения ч2, по заданному уровню значимости б, и числу степеней свободы k=s-3, найти критическую точку ч2 (б; k).

Если ч2набл2кр - нет оснований отвергнуть нулевую гипотезу.

Если ч2набл 2кр -- нулевую гипотезу отвергают.

Замечание 1. Объем выборки должен быть достаточно велик, во всяком случае не менее 50. Каждая группа должна содержать не менее 5--8 вариант; малочисленные группы следует объединять в одну, суммируя частоты.

Замечание 2. Поскольку возможны ошибки первого и второго рода, в особенности, если согласование теоретических и эмпирических частот «слишком хорошее», следует проявлять осторожность.

Замечание 3. В целях контроля вычислений, формулу (**) преобразуют к виду

 
< Пред   СОДЕРЖАНИЕ   Скачать   След >