Анализ двумерных таблиц

Одной из важных задач анализа данных является поиск и оценка взаимосвязей отдельных признаков для определенной совокупности объектов. Первым шагом при решении этой задачи является построение корреляционных таблиц (их еще называют двумерными таблицами). Двумерные таблицы позволяют упорядочить информацию о распределении совокупности объектов по двум признакам. Такая таблица имеет прямоугольную форму. Количество строк в таблице равно количеству возможных значений одного признака, а количество столбцов - количеству возможных значений другого признака.

В приведенной ниже таблице в ячейке, находящейся, например, на пересечении второй строки и четвертого цифрового столбика, стоит число 61 (число в центре ячейки). Это количество работниц (значение признака "Пол" - "женщина"), которых не удовлетворяют условия труда (значение признака "Удовлетворенность условиями труда" - "полностью не удовлетворен»).

Признак 12. Удовлетворенность условиями труда Вопрос: Довольны ли Вы условиями труда на Вашем предприятии?

Признак 86. Пол

Вопрос: Интервьюер, укажите пол респондента

Пол Полностью доволен Скорее да, чем нет Скорее нет, чем да Полностью не удовлетворен Вместе
Мужчина 18,4%

39

86,6%
25,5%

54

61,4%
33,0%

70

66,7%
23,1%

49

44,5%
212

60,9%
Женщина 4,4%

6

13,3%
25,0%

34

38,6%
25,7%

35

33,3%
44,9%

61

55,5%
136

39,1%
Вместе опрошенных 45

12,9%
88

25,3%
105

30,2%
110

81,6%

Кроме того, двумерная таблица, как правило, содержит еще один дополнительный столбик и еще один дополнительный строка - так называемые маргинальные столбик и строчку. Каждая клеточка маргинального колонки содержит сумму чисел соответствующей строки, а также процент, который составляет это число по отношению к общему количеству объектов. Так, из маргинального колонки таблицы видно, что на предприятии работают 136 женщин, а это составляет 39,1% общего количества работников. Маргинальный строка содержит соответствующие суммы столбцов таблицы.

Кроме того, в каждой ячейке таблицы, как правило, записывают два процента - процент, который составляет число, содержащееся в ячейке, в отношении соответствующего значения в маргинальном колонке (этот процент записывают над числом), и процент по отношению к соответствующему значение в маргинальном строке (записывается под числом). Так, если мы снова вернемся в ячейку во второй строке четвертого столбика таблицы, то увидим, что количество недовольных условиями труда женщин (таких на предприятии 61) составляет 44,9% общего количества женщин (а всего на предприятии работает 136 женщин) и 55, 5% общего количества недовольных условиями труда (всего условиями труда на предприятии не удовлетворены 110 рабочих).

Из таблицы также видно, что процент женщин, недовольных условиями труда на предприятии, значительно больше, чем мужчин. Следовательно, мы можем выдвинуть гипотезу, что пол работника и удовлетворенность условиями труда связаны между собой.

Умение читать двумерные таблицы дается опытом, однако искать закономерности в достаточно больших по размеру таблицах очень трудно. Кроме того, далеко не всегда связь между признаками можно увидеть так наглядно. Поэтому на практике факт наличия связи между двумя признаками устанавливается с помощью так называемого критерия ^ -квадрат. Этот критерий основывается на анализе частот, записанных в ячейках таблицы, и позволяет ответить на вопрос, можно выдвигать и анализировать гипотезу о наличии связи между двумя признаками. Пакет ОСА не только автоматически вычисляет коэффициент ^ -квадрат для каждой двумерной таблицы, но и оценивает его на уровне надежности 1% и 5% (уровень надежности - это вероятность принять ошибочное решение). Если вычисленное значение ^ -квадрат является надежным на уровне 1%, то факт существования связи можно считать установленным с вероятностью 0,99.

Для оценки силы связи вычисляют коэффициенты Чупрова и Крамера. Они построены на основе £ -квадрат и приобретают значение в интервале от нуля до единицы. Оба коэффициенты приобретают значение ноль в случае статистической независимости двух признаков. Значение больше нуля можно интерпретировать так: чем значение ближе к единице, тем связь теснее.

 
< Пред   СОДЕРЖАНИЕ   След >