Оценка качества работы классификаторов

Кросс-валидация также может быть применена для сравнения различных классификаторов между собой, чтобы определить метод с наиболее высокой точностью предсказаний.

На графике слева направо представлен результат работы всех классификаторов (см. рис. 8):

1. Наинвый баесовский классификатор - точность 0,28

2. Метод ближайших соседей - точность 0,79

3. Метод случайного леса - точность 0,83.

4. Логистическая регрессия - точность 0,85

Кросс-валидация для всех классификаторов

Рисунок 8. Кросс-валидация для всех классификаторов

Таким образом, по результатам проведенной кросс-валидации наилучшим методом является логистическая регрессия. Низкий результат точности классификатора наивный Баесовский классификатор может быть обусловлен размером выборки и количеством параметров, так как данный метод в основном хорошо работает только на маленьких выборках.

Помимо метода кросс-валидации для проверки качества классификатора используются ROC-кривые - графики, показывающие соотношение неправильно определенных позитивных случаев к корректно определенным позитивным случаям (flase positive rate и true positive rate). В связи с тем, что в данной выборке целевая переменная принимает больше, чем два значения, то необходимо строить ROC-кривую для каждого из значений целевой переменной, а потом представлять на графике среднее для всех значений зависимого параметра. Данный алгоритм реализуется следующим образом:

target = diabetic_data.readmitted - определяем целевую переменную

# Binarize the output - представляем значения целевой переменной в бинарном виде

target = label_binarize (target, classes=[0, 1, 2])

n_classes = target.shape[1]

for i in range (n_classes): - запускаем цикл для каждого значения целевой переменной

fpr[i], tpr[i], _= roc_curve([Применение классификатора] [:, i], y_score[:, i])

roc_auc[i] = auc (fpr[i], tpr[i])

Результат работы данного алгоритма представлен ниже (см. рис. 9):

ROC-кривые для классификаторов

Рисунок 9. ROC-кривые для классификаторов

Таким образом, и в анализе через ROC-кривые наилучшим образом себя показала именно логистическая регрессия. В связи с этим именно данный классификатор будет использоваться для предсказания целевой переменной.

Прежде, чем начать реализацию интерфейса для конечного пользователя, необходимо проверить и интерпретировать результат работы выбранного классификатора. Первым шагом, получаем коэффициенты линейной регрессии, далее необходимо провести интерпретацию полученных результатов, а также проверить значимость полученных коэффициентов с помощью t-статистики. В случае, если полученное значение статистики больше, чем табличное значение, то коэффициенты признаются значимыми. В данном случае все коэффициенты признаны статистически значимыми, так как значение t-статистики больше, чем (уровень значимости 0,01, степени свободы = 101470 (n-k-1)). Данные представлены в таблице 3 (синим выделены положительные коэффициенты, красным - отрицательные)

Таблица 3. Коэффициенты логистической регрессии

Параметр

Коэффициент

t-статистика

Интерпретация

Отделение

+0.00164492

7,44529

Слабая степень влияния. Пациенты, поступившие в кардиологическое отделение и отделение эндокринологии наиболее склонны к ухудшению состояния.

Пол

+ 0.02195529

5,98426

Мужчины более склонны к ухудшению состояния

Количество дней в госпитале

+0.00883695

8,991112

Степень влияния на реадмиссию очень слабое, однако наблюдается прямая зависимость между днями, проведенными в госпитале и последующим ухудшением состояния.

Заключение по визиту

+0.00937918

9,424847

Наблюдается прямая взаимосвязь между увеличением числа, указанного в заключении по визиту, и реадмиссией. Однако данные закодированы в случайном порядке, логическая интерпретация данных результатов затруднена.

Тест на глюкозу

+0.03859679

7,542266

Чем выше показатели теста на глюкозу, тем выше вероятность реадмиссии.

Вторичный диагноз

+0.07319994

12,02284

Аналогично первичному диагнозу существует прямая зависимость.

Количество препаратов

+0.08079777

12,551719

Большое количество назначенных препаратов говорит о вероятности реадмиссии. Может быть обусловлено тем, что человек в более плохом изначальном состоянии принимает большое количество лекарств, а не самим фактом назначения большого количества медикаментов.

Количество посещений до этого визита

+0.08866531

9,491827

В случае если пациент часто обращается в больницу, вероятность реадмиссии выше.

Возраст

+0.13933213

8,225969

Чем старше человек, тем больше вероятность реадмисии.

Первичный диагноз

+0.14479666

6,783833

В соответствии с группировкой заболеваний в классы, наиболее высокий риск реадмиссии у пациентов с заболеваниями системы кровообращения, пищеварения, а также поступивших с травмами.

Тест HbA1c

+0.81238387

11,538118

Чем выше показатели HbA1c, тем выше вероятность возвращения к ухудшенному состоянию. Степень влияния показателя высокая.

Раса

-0.06573962

10,986301

Европеоиды более склонны к ухудшению состояния

Изменение в принимаемых лекарствах

-0.09270197

5,295517

В случае корректировки принимаемых лекарств, вероятность реадмиссии меньше.

Количество других процедур

-0.10109088

7,705122

Чем больше процедур оказано пациенту, тем меньше вероятность реадмиссии. Коэффициенты у этого и предудущего параметра обусловлены тщательным подходом к лечению больного в случае оказания большого количества услуг.

Количество лабораторных тестов

-0.2510888

10,850467

Чем больше тестов сделано пациенту, тем меньше вероятность реадмиссии.

Тип поступления

-0.32507527

9,300183

Если человек поступил в экстренном случае, то вероятность ухудшения более велика.

Все медикаменты оказывают довольно слабое влияния на целевую переменную, однако прямая зависимость (принятие лекарства - реадмиссия) характерна для следующих медикаментов - глипизид и пиоглитазон, которые предназначены для снижения уровня гликированного гемоглобина в крови. Данная зависимость может быть обусловлена тем, что оба препарата имеют широкий список противопоказаний и побочных действий, а прекращение приема должно проходить под контролем лечащего врача.

Таким образом, наиболее весомыми факторами, влияющими на возможную реадмиссию являются пол, возраст, тип поступления в госпиталь, количество проведенных лабораторных тестов и процедур, первичный диагноз, а также результаты теста HbA1C. Последние три показателя прямо говорят о том, что тщательный подход к лечению больного может благоприятно сказаться на его состоянии после завершения лечения. Однако, несмотря на то, что остальные показатели оказывают не такое сильное влияние на целевую переменную, в интерфейсе пользователю необходимо вести все эти значения, для более точной работы модели. Более того, все полученные коэффициенты регрессии являются статистически значимыми, что доказывают показатели t-статистики каждого параметра.

 
< Пред   СОДЕРЖАНИЕ   Скачать   След >