Оценка качества работы классификаторов
Кросс-валидация также может быть применена для сравнения различных классификаторов между собой, чтобы определить метод с наиболее высокой точностью предсказаний.
На графике слева направо представлен результат работы всех классификаторов (см. рис. 8):
1. Наинвый баесовский классификатор - точность 0,28
2. Метод ближайших соседей - точность 0,79
3. Метод случайного леса - точность 0,83.
4. Логистическая регрессия - точность 0,85

Рисунок 8. Кросс-валидация для всех классификаторов
Таким образом, по результатам проведенной кросс-валидации наилучшим методом является логистическая регрессия. Низкий результат точности классификатора наивный Баесовский классификатор может быть обусловлен размером выборки и количеством параметров, так как данный метод в основном хорошо работает только на маленьких выборках.
Помимо метода кросс-валидации для проверки качества классификатора используются ROC-кривые - графики, показывающие соотношение неправильно определенных позитивных случаев к корректно определенным позитивным случаям (flase positive rate и true positive rate). В связи с тем, что в данной выборке целевая переменная принимает больше, чем два значения, то необходимо строить ROC-кривую для каждого из значений целевой переменной, а потом представлять на графике среднее для всех значений зависимого параметра. Данный алгоритм реализуется следующим образом:
target = diabetic_data.readmitted - определяем целевую переменную
# Binarize the output - представляем значения целевой переменной в бинарном виде
target = label_binarize (target, classes=[0, 1, 2])
n_classes = target.shape[1]
for i in range (n_classes): - запускаем цикл для каждого значения целевой переменной
fpr[i], tpr[i], _= roc_curve([Применение классификатора] [:, i], y_score[:, i])
roc_auc[i] = auc (fpr[i], tpr[i])
Результат работы данного алгоритма представлен ниже (см. рис. 9):

Рисунок 9. ROC-кривые для классификаторов
Таким образом, и в анализе через ROC-кривые наилучшим образом себя показала именно логистическая регрессия. В связи с этим именно данный классификатор будет использоваться для предсказания целевой переменной.

Прежде, чем начать реализацию интерфейса для конечного пользователя, необходимо проверить и интерпретировать результат работы выбранного классификатора. Первым шагом, получаем коэффициенты линейной регрессии, далее необходимо провести интерпретацию полученных результатов, а также проверить значимость полученных коэффициентов с помощью t-статистики. В случае, если полученное значение статистики больше, чем табличное значение, то коэффициенты признаются значимыми. В данном случае все коэффициенты признаны статистически значимыми, так как значение t-статистики больше, чем (уровень значимости 0,01, степени свободы = 101470 (n-k-1)). Данные представлены в таблице 3 (синим выделены положительные коэффициенты, красным - отрицательные)
Таблица 3. Коэффициенты логистической регрессии
Параметр |
Коэффициент |
t-статистика |
Интерпретация |
|
Отделение |
+0.00164492 |
7,44529 |
Слабая степень влияния. Пациенты, поступившие в кардиологическое отделение и отделение эндокринологии наиболее склонны к ухудшению состояния. |
|
Пол |
+ 0.02195529 |
5,98426 |
Мужчины более склонны к ухудшению состояния |
|
Количество дней в госпитале |
+0.00883695 |
8,991112 |
Степень влияния на реадмиссию очень слабое, однако наблюдается прямая зависимость между днями, проведенными в госпитале и последующим ухудшением состояния. |
|
Заключение по визиту |
+0.00937918 |
9,424847 |
Наблюдается прямая взаимосвязь между увеличением числа, указанного в заключении по визиту, и реадмиссией. Однако данные закодированы в случайном порядке, логическая интерпретация данных результатов затруднена. |
|
Тест на глюкозу |
+0.03859679 |
7,542266 |
Чем выше показатели теста на глюкозу, тем выше вероятность реадмиссии. |
|
Вторичный диагноз |
+0.07319994 |
12,02284 |
Аналогично первичному диагнозу существует прямая зависимость. |
|
Количество препаратов |
+0.08079777 |
12,551719 |
Большое количество назначенных препаратов говорит о вероятности реадмиссии. Может быть обусловлено тем, что человек в более плохом изначальном состоянии принимает большое количество лекарств, а не самим фактом назначения большого количества медикаментов. |
|
Количество посещений до этого визита |
+0.08866531 |
9,491827 |
В случае если пациент часто обращается в больницу, вероятность реадмиссии выше. |
|
Возраст |
+0.13933213 |
8,225969 |
Чем старше человек, тем больше вероятность реадмисии. |
|
Первичный диагноз |
+0.14479666 |
6,783833 |
В соответствии с группировкой заболеваний в классы, наиболее высокий риск реадмиссии у пациентов с заболеваниями системы кровообращения, пищеварения, а также поступивших с травмами. |
|
Тест HbA1c |
+0.81238387 |
11,538118 |
Чем выше показатели HbA1c, тем выше вероятность возвращения к ухудшенному состоянию. Степень влияния показателя высокая. |
|
Раса |
-0.06573962 |
10,986301 |
Европеоиды более склонны к ухудшению состояния |
|
Изменение в принимаемых лекарствах |
-0.09270197 |
5,295517 |
В случае корректировки принимаемых лекарств, вероятность реадмиссии меньше. |
|
Количество других процедур |
-0.10109088 |
7,705122 |
Чем больше процедур оказано пациенту, тем меньше вероятность реадмиссии. Коэффициенты у этого и предудущего параметра обусловлены тщательным подходом к лечению больного в случае оказания большого количества услуг. |
|
Количество лабораторных тестов |
-0.2510888 |
10,850467 |
Чем больше тестов сделано пациенту, тем меньше вероятность реадмиссии. |
|
Тип поступления |
-0.32507527 |
9,300183 |
Если человек поступил в экстренном случае, то вероятность ухудшения более велика. |
Все медикаменты оказывают довольно слабое влияния на целевую переменную, однако прямая зависимость (принятие лекарства - реадмиссия) характерна для следующих медикаментов - глипизид и пиоглитазон, которые предназначены для снижения уровня гликированного гемоглобина в крови. Данная зависимость может быть обусловлена тем, что оба препарата имеют широкий список противопоказаний и побочных действий, а прекращение приема должно проходить под контролем лечащего врача.
Таким образом, наиболее весомыми факторами, влияющими на возможную реадмиссию являются пол, возраст, тип поступления в госпиталь, количество проведенных лабораторных тестов и процедур, первичный диагноз, а также результаты теста HbA1C. Последние три показателя прямо говорят о том, что тщательный подход к лечению больного может благоприятно сказаться на его состоянии после завершения лечения. Однако, несмотря на то, что остальные показатели оказывают не такое сильное влияние на целевую переменную, в интерфейсе пользователю необходимо вести все эти значения, для более точной работы модели. Более того, все полученные коэффициенты регрессии являются статистически значимыми, что доказывают показатели t-статистики каждого параметра.