Меню
Главная
Авторизация/Регистрация
 
Главная arrow Математика, химия, физика arrow Анализ показателя реадмиссии

Оценка качества работы классификаторов

Кросс-валидация также может быть применена для сравнения различных классификаторов между собой, чтобы определить метод с наиболее высокой точностью предсказаний.

На графике слева направо представлен результат работы всех классификаторов (см. рис. 8):

1. Наинвый баесовский классификатор - точность 0,28

2. Метод ближайших соседей - точность 0,79

3. Метод случайного леса - точность 0,83.

4. Логистическая регрессия - точность 0,85

Кросс-валидация для всех классификаторов

Рисунок 8. Кросс-валидация для всех классификаторов

Таким образом, по результатам проведенной кросс-валидации наилучшим методом является логистическая регрессия. Низкий результат точности классификатора наивный Баесовский классификатор может быть обусловлен размером выборки и количеством параметров, так как данный метод в основном хорошо работает только на маленьких выборках.

Помимо метода кросс-валидации для проверки качества классификатора используются ROC-кривые - графики, показывающие соотношение неправильно определенных позитивных случаев к корректно определенным позитивным случаям (flase positive rate и true positive rate). В связи с тем, что в данной выборке целевая переменная принимает больше, чем два значения, то необходимо строить ROC-кривую для каждого из значений целевой переменной, а потом представлять на графике среднее для всех значений зависимого параметра. Данный алгоритм реализуется следующим образом:

target = diabetic_data.readmitted - определяем целевую переменную

# Binarize the output - представляем значения целевой переменной в бинарном виде

target = label_binarize (target, classes=[0, 1, 2])

n_classes = target.shape[1]

for i in range (n_classes): - запускаем цикл для каждого значения целевой переменной

fpr[i], tpr[i], _= roc_curve([Применение классификатора] [:, i], y_score[:, i])

roc_auc[i] = auc (fpr[i], tpr[i])

Результат работы данного алгоритма представлен ниже (см. рис. 9):

ROC-кривые для классификаторов

Рисунок 9. ROC-кривые для классификаторов

Таким образом, и в анализе через ROC-кривые наилучшим образом себя показала именно логистическая регрессия. В связи с этим именно данный классификатор будет использоваться для предсказания целевой переменной.

Прежде, чем начать реализацию интерфейса для конечного пользователя, необходимо проверить и интерпретировать результат работы выбранного классификатора. Первым шагом, получаем коэффициенты линейной регрессии, далее необходимо провести интерпретацию полученных результатов, а также проверить значимость полученных коэффициентов с помощью t-статистики. В случае, если полученное значение статистики больше, чем табличное значение, то коэффициенты признаются значимыми. В данном случае все коэффициенты признаны статистически значимыми, так как значение t-статистики больше, чем (уровень значимости 0,01, степени свободы = 101470 (n-k-1)). Данные представлены в таблице 3 (синим выделены положительные коэффициенты, красным - отрицательные)

Таблица 3. Коэффициенты логистической регрессии

Параметр

Коэффициент

t-статистика

Интерпретация

Отделение

+0.00164492

7,44529

Слабая степень влияния. Пациенты, поступившие в кардиологическое отделение и отделение эндокринологии наиболее склонны к ухудшению состояния.

Пол

+ 0.02195529

5,98426

Мужчины более склонны к ухудшению состояния

Количество дней в госпитале

+0.00883695

8,991112

Степень влияния на реадмиссию очень слабое, однако наблюдается прямая зависимость между днями, проведенными в госпитале и последующим ухудшением состояния.

Заключение по визиту

+0.00937918

9,424847

Наблюдается прямая взаимосвязь между увеличением числа, указанного в заключении по визиту, и реадмиссией. Однако данные закодированы в случайном порядке, логическая интерпретация данных результатов затруднена.

Тест на глюкозу

+0.03859679

7,542266

Чем выше показатели теста на глюкозу, тем выше вероятность реадмиссии.

Вторичный диагноз

+0.07319994

12,02284

Аналогично первичному диагнозу существует прямая зависимость.

Количество препаратов

+0.08079777

12,551719

Большое количество назначенных препаратов говорит о вероятности реадмиссии. Может быть обусловлено тем, что человек в более плохом изначальном состоянии принимает большое количество лекарств, а не самим фактом назначения большого количества медикаментов.

Количество посещений до этого визита

+0.08866531

9,491827

В случае если пациент часто обращается в больницу, вероятность реадмиссии выше.

Возраст

+0.13933213

8,225969

Чем старше человек, тем больше вероятность реадмисии.

Первичный диагноз

+0.14479666

6,783833

В соответствии с группировкой заболеваний в классы, наиболее высокий риск реадмиссии у пациентов с заболеваниями системы кровообращения, пищеварения, а также поступивших с травмами.

Тест HbA1c

+0.81238387

11,538118

Чем выше показатели HbA1c, тем выше вероятность возвращения к ухудшенному состоянию. Степень влияния показателя высокая.

Раса

-0.06573962

10,986301

Европеоиды более склонны к ухудшению состояния

Изменение в принимаемых лекарствах

-0.09270197

5,295517

В случае корректировки принимаемых лекарств, вероятность реадмиссии меньше.

Количество других процедур

-0.10109088

7,705122

Чем больше процедур оказано пациенту, тем меньше вероятность реадмиссии. Коэффициенты у этого и предудущего параметра обусловлены тщательным подходом к лечению больного в случае оказания большого количества услуг.

Количество лабораторных тестов

-0.2510888

10,850467

Чем больше тестов сделано пациенту, тем меньше вероятность реадмиссии.

Тип поступления

-0.32507527

9,300183

Если человек поступил в экстренном случае, то вероятность ухудшения более велика.

Все медикаменты оказывают довольно слабое влияния на целевую переменную, однако прямая зависимость (принятие лекарства - реадмиссия) характерна для следующих медикаментов - глипизид и пиоглитазон, которые предназначены для снижения уровня гликированного гемоглобина в крови. Данная зависимость может быть обусловлена тем, что оба препарата имеют широкий список противопоказаний и побочных действий, а прекращение приема должно проходить под контролем лечащего врача.

Таким образом, наиболее весомыми факторами, влияющими на возможную реадмиссию являются пол, возраст, тип поступления в госпиталь, количество проведенных лабораторных тестов и процедур, первичный диагноз, а также результаты теста HbA1C. Последние три показателя прямо говорят о том, что тщательный подход к лечению больного может благоприятно сказаться на его состоянии после завершения лечения. Однако, несмотря на то, что остальные показатели оказывают не такое сильное влияние на целевую переменную, в интерфейсе пользователю необходимо вести все эти значения, для более точной работы модели. Более того, все полученные коэффициенты регрессии являются статистически значимыми, что доказывают показатели t-статистики каждого параметра.

 
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Естествознание
Журналистика
Инвестирование
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Политэкономия
Право
Психология
Региональная экономика
Религиоведение
Риторика
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика
Прочее