Меню
Главная
Авторизация/Регистрация
 
Главная arrow Математика, химия, физика arrow Анализ показателя реадмиссии

Постановка задачи

Таким образом, главной задачей данного исследования является необходимость построить модель с помощью методов анализа данных, используя имеющуюся базу данных посещений госпиталя. Модель должна учитывать все необходимые значимые переменные, которые влияют на показатель реадмиссии пациента и применять полученные зависимости для предсказания результата на новом объекте (пациенте). Для достижения цели исследования необходимо выполнить следующие задачи, используя выбранные инструментальные методы:

1. Провести предварительный анализ данных.

С помощью методов анализа boxplot выявить шумы и выбросы выборки, изучить корреляцию и зависимости между переменными с помощью one-way ANOVA. И, наконец, подготовить данные для анализа путем исключения коррелирующих переменных, а также параметров с большим количеством выбросов, либо, в случае небольшого количества шумов, замены пропущенных значений на медиану выборки

2. Создать модели на основе имеющихся данных, используя оптимальные методы Machine Learning, а именно логистическую регрессию, наивный баесовский классификатор, деревья решений и метод k-ближайших соседей.

Логистическая регрессия относится к методам классификации, основанных на явном разделении обучающей поверхности на несколько областей, данный метод выполняет разделение с помощью логистической кривой. Решающий лес относится к методам, которые на основе выборки создают ряд простых правил, применяя которые алгоритм определяет принадлежность объекта к тому или иному классу. Баесовский классификатор, в свою очередь, основан на принципе максимизации апостериорной вероятности и восстановления алгоритма соответствия между зависимой и независимой переменными. И, наконец, метод k-ближайших соседей классифицирует объекты по принципу сходства с объектами обучающей выборки.

3. Оценка качества построенных моделей на основе кросс-валидации и ROC-кривых и выбор наиболее точной модели.

Кросс-валидация подразумевает под собой оценку точности каждого алгоритма путем выявления вероятности ошибки в ходе классификации объектов, ROC-кривые же представляют собой количество ложноположительных результатов работы классификатора к верноположительным результатам с различным порогом чувствительности.

4. Создать интерфейс для пользователя на основе разработанной модели, который позволить оценить подобранные методы мониторинга и лечения диабета для каждого больного и определить показатель реадмиссии.

Интерфейс пользователя создается с использованием графических надстроек языка программирования Python, а также встроенных библиотек для анализа данных, таких как numpy, sklearn, pandas и др.

 
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Естествознание
Журналистика
Инвестирование
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Политэкономия
Право
Психология
Региональная экономика
Религиоведение
Риторика
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика
Прочее