Введение

В настоящее время, согласно данным Всемирной Организации Здравоохраненения, 422 миллиона человек в мире страдают от сахарного диабета. Также ежегодно от данного заболевания умирают 1,5 миллиона человек, более того, по оценкам ВОЗ, около 2,2 миллион смертей в мире напрямую связаны с повышенным содержанием сахара в крови. Данная статистика обусловлена недостаточным вниманием к сахарному диабету среди населения и врачей, и все это, несмотря на то, что сейчас существует множество способов профилактики диабета, а также методов облегчения последствий данного заболевания.

Современные методики лечения диабета подразумевают под собой тщательный мониторинг течения заболевания и уровня глюкозы в крови, а также, при необходимости, прием лекарственных средств, прописанных врачом. Например, на данный момент, одним из самых высокоточных тестов для отслеживания уровня глюкозы в крови является тест на гликированный гемоглобин (HbA1c), который на основе уровня гемоглобина в крови, непосредственно связанного с глюкозой, позволяет отражать среднее содержание сахара в крови в динамике до трех месяцев. Данный тест является более точным и высококачественным, чем обычный тест на глюкозу, отражающий уровень глюкозы в крови на текущий момент. Однако тест на гликированный гемоглобин до сих пор проводится только в исключительных случаях в связи с отсутствием дорогостоящего оборудования в больницах, а также недостаточного внимания к профилактике и мониторингу сахарного диабета.

Тест HbA1c лишь один из примеров невнимания к заболеванию и отсутствия качественного мониторинга диабета в мире.

Объект исследования

Объектом исследования являются медицинские учреждения, оказывающие услуги больным диабетом - государственные и частные клиники, больницы, госпитали.

Предмет исследования

Предметом исследования является отслеживание течения сахарного диабета у больных, а также способы его лечения на основании значимых факторов влияния.

Цель исследования

Целью исследования является создание модели, которая на основании параметров, влияющих на течение диабета, выявляет показатель возвращения больного в ухудшенное состояния после оказанного лечения (реадмиссию).

Построение модели будет происходить на основе базы данных по лечению людей с диабетом, поступивших в госпитали с осложнениями, вызванными данным заболеванием. Данные включают в себя список больных, поступавших в американские госпитали в течение 1998-2008 годов. В качестве показателя реадмиссии выбрано повторное возвращение в госпиталь с осложнениями.

Задачи исследования

Для достижения цели исследования необходимо выполнить следующие задачи:

1. Провести предварительный анализ данных - выявить зависимости и корреляцию между переменными, значимые параметры, выполнить подготовку данных для анализа.

2. Создать модели на основе имеющихся данных, используя оптимальные методы Machine Learning.

3. Оценить качество построенных моделей на основе кросс-валидации и ROC-кривых и выбрать наиболее точную модель.

4. Создать интерфейс для пользователя на основе разработанной модели, который позволить оценить подобранные методы мониторинга и лечения диабета для каждого больного и определить показатель реадмиссии.

Методы и технологии исследования

Решение поставленных задач производилось с применением различных методов. Для анализа переменных и связи между ними использовались методы статистики и анализа данных. Непосредственно для создания модели - методы Data mining, такие как деревья решений, метод k-ближайших соседей, наивный Баесовский классификатор и мультиноминальная логистическая регрессия.

В ходе работы использовались следующие программные продукты:

1. MS Excel - программа для работы с электронными таблицами. В данной работе используется в качестве базы данных.

2. PyCharm Community Edition - среда разработки на языке программирования Python. Использовалась для обработки данных, а также создания модели.

3. QtDesigner - приложение для создания GUI для пользователя на основе программного языка Python.

Краткое содержание глав

В первой главе описаны теоретические основы выбранной предметной области, а именно медицинская составляющая исследования - типы диабеты, его причины и способы диагностики, также проведен анализ литературы и выполнена постановка задачи.

Вторая глава включает в себя описание методов анализа данных, спобосы оценки точности классификатора, а также инструментальных средств для создания предсказательной модели оптимального лечения, таких как PyCharm и QtDesigner.

Третья глава представляет собой описание практической реализации разработки модели, а именно предварительного анализа данных, применения методов анализа данных, оценки качества работы классификаторов и имплементации разработанной модели на тестовых примерах, а также описание интерфейса пользователя.

В заключении описаны полученные в ходе работы результаты и сделаны выводы о достижении итоговой цели работы.

 
< Пред   СОДЕРЖАНИЕ   Скачать   След >