Меню
Главная
Авторизация/Регистрация
 
Главная arrow Математика, химия, физика arrow Анализ показателя реадмиссии

Применение классификаторов

После финальной подготовки данных, необходимо подобрать оптимальные параметры к каждому методу. Для этого применяем кросс-валидацию к каждому из методов с различными параметрами, которая позволяет проверить каждый метод на вероятность ошибки и показывает точность его результатов. Ниже приведены результаты работы классификаторов с вариацией параметров:

RandomForest. Представляет собой «коммитет» из деревьев решений, которые принимают решение методом голосования большинства деревьев. Само по себе дерево решений представляет собой граф, представленный ветками (репрезентуют значимые атрибуты, влияющие на значение целевой переменной) и листьями (показывают непосредственно само значение атрибута). При каждом новом случае, алгоритм прогоняет его по каждому из деревьев решений, получает значение от каждого дерева и возвращает финальный результат - значение, выбранное большинством деревьев. В Python классификатор sklearn.ensemble. RandomForestClassifier принимает на вход значение параметра n _estimator, отвечающего за количество деревьев (см. рис. 5):

1. n_estimator = 10

2. n_estimator = 30

3. n_estimator = 2

4. n_estimator = 50

5. n_estimator = 80 - с данным количеством деревьев метод дает наилучший результат. Точность 0,83. Данное количество параметров было выбрано, так как и при уменьшении, и при увеличении количества деревьев, классификатор показывает более плохой результат точности, чем при n=80.

6. n_estimator = 150

Кросс-валидация для метода рандомных деревьев

Рисунок 5. Кросс-валидация для метода рандомных деревьев

Метод k-ближайших соседей. Данный классификатор предлагает для каждого нового кейса результат, который выдают большинство из его ближайших соседей. Соответственно, изменяемый параметр данного метода - n_neighbours (количество ближайших соседей) (см. рис. 6)

1. n_neighbours = 20 - при данном количестве соседей классификатор показывает наилучший результат. Точность 0,79. Аналогично случаю с рандомным лесом, как уменьшение, так и увеличение числа соседей приводят к ухудшению работы классификатора.

2. n_neighbours = 50

3. n_neighbours = 100

4. n_neighbours = 5

Кросс-валидация для метода ближайших соседей

Рисунок 6. Кросс-валидация для метода ближайших соседей

Логистическая регрессия. Модель классификации, определяющая параметры уравнения регрессии путем подгонки данных из выборки под логистическую кривую. Для каждого нового случая, модель применяет параметры, полученные на тестовой выборке к новому примеру. В рамках решаемой задачи будет использоваться мультиноминальная регрессия, так как целевая переменная принимает больше двух значений, соответственно параметр мультиноминальности будет принимать значение multi_class='ovr' Изменяемые параметры в Python - penalty определяет метод для учета ошибки первого рода в регрессии, tol - уровень значимости (см. рис. 7).

1. Penalty = l2, tol = 0.0001

2. Penalty = l1, tol = 0.0001

3. Penalty = l1, tol = 0.001

4. Penalty = l2, tol = 0.01 - c таким набором параметров модель дает наилучший результат. Точность 0,85.

5. Penalty = l2, tol = 0.001

Кросс-валидация для логистической регрессии

Рисунок 7. Кросс-валидация для логистической регрессии

В метод, использующий наивный баесовский классификатор, не передаются входные параметры, поэтому для данного классификатора шаг подбора параметров пропущен.

 
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Естествознание
Журналистика
Инвестирование
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Политэкономия
Право
Психология
Региональная экономика
Религиоведение
Риторика
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика
Прочее