Меню
Главная
Авторизация/Регистрация
 
Главная arrow Математика, химия, физика arrow Анализ показателя реадмиссии

Метод k-ближайших соседей

Следующий довольно распространенный метод для анализа данных - метод k-ближайших соседей, который основывается на оценке похожести объектов, располагающихся на отрезке k от изучаемого объекта. Алгоритм выбирает все объекты, которые находятся на расстоянии k от объекта, и среди них находит те, которые имеют самое большое значения для изучаемого объекта, и относит его к их классу.

Для работы алгоритма необходима обучающая выборка, на которой задано соответствие группа объектов-зависимая переменная (7):

},

На данном множестве объектов должна быть однозначно задана функция расстояния между объектами с. Для случайного объекта u алгоритм определяет расстояния до объектов определенного класса и располагает их в порядке возрастания (8)

,

где - i-ый сосед объекта u. i-ый сосед для зависимой переменной обозначается через . В общем виде функция классификации объекта выглядит следующим образом (9):

,

где - функция «веса» (степени значимости) i-го соседа для объекта u.

В отличие от алгоритма деревьев решений, метод k-ближайших соседей неустойчив к шумам в выборке, однако также дает довольно хорошие и валидные результаты на больших выборках.

Наивный байесовский классификатор

Байесовский классификатор также относится к методам принятия решений и анализа данных. В ходе работы для каждого из классов вычисляется функция максимального правдоподобия, которая применяется к классифицируемому объекту, затем, после проведения опыта применения функция для них вычисляются условные вероятности. Объект относят к классу, для которого вычисленная условная вероятность наибольшая.

Данный классификатор также требует, чтобы была задана обучающая выборка по формуле (7), также необходимо, чтобы было известно значение плотностей класса. При соблюдении вышеперечисленных условий алгоритм определяет значение среднего риска (вероятность отнесения объекта к неправильному классу) (10):

,

где - «штраф» за отнесения объекта к неверному классу.

Для классификации объекта используется функция максимизации (11)

,

где - аспостериорная вероятность (вероятность после проведения эксперимента) того, что объект принадлежит к определенному классу.

При предположении, что все объекты из выборки, описываются статистически независимыми признаками, классификатор называется наивным. Данный вариант метода более прост в реализации, а также довольно быстро работает во время обучения и классификации, однако имеет существенный недостаток - довольно низкое качество на больших выборках.

Логистическая регрессия

Наконец, логистическая регрессия - это модель, применяющаяся для оценки принадлежности объекта к тому или иному классу. Простая логистическая регрессия подразумевает, что значения целевой переменной бинарны, в случае, если классов больше чем два, то говорят о мультиноминальной логистической регрессии. Логистическая регрессия для отнесения объекта к тому или иному классу использует следующую формулу (12):

,

где j-го признака, - порог для принятия решения, - скалярное произведение признакового описания объектов на вектор весов.

Принцип работы логистической регресии основан на том, чтобы по элементам обучающей выборки вычислить вектор весов и с его помощью классифицировать последующие объекты (13)

 
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Естествознание
Журналистика
Инвестирование
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Политэкономия
Право
Психология
Региональная экономика
Религиоведение
Риторика
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика
Прочее