Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Информационные системы и технологии на предприятиях

классификации и регрессии

Во время анализа часто необходимо определить, к какому из известных классов относят исследуемые объекты, то есть как их классифицировать.

Задачу классификации рассматривают как задачу определения значения одного из параметров анализируемого объекта на основании значений других параметров. Исследуемый параметр часто называют зависимой переменной, а параметры, участвующих в его определении - независимыми переменными.

Задача классификации и регрессии решается в два этапа. На первом выделяется обучающая выборка. В нее входят объекты, для которых известны значения как независимых, так и зависимых переменных.

На основании обучающей выборки строится модель определения значения зависимой змінної. ее часто называют функцией классификации или регрессии. Для получения максимально точной функции к обучающей выборки предъявляются следующие основные требования:

o количество объектов, входящих в выборку, должно быть достаточно большим;

o в выборку должны входить объекты, представляющие все возможные классы в задаче классификации или всю область значений в задаче регрессии;

o для каждого класса в задаче классификации или каждого интервала области значений в задаче регрессии выборка должна содержать достаточное количество объектов.

На втором этапе построенную модель применяют к объектам анализа. Задача классификации и регрессии имеет геометрическую интерпретацию.

поиска ассоциативных правил

Поиск ассоциативных правил является распространенным применением Data Mining. Суть задачи заключается в определении наборов объектов, часто встречающихся в информационных массивах. Эта задача является частным случаем задачи классификации.

При анализе востребованной является информация о последовательности происходящих событий. При выявлении закономерностей в таких последовательностях можно с определенной долей вероятности предсказывать появление событий в будущем, что дает возможность принимать более правильные решения. Такая задача является разновидностью задачи поиска ассоциативных правил и называется секвенціональним анализом.

Он широко используется, например, в телекоммуникационных компаниях для анализа данных об авариях на различных узлах сети.

кластеризации

Задача кластеризации заключается в разделении объектов на группы сходных объектов, называемых кластерами (cluster), то есть совокупности лиц, предметов. Задачи разделения множества элементов на кластеры называют кластер-ным анализом.

Кластеризация может применяться практически в любой сфере, где необходимо исследование экспериментальных или статистических данных.

Для задачи кластеризации характерно отсутствие каких-нибудь различий между переменными и объектами. Кластерный анализ добавляет возможность рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы информации, делать их компактными.

Следует отметить некоторые особенности, присущие задачи кластеризации.

Решение зависит от природы объектов данных и их атрибутов), а также от представления кластеров и предсказуемых отношений объектов данных и кластеров. Так, необходимо учитывать такие свойства, как возможность/невозможность принадлежности объектов нескольким кластерам. Необходимо определение самого понятия принадлежности кластера: однозначная вероятность принадлежности, нечеткая степень принадлежности.

2) данные детализируются для дальнейшей обработки, то есть необходимым является выявление и использование формализованных закономерностей или дистилляция шаблонов.

При технологии дистилляции шаблонов один образец (шаблон) информации извлекается из исходных данных и превращается в определенные формальные конструкции, вид которых зависит от метода Data Mining. Этот процесс происходит на стадии свободного поиска, в первой группе методов эта стадия отсутствует. На стадиях прогностического моделирования и анализа исключений используются результаты стадии свободного поиска. Методы этой группы: логические методы; методы визуализации; методы кросс-табуляции; методы, основанные на уравнениях.

Логические методы, или методы логической индукции, включают нечеткие запросы и анализы, символьные правила, деревья решений, генетические алгоритмы.

Методы этой группы пригодны для интерпретации. Они поддерживают найденные закономерности в прозрачном виде с точки зрения пользователя. Методы кросс-табуляции обеспечивают поиск шаблонов.

Методы на основе уравнений выражают существующие закономерности в виде математических выражений, уравнений. Основные методы этой группы: статистические методы и нейронные сети.

Статистические методы чаще всего применяются для решения задач прогнозирования. Есть много методов статистического анализа данных, например, корреляционно-регрессионный анализ, корреляция рядов динамики, выявление тенденций динамических рядов, гармонический анализ.

Другая классификация разделяет все разнообразие методов Data Mining на две группы: статистические и кибернетические методы. Эта схема основана на различных подходах к обучению математическим моделям.

Статистические методы Data Mining. Эти методы включают: предварительный анализ природы статистических данных (проверка гипотез стационарности, нормальности, независимости, однородности, оценка вида функции распределения, ее параметров); выявление связей и закономерностей (линейный и нелинейный регрессионный анализ, корреляционный анализ); многомерный статистический анализ (линейный и нелинейный дискриминантный анализ, кластерный анализ, компонентный анализ, факторный анализ); динамические модели и прогноз на основе временных рядов.

Статистические методы Data Mining подразделяются на четыре группы методов: дескриптивний анализ и описание исходных данных; анализ связей (корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ); многомерный статистический анализ (компонентный анализ, дискриминантный анализ, многомерный регрессионный анализ, канонические корреляции); анализ временных рядов (динамические модели и прогнозирование).

Кибернетические методы Data Mining. К этой группе относятся такие методы: эволюционное программирование; ассоциативная память (поиск аналогов, прототипов); нечеткая логика; деревья решений; системы обработки экспертных знаний, искусственные нейронные сети (распознавание, кластеризация, прогноз); генетические алгоритмы (оптимизация).

Нейронные сети (Neural Networks) - это класс моделей, основанных на аналогии с работой мозга человека и предназначаются для решения различных задач анализа данных после прохождения этапа обучения на данных.

Нейронные сети - это модели биологических нейронных сетей мозга, в которых нейроны имитируются однотипными элементами (искусственными нейронами).

Нейронная сеть может быть представлена направленным графом со взвешенными связями, в котором искусственные нейроны являются вершинами, а синаптические связи - дугами.

Среди сфер применения нейронных сетей - автоматизация процессов распознавания образов, прогнозирования показателей деятельности предприятия, медицинская диагностика, прогнозирование, адаптивное управление, создание экспертных систем, организация ассоциативной памяти, обработки аналоговых и цифровых сигналов, синтез и идентификация электронных систем.

С помощью нейронных сетей можно, например, предсказывать объемы продаж изделий, показатели финансового рынка, распознавать сигналы, конструировать самообучающиеся системы.

Нейронная сеть является совокупностью нейронов, из которых состоят слои. В каждом слое нейроны связаны с нейронами

 
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Естествознание
Журналистика
Инвестирование
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Политэкономия
Право
Психология
Региональная экономика
Религиоведение
Риторика
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика
Прочее