Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Информационные системы и технологии на предприятиях

Модели Data Mining

Цель технологии Data Mining - нахождения в данных таких закономерностей, которые не могут быть обнаружены традиционными методами. Есть два вида моделей: предик-нормативные и описательные.

Предиктивні модели строятся на основании набора данных с известными результатами. Они используются для прогноза результатов на основании других наборов данных. Требуется, чтобы модель работала максимально точно, была статистически значимой и оправданной. К ним относятся модели классификации - описывают правила или набор правил, согласно которым можно отнести описание любого нового объекта к одному из классов. Такие правила строятся на основании информации о существующих объектах путем разделения их на классы; модели последовательностей - описывают функции, позволяющие прогнозировать изменение параметров. Они строятся на основании данных о изменении определенного параметра за прошедший период времени.

Описательные (descriptive) модели связаны с зависимостями в наборе данных, взаимного влияния различных факторов, то есть на построении эмпирических моделей различных систем. Ключевой момент в таких моделях - легкость и прозрачность для восприятия человеком. Возможно, найденные закономерности будут специфической чертой именно конкретных исследуемых данных и больше нигде не встретятся, но это все может быть полезным. К ним относятся такие виды моделей:

o кластеризации - описывают группы (кластеры), на которые можно разделить объекты, данные о которых подвергаются анализу. Группируются объекты (наблюдений, событий) на основе данных (свойств), описывающих сущность объектов. Объекты внутри кластера должны быть подобными друг друга и отличаться от объектов, вошедших в состав других кластеров;

o исключений - описывают исключительные ситуации в записях, которые резко отличаются от основной множества записей;

o итоговые (результатные) - выявление ограничений на данных массива анализа. Подобные ограничения важны для понимания данных массива, то есть это новое знание, добытое в результате анализа. Таким образом, Data Summarization - это нахождение каких-либо фактов, которые справедливы для всех или почти всех записей в выборке данных, что изучается, но довольно редко встречались во всем многообразии записей такого же формата;

o ассоциации - выявление закономерностей между связанными событиями.

Для построения рассмотренных моделей используются различные методы и алгоритмы Data Mining.

Большинство аналитических методов, что используются в технологии Data Mining - это математические алгоритмы и методы. В частности к методам и алгоритмам Data Mining относятся искусственные нейронные сети, деревья решений, символьные правила, методы ближайшего соседа и k-ближайшего соседа, метод опорных векторов, байєсовські сети, линейная регрессия, корреляционно-регре-чаев анализ, иерархические методы кластерного анализа, неієрар-хічні методы кластерного анализа, в частности алгоритмы /с-среди-них и к-медиа мы, методы поиска ассоциативных правил, метод ограниченного перебора, эволюционное программирование и генетические алгоритмы, различные методы визуализации данных и т.д.

В базовых методов Data Mining относятся также подходы, использующие элементы теории статистики. Основная их идея сводится к корреляционного, регрессионного и других видов статистического анализа. Основным недостатком их является усреднение значений, что приводит к потере информативности данных. Это в свою очередь вызывает уменьшение количества знаний, которые приобретаются.

Основным способом исследования задач анализа данных является их отражение формализованной языке и их последующий анализ с помощью модели.

Классификация стадий Data Mining, Data Mining состоит из нескольких фаз: 1) выявление закономерностей (свободный поиск); 2) использование выявленных закономерностей для прогноза неизвестных значений (прогностическое моделирование); 3) анализ исключений - стадия предназначена для выявления и объяснения аномалий, найденных в закономерностях.

Классификация методов Data Mining. Все методы Data Mining подразделяются на две группы по принципу работы с исходными обучающими данными: 1) данные после Data Mining хранятся кластерный анализ, метод ближайшего соседа, метод ближайшего соседа, рассуждение по аналогии (традукцією);

2) данные детализируются для дальнейшей обработки, то есть необходимым является выявление и использование формализованных закономерностей или дистилляция шаблонов.

При технологии дистилляции шаблонов один образец (шаблон) информации извлекается из исходных данных и превращается в определенные формальные конструкции, вид которых зависит от метода Data Mining. Этот процесс происходит на стадии свободного поиска, в первой группе методов эта стадия отсутствует. На стадиях прогностического моделирования и анализа исключений используются результаты стадии свободного поиска. Методы этой группы: логические методы; методы визуализации; методы кросс-табуляции; методы, основанные на уравнениях.

Логические методы, или методы логической индукции, включают нечеткие запросы и анализы, символьные правила, деревья решений, генетические алгоритмы.

Методы этой группы пригодны для интерпретации. Они поддерживают найденные закономерности в прозрачном виде с точки зрения пользователя. Методы кросс-табуляции обеспечивают поиск шаблонов.

Методы на основе уравнений выражают существующие закономерности в виде математических выражений, уравнений. Основные методы этой группы: статистические методы и нейронные сети.

Статистические методы чаще всего применяются для решения задач прогнозирования. Есть много методов статистического анализа данных, например, корреляционно-регрессионный анализ, корреляция рядов динамики, выявление тенденций динамических рядов, гармонический анализ.

Другая классификация разделяет все разнообразие методов Data Mining на две группы: статистические и кибернетические методы. Эта схема основана на различных подходах к обучению математическим моделям.

 
< Пред   СОДЕРЖАНИЕ   След >
 

Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Естествознание
Журналистика
Инвестирование
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Политэкономия
Право
Психология
Региональная экономика
Религиоведение
Риторика
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика
Прочее