Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Информационные системы и технологии на предприятиях

Статистические методы Data Mining

Эти методы включают: предварительный анализ природы статистических данных (проверка гипотез стационарности, нормальности, независимости, однородности, оценка вида функции распределения, ее параметров); выявление связей и закономерностей (линейный и нелинейный регрессионный анализ, корреляционный анализ); многомерный статистический анализ (линейный и нелинейный дискриминантный анализ, кластерный анализ, компонентный анализ, факторный анализ); динамические модели и прогноз на основе временных рядов.

Статистические методы Data Mining подразделяются на четыре группы методов: дескриптивний анализ и описание исходных данных; анализ связей (корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ); многомерный статистический анализ (компонентный анализ, дискриминантный анализ, многомерный регрессионный анализ, канонические корреляции); анализ временных рядов (динамические модели и прогнозирование).

Кибернетические методы Data Mining

К этой группе относятся такие методы: эволюционное программирование; ассоциативная память (поиск аналогов, прототипов); нечеткая логика; деревья решений; системы обработки экспертных знаний, искусственные нейронные сети (распознавание, кластеризация, прогноз); генетические алгоритмы (оптимизация).

Нейронные сети (Neural Networks) - это класс моделей, основанных на аналогии с работой мозга человека и предназначаются для решения различных задач анализа данных после прохождения этапа обучения на данных.

Нейронные сети - это модели биологических нейронных сетей мозга, в которых нейроны имитируются однотипными элементами (искусственными нейронами).

Нейронная сеть может быть представлена направленным графом со взвешенными связями, в котором искусственные нейроны являются вершинами, а синаптические связи - дугами.

Среди сфер применения нейронных сетей - автоматизация процессов распознавания образов, прогнозирования показателей деятельности предприятия, медицинская диагностика, прогнозирование, адаптивное управление, создание экспертных систем, организация ассоциативной памяти, обработки аналоговых и цифровых сигналов, синтез и идентификация электронных систем.

С помощью нейронных сетей можно, например, предсказывать объемы продаж изделий, показатели финансового рынка, распознавать сигналы, конструировать самообучающиеся системы.

Нейронная сеть является совокупностью нейронов, из которых состоят слои. В каждом слое нейроны связаны с нейронами предыдущего и последующего слоев. Среди задач Data Mining, решаемые с помощью нейронных сетей, будем рассматривать следующие:

1. Классификация (обучение с учителем). Примеры задач классификации: распознавание текста, распознавание речи, идентификация лица.

2. Прогнозирования. Для нейронной сети задача прогнозирования может быть поставленной так: найти оптимальное приближение функции, заданной конечным набором входных значений.

3. Кластеризация (обучение без учителя). Примером задачи кластеризации может быть задача сжатия информации путем уменьшения размерности данных.

Генетические алгоритмы - разновидность эволюционных вычислений. Основателем генетических алгоритмов является Дж. Холланд. Суть их раскрывается в книге "Адаптация в естественных и искусственных системах".

Генетические алгоритмы (ГА) - это алгоритмы, позволяющие найти удовлетворительное решение для аналитически неразрешимых проблем через последовательный подбор и комбинирование параметров с использованием механизмов, напоминающих биологическую эволюцию.

ГА относятся к универсальных методов оптимизации, которые позволяют решать задачи различных типов (комбинаторные, общие задачи с ограничениями и без ограничений) и разной степени сложности. ГА характеризуются возможностью как однокри-материального, так и многокритериального поиска в информационном пространстве. Интеграция ГА и нейронных сетей помогает решать проблемы поиска оптимальных значений весов входов нейронов, а интеграция ГА и нечеткой логики дает возможность оп-тимізувати систему продукционных правил, которые могут быть использованы для управления.

Различные методы Data Mining характеризуются определенными свойствами. Среди основных свойств и характеристик методов Data Mining можно назвать точность, масштабируемость, способность к интерпретации, проверки, трудоемкость, гибкость, скорость и популярность.

Масштабируемость - свойство вычислительной системы, что обеспечивает развертку системных характеристик, например, скорости реакции, общей производительности при добавлении к ней вычислительных ресурсов.

Для достижения успеха в интеллектуальном анализе данных необходимо иметь четкое представление о цели анализа; собрать реле-вантні данные; выбрать адекватные методы анализа и проверить предпосылки их применения; выбрать программно-технологические и математические средства, реализующие эти методы; выполнить анализ и принять решение об использовании результатов. Общая схема использования методов Data Mining состоит из следующих этапов (рис. 8.8).

Рис, 8.8. Этапы интеллектуального анализа данных

На первом этапе выполняется осмысление поставленной задачи и уточнение целей, которые должны достигаться методами Data Mining, то есть формируется гипотеза (рис. 8.9). Гипотеза - частично обоснованная закономерность знаний, что служит для связи между различными эмпирическими фактами или для объяснения факта или группы фактов.

Важно правильно сформулировать цели и выбрать необходимые для их достижения методы, поскольку от этого зависит дальнейшая эффективность всего процесса. Необходимо подобрать параметры, которые наилучшим образом описывают объект. После выбора параметров данные могут быть представлены в виде таблицы. После подготовки таблицы с описанием параметров нужно оценить значимость каждого из них. Возможно, часть из них будет отсеяна в результате анализа.

Есть несколько методов сбора необходимых для анализа данных: 1) получение данных из учетных систем; 2) получение сведений из косвенных данных; 3) использование открытых источников; 4) проведение собственных маркетинговых исследований и мероприятий по сбору данных; 5) сбор данных вручную.

Второй этап заключается в приведении данных к форме, пригодной для применения методов Data Mining.

Третий этап - это применение методов Data Mining, сценарии которого могут быть различными и включать сложную комбинацию различных методов, особенно если методы позволяют проанализировать данные с разных позиций.

Следующий этап - проверка построенных моделей. Очень простой и часто используемый способ заключается в том, что все имеющиеся данные, которые необходимо анализировать, делятся на две группы различной размерности. На большей группе, применяя методы Data Mining, получают модели, а на меньшей - проверяют их. Разница в точности между тестовой и обучающей группами можно утверждать об адекватности построенной модели.

Последний этап - интерпретация полученных моделей экспертом в целях их использования для принятия решений, добавление новых правил и зависимостей в базы знаний. Этот этап часто подразумевает использование методов, находящихся на стыке технологии Data Mining и технологии экспертных систем.

Есть другие подходы по моделированию и реинжинирингу аналитического процесса в организации в целом. Особенность, например, ситемы KXEN заключается в том, что заложенный в ней математический аппарат на основе теории минимизации структурного риска позволяет практически полностью автоматизировать процесс построения моделей и на порядок увеличить скорость анализа. Отличия традиционного процесса Data Mining и подхода KXEN приведены на рис. 8.9. Таким образом, построение модели в KXEN с проекта исследования превращается в функцию анализа в режиме он-лайн в виде "вопрос-ответ". Причем ответы даются в тех терминах, в которых был сформулирован вопрос, и задача пользователя сводится к тому, чтобы задавать нужные вопросы и указывать данные для анализа. Среди преимуществ KXEN можно назвать: удобная и безопасная работа с данными; наглядность результатов моделирования, легкость для понимания: графическое отображение моделей; широкие возможности применения моделей: автоматическая генерация кода моделей разных языках, при этом модель сможет работать автономно.

Итак, интеллектуальный анализ данных позволяет автоматически, основываясь на большом количестве накопленных данных, генерировать гипотезы, которые могут быть проверены другими средствами анализа, например, OLAP.

Перед применением методов Data Mining начальные данные должны быть преобразованы. Вид преобразований этих данных зависит от методов.

Методы и инструменты Data Mining могут эффективно использоваться в различных сферах человеческой деятельности: бизнесе, медицине, науке, телекоммуникациях.

Среди подобных инструментов известны Darwin компании Thinking Machines, ныне входящий в Oracle Corporation, и Intelligent Miner for Data корпорации IBM. В последнее время намечается тенденция к интеграции возможностей Data Mining в серверы баз данных. Так, корпорация Microsoft реализовала некоторые алгоритмы в версии СУБД SQL Server 2000.

Важнейшим ресурсом современного предприятия, способным значительно повлиять на повышение его конкурентоспособности, является знание. Знания становятся четвертым фактором произ-

водства, а их значимость становится более приоритетной, чем другие ресурсы, капитал, труд.

OLAP, ВИ и Data Mining, основанные на методах статистической обработки, прогнозирования и визуализации, помогают анализировать структурированные данные. Более сложной является задача анализа неструктурированных данных.

 
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Естествознание
Журналистика
Инвестирование
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Политэкономия
Право
Психология
Региональная экономика
Религиоведение
Риторика
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика
Прочее