Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Информационные системы и технологии на предприятиях

Интеллектуальные технологии Data Mining и Text Mining

Интеллектуальный анализ данных (ИАД, Data Mining), или разведка данных - термин, применяемый для описания получения знаний в базах данных, исследования данных, обработки образцов данных, очистки и сбора данных. Это процесс выявления корреляции, тенденций, шаблонов, связей и категорий.

Термин Data Mining получил название от двух понятий: данные - data и переработка сырого материала (горной руды) - mining.

Data Mining - предметная область" возникшая и развивающаяся на базе таких наук как прикладная статистика, распознавание образов, искусственный интеллект, теория баз данных и т.д.

Возникновение и развитие Data Mining обусловлены различными факторами, среди которых вирізняємо основные: совершенствование программно-аппаратного обеспечения; совершенствование технологий хранения и записи данных; накопление большого количества ретроспективных данных; совершенствование алгоритмов обработки информации.

Сущность и цель технологии Data Mining можно описать так: это технология, предназначенная для поиска в больших информационных массивах данных неочевидных, объективных, полезных на практике закономерностей. ИАД осуществляется посредством использования технологий распознавания шаблонов, а также статистических и математических методов.

При разведке данных многократно выполняются операции и преобразования над "сырыми" данным (отбор признаков, стратификация, кластеризация, визуализация и регрессия), которые предназначены для нахождения:

o структур, которые интуитивно понятны для людей и лучше раскрывают суть бизнес-процессов, лежащих в основе их протекания;

o моделей, которые могут предсказать результат или значение определенных ситуаций, используя исторические или субъективные данные.

Интеллектуальный анализ данных - процесс автоматического поиска скрытых закономерностей или взаимосвязей между переменными в больших массивах необработанных данных, подразделяется на задачи классификации, моделирования и прогнозирования. Классическое определение этого термина дал в 1996 г. один из основателей этого направления Г. Пятецкий-Шапиро.

Data Mining - это процесс обнаружения в необработанных данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретаций знаний, необходимых для принятия решений в различных сферах деятельности.

По определению SAS Institute, Data Mining - это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (patterns) с целью достижения преимуществ в бизнесе.

По определению Gartner Group, Data Mining - это процесс, цель которого - выявлять новые корреляции, образцы и тенденции в результате просеивания большого объема данных с использованием методик распознавания образцов и статистических и математических методов.

В основу технологии Data Mining положена концепция шаблонов (patterns), которые являются закономерностями, которые присущи выборкам данных и могут быть поданы в форме, понятной человеку.

Задачи Data Mining:

1. Классификация (Classification) - выявляются признаки, которые характеризуют группы объектов исследуемого набора данных - классы; по этим признакам новый объект можно отнести к тому или иному классу. Для решения задач классификации могут использоваться методы: ближайший сосед (Nearest Neighbor); к-найближий сосед (k-Nearest Neighbor); байе-совские сети (Bayesian Networks); индукция деревьев решений; нейронные сети (neural networks).

2. Кластеризация (Clustering) - результатом ее является разделение объектов на группы.

3. Ассоциация (Associations) - находят закономерности между связанными событиями в наборе данных. Наиболее известный алгоритм решения задачи поиска ассоциативных правил алгоритм Аргіогі.

4. Последовательность (Sequence), или последовательная ассоциация (sequential association), - дает возможность найти временные закономерности между транзакциями. Задание последовательности подобное ассоциации, но ее целью является установление закономерностей между событиями, связанными по времени, т.е. последовательность определяется высокой вероятностью цепочки связанных по времени событий.

5. Прогнозирование (Forecasting) - на основе особенностей исторических данных оцениваются будущие значения показателей. Применяются методы математической статистики, нейронные сети и т.д.

6. Определение отклонений (Deviation Detection), анализ отклонений или выбросов - выявление и анализ данных, больше всего отличаются от общей численности данных, выявление нехарактерных шаблонов.

7. Оценивание (Estimation) - сводится к прогнозу непрерывных значений признаков.

8. Анализ связей (Link Analysis) - задача нахождения зависимостей в наборе данных.

9. Визуализация (Visualization, Graph Mining) - создается графический образ анализируемых данных. Для решения задач визуализации используются графические методы, показывающие наличие закономерностей в данных.

10. Подведение итогов (Summarization) - описание конкретных групп объектов с помощью анализируемого набора данных.

Указанные выше задачи делятся по назначению на описательные и предиктивні.

Описательные, или дескриптивні (descriptive), задачи, связанные с улучшением понимания анализируемых данных. Ключевой момент в таких моделях - простота и прозрачность результатов для восприятия человеком. К такому типу задач относятся кластеризация и поиск ассоциативных правил.

Решение предиктивних (predictive), или прогнозирующих, задач делится на два этапа. На первом этапе на основании набора данных с известными результатами строится модель. На втором этапе она используется для прогноза результатов на основании новых наборов данных. Требуется, чтобы построенные модели работали максимально точно. К этому типу задач относятся задачи классификации и регрессии. Сюда можно отнести и задачу поиска ассоциативных правил, если результаты ее решения могут быть использованы для прогноза появления некоторых событий.

По способам решения задачи разделяют на такие, которые решают с помощью учителя и без его помощи. Категория обучение с учителем представлена такими задачами Data Mining: классификация, оценка, прогнозирование, категория обучение; без учителя - задачей кластеризации.

В случае решения с помощью учителя задача анализа данных решается в несколько этапов. Сначала с помощью конкретного алгоритма Data Mining строится модель анализируемых данных - классификатор. Затем классификатор поддается обучению. Другими словами, проверяется качество его работы и, если она неудовлетворительная, происходит дополнительное обучение классификатора. Так продолжается до тех пор, пока не будет достигнуто необходимого уровня качества или не станет понятно, что выбранный алгоритм не работает корректно с данными, или данные не имеют структуры, способной проявиться. К этому типу задач относятся задачи классификации и регрессии.

Решение без помощи учителя объединяет задачи, проявляют описательные модели, например, закономерности во временных рядах макропоказателей. Очевидно, если эти закономерности существуют, то модель имеет их проявить. Преимуществом этих задач является возможность их решения без каких-либо предварительных знаний о данных анализа. К ним относятся кластеризация и поиск ассоциативных правил.

 
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Естествознание
Журналистика
Инвестирование
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Политэкономия
Право
Психология
Региональная экономика
Религиоведение
Риторика
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика
Прочее