Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Информационные технологии и моделирование бизнес-процессов

Технология анализа хранилищ данных (Data Mining)

Data Mining (добыча знаний, данных) - технология анализа хранилищ данных, основанный на методах искусственного интеллекта и инструментах поддержки принятия решений. В частности сюда входит нахождение трендов и коммерчески полезных зависимостей. Иногда используют термин "knowledge discovery"

(выявление знаний) - выявление скрытых структур (patterns) в хранилищах данных, чтобы превратить их в знания или термин "интеллектуальный анализ данных". Все эти термины являются синонимами.

Классическое определение технологии "добычи данных" (Data Mining) звучит следующим образом: это выявление в начальных ("сырых") данных - ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний. То есть информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной прежнему неизвестной, например, полученный показатель средних продаж не является таковым. Знания должны описывать новые связи между свойствами, предусматривать значения и характеристики одних параметров на основе других.

Основная цель Data Mining состоит в выявлении скрытых правил и закономерностей в больших массивах данных. В отличие от оперативной аналитической обработки данных (OLAP), в Data Mining основную задачу формулирования гипотез и выявления необычных шаблонов (закономерностей) переведены с человека на компьютер.

Фирмы Oracle, Microsoft, IBM т. Д. выпустили ряд продуктов (DarWin, Microsoft SQL Server 200, IBM Intelligent for Data, соответственно), реализующих алгоритмы Data Mining и позволяют автоматизировать процесс анализа данных.

Методы Data Mining позволяют выявлять стандартные закономерности:

o ассоциация (несколько событий связаны друг с другом, например при покупке пива очень часто покупают и чипсы или орешки)

o последовательность (цепочка связанных во времени событий, например новая квартира - новая мебель)

o кластеризация (отличается от классификации тем, что группы заранее не созданы. Используется для сегментации рынка и заказчиков);

o прогнозирования (базой служит историческая информация. Основывается на построении математических моделей).

Существуют два способа внедрения новой информационной технологии в локальные информационные структуры:

1. приспособления ее к организационной структуре предприятия;

2. модернизування организационной структуры с целью наиболее эффективного использования новой информационной технологии.

Первый способ дешевле и не требует больших изменений в организации деятельности предприятия. Однако эффект от его внедрения может быть незначительным. Второй способ требует больших капиталовложений, но обеспечивает качественно новый уровень деятельности предприятия или организации.

Приведенные ниже примеры из разных областей экономики демонстрируют основное преимущество методов Data Mining - обнаружение новых знаний, которые невозможно получить методами статистического, регрессионного анализа или эконометрики.

1. Клиенты компании с помощью одного из инструментов Data Mining были объединены в сегменты с похожими признаками. Это позволило проводить разную маркетинговую политику и строить отдельные модели поведения для каждого сегмента. Важнейшими факторами для распределения были: удаленность региона клиента, сфера деятельности, среднегодовые суммы операций, количество сделок за неделю.

2. Автоматический анализ банковской базы данных кредитных операций физических лиц обнаружил правила, по которым заемщикам отказывали в выдаче кредита. Решающими факторами, оказались: срок кредита, среднемесячный доход и расходы заемщика. В дальнейшем это учитывалось при экспресс-кредитовании.

3. При анализе базы данных клиентов страховой компании был установлен социальный портрет человека, страхует жизнь - это оказался мужчина 35-50 лет, имеющий двух и более детей и среднемесячный доход выше $ 2 000.

Выдвижение гипотез. Под гипотезой в данном случае будем понимать предположение о влиянии определенных факторов на исследуемую задачу. При этом форма этой зависимости в значения не имеет. То есть можно предположить, что на продажи влияет отклонение цены на товар от среднерыночной, но при этом не указывать, как именно этот фактор влияет на продажи. Для решения этой задачи и используется Data Mining. Например, для обработки данных об объемах продаж данного товара выдвигается гипотеза о влиянии фактора его отсутствия в торговой точке.

Автоматизировать процесс выдвижения гипотез не представляется возможным, по крайней мере, на сегодняшнем уровне развития технологий. Эту задачу должны решать эксперты - специалисты в данной области. С использованием их знаний о предмете, методом опроса накапливается максимальное количество гипотез / предположений.

Результатом этого шага будет список с описанием всех факторов. Например, для задачи прогнозирования спроса это может быть список следующего вида: сезон, день недели, объемы продаж за предыдущие недели, объемы продаж за аналогичный период прошлого года, рекламная компания, маркетинговые мероприятия, качество продукции, бренд, отклонение цены от среднерыночной, наличие данного товара у конкурентов, и тому подобное.

При решении определенной задачи необходимо создавать специализированный набор данных, причем их большое количество не оговаривает качество решения.

После подготовки таблицы с описанием факторов экспертно оценивается значимость каждого из факторов. Эта оценка не является окончательной, она служит отправным пунктом. В процессе анализа может оказаться, что фактор, который эксперты считали крайне важным, таковым по сути не является и, наоборот, незначащая с их точки зрения фактор может иметь значительное влияние. В любом случае, все варианты проанализировать сразу невозможно, нужно от чего-то отталкиваться, этой точкой и является оценка экспертов. К тому же, достаточно часто реальные данные подтверждают их оценку. Результатом этого шага может быть таблица следующего вида (табл.5.2).

Когда гипотезу выдвигает один эксперт, задача оценки значимости существенно упрощается. Однако, с ростом сложности системы, растет и сложность получения адекватной оценки экспертов.

Таблица 5.2. Пример экспертной оценки значимости факторов

Фактор

Оценка значимости (<100)

Сезон

100

День недели

80

Объемы продаж за предыдущие недели

100

Рекламная кампания

60

Маркетинговые мероприятия

40

Качество продукции

50

Отклонение цены от среднерыночной

60

Наличие данного товара у конкурентов

15

Часто мнения экспертов могут расходиться - возникает вопрос получения средних показателей из десятков мнений. Для этого существуют специальные математические методы - методы проведения сложных экспертиз: ранжирование, парное сравнение и другие.

Резюме

Интеллектуальный анализ информации часто рассматривают как естественное развитие концепции хранилищ данных, в котором накапливаются все необходимые данные для осуществления задач стратегического управления среднесрочного и долгосрочного периодов. Обслуживание информационных хранилищ заключается в: копировании баз данных, настройке, тиражировании, передаче устаревших баз данных в архив, управлении правами пользователей, создании и редактировании графических диаграмм баз данных и тому подобное.

Ключевым компонентом организации хранилищ данных является технология OLAP, которая базируется на построении и визуализации многомерных кубов данных с возможностью произвольного оперирования данными, содержащимися в кубе. OLAP должна соответствовать набору правил, которые были сформулированы автором реляционной модели данных Эдгаром Франком Коддом.

Data Mining (добыча знаний, данных) - технология анализа хранилищ данных, основанный на методах искусственного интеллекта и инструментах поддержки принятия решений. Функционирование Data Mining состоит в выявлении скрытых правил и закономерностей в больших массивах данных. В отличие от OLAP, в Data Mining основную задачу формулирования гипотез и выявления необычных шаблонов выполняет компьютер. Data Mining позволяет выявить новые знания, которые невозможно получить методами статистического, регрессионного анализа или эконометрики.

Ключевые слова

Хранилище данных, прогнозирования, оперативная база данных, анализ данных, OLAP-технологии, клиент, сервер ресурса, гипотеза, фактор, эксперт.

Вопросы и задания для обсуждения и самопроверки:

► Сформулируйте определение хранилища данных и наведите основные различия между хранилищем данных и базой данных.

► Организация информации в хранилищах данных.

► Определите, многомерное представление данных является удобным по табличное. Обоснуйте свой ответ.

► Что такое OLAP- технологии и OLAP-системы и где они используются в практической работе экономистов?

► Приведите правила OLAP в соответствии с группами.

► Назовите и охарактеризуйте составляющие OLAP-технологий.

► Какие виды закономерностей позволяют выявлять методы Data Mining. Приведите примеры.

► В чем заключаются преимущества технологии Data Mining и в каких областях человеческой жизнедеятельности ее целесообразно применять?

► Определите и объясните проблематику внедрения новых технологий на предприятии. Ответ сформулируйте в виде пунктов "за" и "против".

► Почему, по Вашему мнению, процесс выдвижения гипотез невозможно автоматизировать (по крайней мере, на сегодняшний время)?

 
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Естествознание
Журналистика
Инвестирование
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Политэкономия
Право
Психология
Региональная экономика
Религиоведение
Риторика
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика
Прочее