Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Информационные системы и технологии на предприятиях

-системы

Основное назначение OLAP-систем - поддержка аналитической деятельности, произвольных запросов пользовате-лей-аналитиков. OLAP является аналитическим инструментом и первоначально основывался на многомерных базах данных (ВБД). Они сконструированы специально для поддержки анализа количественных данных с многочисленным количеством измерений, содержащих данные в многомерном виде.

On-Line Analytical Processing (OLAP) - технология оперативной аналитической обработки данных, использующая методы и средства для сбора, хранения и анализа многомерных данных в целях поддержки процессов принятия решений.

В 1993 p. Е, Кодд опубликовал статью под названием "OLAP для пользователей-аналитиков: каким он должен быть". В этой работе были предложены основные концепции оперативной аналитической обработки и определены требования, которым должны удовлетворять продукты, позволяющие выполнять оперативную аналитическую обработку.

OLAP дает возможность организовать измерения в виде иерархии. Данные представлены в виде так называемых гиперкубов (кубов) - логических и физических моделей показателей, которые совместно используют измерения, а также иерархии в этих измерениях. Некоторые данные заранее агрегированные в БД, другие рассчитываются сразу.

OLAP-куб содержит базовые данные и информацию о измерения (агрегаты). Куб потенциально содержит всю информацию, необходимую для ответов на любые запросы.

Средства OLAP позволяют исследовать данные по различным измерениям. Пользователи могут выбирать, какие показатели анализировать, какие измерения и как отражать в кросс-таб-лице, поменять строки и столбцы pivoting, потом делать срезы, чтобы концентрироваться на определенной комбинации размерностей. Можно менять детализацию данных, двигаясь по уровням с помощью детализации и увеличения, а также кросс-детализацию через другие измерения.

Для поддержки ББД используются OLAP-серверы, оп-тимізовані для многомерного анализа и которые поставляются с аналитическими возможностями.

в настоящее время реляционные СУБД применяются для эмуляции ББД, они поддерживают многомерный анализ.

Причина возникновения OLAP для обработки запросов - это прежде всего обеспечение быстроты действий. Реляционные БД хранят сущности в отдельных нормализованных таблицах. Эта структура удобна для операционных БД (систем OLTP), но сложные много-табличные запросы в ней выполняются медленно. Удобной моделью для запросов есть пространственные БД.

Основное назначение OLAP-систем - поддержка информационно-аналитической деятельности, то есть произвольных запросов пользователь и в-а на літикі в. Если системы регламентированной отчетности отвечают на вопросы типа "суммарные затраты-могосподарств в i квартале 2007 г. на потребление товаров длительного пользования?", то OLAP призван дать ответы, скажем, на вопрос: "насколько надо обеспечить рост темпов повышения конечных потребительских расходов государственного сектора на индивидуальное потребление, чтобы превзойти темпы его расходы на коллективное потребление в полтора раза?" Цель OLAP-анализа - проверка потенциальных гипотез.

Анализируя макропоказатель, например, исполнение местных бюджетов, генерируется отчет, что определяет показатели конкретного района, региона в определенный момент времени. Таким образом, объем данных может быть представлен в виде трехмерного куба (рис. 8.6), грани которого - это массивы данных по показателям, регионами и время.

В процессе анализа каждый факт рассматривают как функцию от его характеристик. Совокупность этих характеристик может быть представлена в виде модели данных многомерного куба. Осями многомерной системы координат служат основные атрибуты бизнес-процесса, который исследуется. Каждый из массивов данных может содержать не просто перечень значений, а набор деревьев, или иерархию значений, где верхнее значение иерархии раскрывается данным, что находятся ниже.

По определению, предложенному Б. Коддом, многомерное концептуальное представление (multi-dimensional conceptual view) - это множественная перспектива, состоящую из нескольких независимых измерений, вдоль которых могут быть проанализированы определенные совокупности данных. Одновременный анализ по нескольким измерениям определяется как многомерный анализ.

OLAP - куб

Каждое измерение может быть представлено в виде иерархической структуры, а некоторые измерения могут иметь несколько видов иерархического представления. На пересечениях осей измерений (Dimensions) располагаются данные, количественно характеризующие анализируемые факты, - меры (Measures).

В каждом кубе обязательно присутствует иерархия времени. На верхнем уровне расположены года, затем - кварталы, месяцы, Дни.

Пользователь может разрезать куб по разным направлениям и получать сводные данные. Значение, щофіксуються вдоль измерений, называются членами замеры. Члены измерения используются как для разрезания куба, так и для фильтрации данных. Значения членов измерения отображаются в двумерном представлении куба как заголовки строк и столбцов.

Над гіперкубом могут выполняться следующие операции:

o срез (Slice) - формируется подмножество многомерного массива данных. Если рассматривать термин "срез" с позиции конечного пользователя, то чаще всего его роль выполняет двумерная проекция куба;

o вращения (Rotate) - изменение расположения измерений, представленных в отчете или на странице, которая отображается. Операция вращения может заключаться в перестановке местами строк и столбцов таблицы или перемещении измерений в столбцы или строки создаваемого отчета, что позволяет придавать ему желаемый вид. Кроме того, вращением куба данных является перемещение измерений, которые не входят в состав таблиц, на место измерений, представленных на странице, которая отображается, и наоборот (измерения, что не является табличным, становится новым измерением строки или измерением столбца);

o консолидация (Drill Up) и детализация (Drill Down) - операции, которые определяют переход вверх по направлению от детального (down) представление данных агрегированного (up) и наоборот, соответственно. Направление детализации (обобщения) может быть задан как по иерархии отдельных измерений, так и в связи с другими отношениями, установленными в пределах измерений.

Есть 12 правил, определяющих OLAP, в соответствии с концепцией Б. Кодда.

1. многогранность - OLAP-система на концептуальном уровне должна представлять данные в виде многомерной модели, что упрощает процессы анализа и восприятия информации.

2. Прозрачность - это способ организации данных, источники, средства обработки и хранения.

3. Доступность - OLAP-система должна предоставлять пользователю единую, согласованную и целостную модель данных, обеспечивая доступ к данным независимо от того, как и где они хранятся.

4. Постоянная производительность при разработке отчетов - производительность OLAP-систем не имеет очень уменьшаться при увеличении количества измерений, по которым выполняется анализ.

5. Клиент-серверная архитектура - OLAP-система должна быть способна функционировать в клиент-серверной среде, поскольку большинство данных, которые нужно обрабатывать, сохраняется децентрализовано. Серверный компонент инструмента OLAP должен быть достаточно интеллектуальным и позволять строить общую концептуальную схему на основе обобщения и консолидации различных логических и физических схем корпоративных БД для обеспечения эффекта прозрачности.

6. Равноправие измерений - OLAP-система должна поддерживать многомерную модель, в которой все измерения равноправны. При необходимости дополнительные характеристики могут быть предоставлены отдельным измерением, но такая возможность должна быть предоставлена любому измерению.

7. Динамическое управление разреженными матрицами - OLAP-система должна обеспечивать оптимальную обработку разреженных матриц. Скорость доступа должна сохраняться независимо от расположения ячеек данных и быть постоянной величиной для моделей, имеющих разное количество измерений и разную степень разреженности данных.

8. Поддержка распределенного режима доступа - OLAP-система должна предоставлять возможность работать нескольким пользователям совместно с одной аналитической моделью или создавать для них разные модели с единых данных. При этом возможны все операции.

9. Поддержка перекрестных операций - OLAP-система масс обеспечивать сохранение функциональных связей, описанных с помощью определенной формальной речи между ячейками ги-перкуба при выполнении любых операций среза, вращения, консолидации или детализации. Система должна автоматически выполнять преобразование установленных отношений, не требуя от пользователя их переопределения.

10. Интуитивная манипуляция данными - OLAP-система должна предоставлять способ выполнения операций среза, вращения, консолидации и детализации над гіперкубом без необходимости для пользователей осуществлять действия с интерфейсом. Измерения, определенные в аналитической модели, должны содержать всю необходимую информацию для выполнения операций.

11. Гибкие возможности получения отчетов - OLAP-система должна поддерживать различные способы визуализации данных, то есть отчеты должны подаваться в любом возможном виде.

Схема информационно-аналитической системы с OLAP-сервером

представление данных, которые загружаются из реляционной или многомерной БД на ПК клиента.

JOLAP - коллективная OLAP-API-инициатива, базирующаяся на Java, предназначенная для создания и управления данными и мета-данным на серверах OLAP.

MOLAP-cepeepu используют для хранения и управления данными многомерными БД. MOLAP использует БД, показывает результирующие данные, специальный вариант процессора пространственных БД. Данные хранятся в виде упорядоченных многомерных массивов. Такие массивы делятся на гіперку-бы и по счету.

В гиперкубе все ячейки хранятся в БД, имеют одинаковую размерность, то есть находятся в широкому базисе измерений.

В полікубі каждая ячейка хранится с собственным набором измерений, и связанные с этим сложности обработки перекладываются на внутренние механизмы системы.

Физические данные, представленные в многомерном виде, хранятся в плоских файлах. Куб представляется в виде одной плоской таблицы, в которую по строкам вписываются все комбинации членов всех измерений с соответствующими их значениям мер.

Преимущества использования многомерных БД в OLAP-системах:

o поиск и выборка данных осуществляются значительно быстрее, чем при многомерном концептуальном подходе на реля-онной БД, так как многомерная база данных денормалізована и априори содержит агрегированные показатели, обеспечивая оптиме-зированный доступ к ячейкам запросов и не требуя дополнительных преобразований при переходе от связанных таблиц в многомерной модели;

o многомерные БД поддерживают задачи включения в информационную модель разнообразных функций.

Недостатки использования многомерных БД в OLAP-системах:

o за счет денормализации и предварительно выполненной агрегации объем данных в многомерной БД отвечает за оценку-

12. Неограниченная размерность и число уровней агрегации - одновременно может использоваться около 20 измерений.

В 1995 p. Е. Кодд до этих правил добавил еще следующие шесть:

1. Пакетное получение данных - OLAP-система должна эффективно обеспечивать доступ к внутренних и внешних данных.

2. Поддержка всех моделей OLAP-анализа - OLAP-система должна поддерживать все четыре модели анализа данных, определенные Е. Коддом: категориальную, тлумачну, умозрительную и стереотипное.

3. Обработка ненормалізованих данных - OLAP-система должна быть интегрирована с ненормалізованими источниками данных. Модификации данных, выполненные в среде OLAP, не должны приводить к изменениям данных, хранящихся во внешних системах.

4. Сохранение результатов OLAP: хранение их отдельно от исходных данных - OLAP-система, функционирующая в режиме чтения-записи, после модификации исходных данных должен хранить результаты отдельно. Обеспечивается безопасность начальных данных.

5. Исключение отсутствующих значений - OLAP-система должна исключать все отсутствующие значения. Отсутствующие значения должны отличаться от нулевых значений.

6. Обработка отсутствующих значений - OLAP-система должна игнорировать все недостающие значения без учета их источники.

Кроме того, эти правила делятся на четыре группы: В, S, R и D. Основные особенности включают следующие правила:

o многомерное концептуальное представление данных (правило 1);

o интуитивное манипулирование данными (правило 10);

o доступность (пра вило 3) ;

o пакетное получение против интерпретации (правило 13);

o поддержка всех моделей OLAP-анализа (правило 14);

o архитектура клиент - сервер (правило 5);

o прозрачность (правило 2);

o многопользовательский доступ (правило 8). Специальные особенности S:

o обработка ненормалізованих данных (правило 15);

o сохранение результатов OLAP: хранение их отдельно от исходных данных (правило 16);

o исключение отсутствующих значений (правило 17);

o обработка отсутствующих значений (правило 18). Особенности представления отчетов R:

o гибкость формирования отчетов (правило 11);

o стандартная производительность отчетов (правило 4);

o автоматическая настройка физического уровня (правило 7). Управление измерениями D:

o универсальность измерений (правило 6);

o неограниченное число измерений и уровней агрегации (правило 12);

o неограниченные операции между розмінностями (правило 9).

Производители OLAP-систем обеспечивают скорость выполнения запросов в пределах 1-5 сек. Архитектура OLAP-систем включает две основные компоненты:

1. OLAP-сервер - обеспечивает хранение данных, выполнение над ними необходимых операций и формирование многомерной модели на концептуальном уровне. В настоящее время OLAP-серверы объединяют с хранилищами данных или витринами данных.

2. OLAP-клиент - предоставляет пользователю интерфейс к многомерной модели данных, обеспечивая его возможностью удобно манипулировать данными для выполнения задач анализа.

OLAP-серверы скрывают от конечного пользователя способ реализации многомерной модели. Они формируют гиперкуб, с которым пользователи с помощью OLAP-клиента выполняют все необходимые манипуляции, анализируя данные (рис. 8.7).

Все компоненты системы, начиная с источников данных в автоматизированных рабочих мест аналитиков, традиционно распределяются в корпоративной сети.

Выделяют и используют три основных способа реализации OLAP-сервера для реализации многомерной модели:

1) MOLAP - многомерные БД;

2) ROLAP - реляционные БД;

3) HOLAP - многомерные и реляционные БД.

В литературе также встречаются аббревиатуры DOLAP и JOLAP. DOLAP - настольный (desktop OLAP. Простая в использовании OLAP-система, предназначенная для локального анализа и ням Кодда в 2,5-100 раз меньшем объема исходных детализированных данных;

o информационный гиперкуб является очень разреженным, поскольку данные хранятся в упорядоченном виде, неопределенные значения удается удалить только за счет выбора оптимального порядка сортировки, который позволяет организовать данные в большие непрерывные группы. Приходится находить компромисс между быстродействием и излишеством дискового пространства, что занимается базой данных;

o многомерные БД чувствительны к изменениям в многомерной модели. При добавлении нового измерения приходится менять структуру всей БД, что приводит к большим затратам времени.

Скорость выполнения запросов в MOLAP определяется только правильностью построения многомерной базы. Однако в этом случае многомерная база чрезмерная, поскольку копирует все данные из хранилища.

На основе анализа преимуществ и недостатков многомерных БД можно предусмотреть условия, при которых их использование является эффективным:

o объем исходных данных для анализа не больше, чем несколько гигабайт - высокий уровень агрегации данных;

o набор информационных измерений стабилен;

o время ответа системы на нерегламентированные запросы является наиболее критичным параметром;

o применяют сложные встроенные функции для выполнения кросмірних вычислений над ячейками гиперкуба, в том числе функций пользователя.

ROLAP-cepeepu используют реляционные БД. По выражению Б. Кодда, реляционные БД является наиболее подходящей технологией для хранения данных. ROLAP функционирует непосредственно с реляційним хранилищем, фактами и таблицами. Для хранения агрегатов создаются дополнительные реляционные таблицы. В настоящее время распространены две основные схемы реализации многомерного представления данных с помощью реляционных таблиц: "звезда" и "снежинка". Основными составляющими таких схем является денор-малізована таблица фактов (Fact Table) и множество таблиц измерений (Dimension Tables).

Таблица фактов, как правило, содержит сведения об объектах или событиях, совокупность которых будет анализироваться далее. Есть четыре типа фактов, которые чаще всего встречаются. Они связаны:

o с транзакциями (Transaction facts) и основаны на отдельных событиях;

o моментальными снимками (Snapshot facts) и основываются на состоянии объекта в определенные моменты времени;

o элементами документа (Line-item facts) и основаны на документе и содержит подробную информацию об элементах этого документа;

o событиями или состоянием объекта (Event or state facts) и представляют возникновения события без деталей о ней.

Таблица фактов, как правило, содержит уникальный составной ключ, объединяющий первичные ключи таблиц измерений. Как ключевые, так и некоторые неключові поля должны соответствовать измерением гиперкуба. Помимо этого таблица фактов содержит одно или несколько числовых полей, на основании которых будут получены статистические данные.

Для многомерного анализа пригодны таблицы фактов, содержащие как можно более подробные данные, соответствующие членам нижних уровней иерархии соответствующих измерений. В таблице фактов нет никаких сведений о том, как группировать записи при вычислении агрегатных данных.

Таблицы измерений содержат неизменяемые либо редко изменяемые данные. В большинстве случаев этими данными является одной записи для каждого члена нижнего уровня иерархии в измерении. Таблицы измерений содержат как минимум одно описательное поле и одно ключевое поле из целых чисел для однозначной идентификации члена измерения. Если измерения соответствующей таблицы содержит иерархию, то такая таблица также может содержать поля, указывая на "отца" данного члена в этой иерархии. Каждая таблица измерений должна находиться относительно "один - ко - многим" с таблицей фактов.

Скорость увеличения таблиц измерений должна быть незначительной по сравнению со скоростью роста таблицы фактов.

В сложных задачах с иерархическими измерениями используют расширенную схему "снежинка" (Snowfiake Schйma). В этих случаях отдельные таблицы фактов создаются для возможных сочетаний уровней обобщения различных измерений. Это дает возможность повышать производительность, но часто приводит к избыточности данных и значительных осложнений в структуре базы данных.

Увеличение количества таблиц фактов в базе данных определяется не только множественностью уровней различных измерений, но и тем обстоятельством, что в целом факты имеют разную множество измерений. При абстрагировании от отдельных измерений пользователь должен получать проекцию максимально полного гиперкуба, причем не всегда значения показателей в ней должны быть результатом элементарного суммирования. Итак, из-за большого количества независимых измерений необходимо поддерживать множество таблиц фактов, соответствующих каждому возможному сочетанию выбранных в запросе измерений, что также приводит к неэкономного использования внешней памяти, увеличение времени загрузки данных в БД схемы "звезды" из внешних источников и трудностей администрирования.

Преимущества использования реляционных БД в OLAP-системах:

o корпоративные хранилища данных реализуются средствами реляционных СУБД, и инструменты ROLAP позволяют производить анализ непосредственно над ними;

o в случае переменной размерности задачи ROLAP-системы с динамическим представлением размерности являются оптимальным решением, поскольку в них такие модификации не требуют физической реорганизации БД;

o реляционные СУБД обеспечивают значительно более высокий уровень защиты данных и хорошие возможности разграничения прав доступа.

Недостатки использования реляционных БД в OLAP-системах.

Главный недостаток ROLAP сравнению с многомерными СУБД - меньшая производительность.

Для обеспечения производительности, сравнимой с MOLAP, реляционные системы требуют тщательной проработки схемы базы данных и настройки индексов, то есть усилий со стороны администраторов БД. Только при условии использования схем типа "звезда" производительность хорошо настроенных реляционных систем может приблизиться к производительности систем на основе многомерных баз данных.

Особым случаем ROLAP есть ROLAP реального времени (Realtime ROLAP). В R-ROLAP для хранения агрегатов не создаются дополнительные реляционные таблицы, а агрегаты рассчитываются в момент совершения запроса. Многомерный запрос к OLAP-системы автоматически преобразуется в SQL-запрос к реляционных данных.

HOL АР-серверы, использует гибридную архитектуру, которая объединяет технологии ROLAP и MOLAP. В отличие от MOLAP, что работает лучше, когда данные являются плотными, серверы ROLAP показывают лучшие параметры в тех случаях, когда данные изреженные. Серверы HOLAP применяют подход ROLAP для разреженных областей многомерного пространства и подход MOLAP - для плотных областей. Серверы HOL АР разделяют запрос на несколько подзапросов, направляют их к соответствующим фрагментам данных, комбинируют результаты, а затем предоставляют результат пользователю.

Итак, HOLAP использует реляционные таблицы для хранения базовых данных и многомерные таблицы для агрегатов. На практике именно гибридная модель применяется чаще всего, поскольку за счет распределения нагрузки на многомерный и реляционный серверы удается достичь оптимальной производительности при выполнении аналитических запросов.

MOLAP лучше всего подходит для небольших наборов данных, он быстро рассчитывает агрегаты и возвращает ответы, но при этом генерируются огромные объемы данных. ROLAP оценивается как более масштабируемое решение, что использует небольшое пространство. Скорость обработки значительно снижается.

DOLAP-приложения также успешно развиваются. Сюда можно отнести, например, продукты от Brio Software и Business Objects. Настольные системы предназначены для аналитической обработки небольших объемов данных без выполнения сложных аналитических исследований. Функциональность настольных приложений, как правило, ограничивается возможностями визуального представления данных, вращения и выполнения срезов куба.

 
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Естествознание
Журналистика
Инвестирование
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Политэкономия
Право
Психология
Региональная экономика
Религиоведение
Риторика
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика
Прочее