Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Информационные технологии и моделирование бизнес-процессов

Жизненный цикл данных. Сбор и систематизация данных

Данные представляют собой способ представления, хранения и элементарных операций обработки информации. Данные - это основа информации. Понятие "данные" - относительно новый срок. Обычно данные являются входной информацией для информационного процесса.

Данные - сведения, необходимые для формулирования выводов и принятия решений

Данные, как вещество или энергию, можно собирать, обрабатывать, хранить, изменять форму их представления. Они могут создаваться, уничтожаться, многократно использоваться. Главной особенностью данных сегодня является то, что их становится очень много. При массовом применении компьютеров возникла гигантское количество источников данных. Для примера можно взять объем данных во всемирной сети Интернет, увеличивается ежеминутно.

Ключевым понятием манипулирования данными является структура типа "файл", представляющий собой множество однотипных элементов (записей). Также файл занимает определенный участок на носители памяти и характеризуется именем, типом и другими атрибутами. В свою очередь запись - это структура, которая состоит из полей (минимальной структуры данных).

Основными этапами жизненного цикла данных является возникновение, хранения, применения и уничтожения. Уничтожение, с точки зрения жизненного цикла данных, не представляет интереса, поскольку причиной удаления является потеря информативности данных. Фаза использования данных включает три этапа:

o поиск;

o обработку;

o анализ.

Результатом использования данных является информация.

Существует несколько методов сбора, необходимых для анализа данных:

1. Учетные системы. Как правило, в учетных системах механизмы построения отчетов и экспорта данных, поэтому получение нужной информации является относительно несложной операцией.

2. Косвенные данные. О факторах можно составить оценку и по косвенным признакам. Например, реальное финансовое положение жителей определенного региона можно оценить следующим образом. В большинстве случаев товары с одинаковым назначением (но разной цене) делятся на группы: товары для покупателей с низким уровнем достатка, средним и высоким. Если проанализировать отчет о продажах товара в нужном регионе с точки зрения пропорционального распределения суммы продаж для каждой категории достатка покупателей, то можно предположить, что чем больше доля от продажи дорогих изделий из одной товарной группы, тем больше средняя платежная способность жителей данного региона.

3. Открытые источники. Большое количество данных имеется в открытых источниках, таких как статистические выборки, отчеты корпораций, опубликованные результаты маркетинговых исследований и т.

4. Проведение независимых маркетинговых исследований и аналогичных мероприятий по сбору данных. Это может быть достаточно дорогим способом, однако, такой вариант сбора данных не исключен.

5. Внутренние данные. Информация заносится в базу за разного рода экспертным оценкам сотрудниками организации. Трудоемкий метод.

Собранные данные преобразуются к единому формату, например, таблиц Excel, текстовых файлов, или компонентов произвольной базы данных. Одной из важных действий при этом является определение способа представления данных. Как правило, выбирают один из следующих видов - число, строка, дата, логическая переменная (да / нет). Определить способ представления (формализовать) некоторые данные бывает легко - например, объем продаж в рублях - это определенное число. Но, как правило, возникает ситуация, когда представления фактора неизвестен. Чаще всего такие проблемы возникают с качественными характеристиками. Например, известно, что на объемы продаж влияет качество товара (как для продажи бытовой техники или одежды).

Качество - сложное понятие, и если этот показатель является важным, то необходимо ввести способ его формализации. Например, определять качество по количеству брака на тысячу единиц продукции, или экспертно оценивать, разбив на несколько категорий - отлично / хорошо / удовлетворительно / плохо.

Также данные должны быть унифицированными - одни и те же данные везде должны описываться одинаково. Часто при добыче знаний основное внимание уделяют механизмам анализа данных, не считая важность предварительной обработки и очистки данных. Очевидно, что некорректные исходные данные приводят к некорректным выводам. Отметим, что в большинстве случаев источником информации для аналитических систем является хранилище данных, в котором аккумулируются сведения из разнородных источников, поэтому острота проблемы существенно возрастает.

Для исследования процессов различной природы данные должны быть подготовлены специальным образом. Остановимся подробнее на двух типах данных: упорядоченных и неупорядоченных. Упорядоченные данные нужны для решения задач прогнозирования - когда определяют ход того или иного процесса в будущем на основе имеющихся хронологических данных. Как правило, одним из параметров выступает дата или время, однако могут использоваться произвольные отсчета, например, показания счетчиков, снятые с определенной периодичностью.

Для упорядоченных данных (временные ряды), каждому столбцу соответствует один фактор, а в каждую строку заносятся упорядоченные по времени события с единым интервалом между строками. Для упрощения восприятия данных не допускается наличие групп, итогов и прочее:

Таблица 1.1. Пример формализации упорядоченных данных

Дата

Закупочная частота

Объемы продаж

1

01.10.2010

256

74729,53

2

02.10.2010

278

83799,14

Если для процесса характерна сезонность или цикличность, необходимо получить данные минимально за один полный сезон / цикл с возможностью вариации интервалов (еженедельный, ежемесячный).

Поскольку цикличность может быть вложена, например, внутри годового цикла - квартальный, а внутри кварталов - недельный, то необходимо иметь полные данные как минимум за один самый длительный цикл.

Неупорядоченные данные нужны для задач, где временной фактор не имеет значения, например, оценка кредитоспособности, диагностика, сегментация потребителей. В таких случаях ситуация считается статической и поэтому информация о том, что одно событие произошло раньше, будет несущественной.

Для неупорядоченных данных каждому столбцу соответствует фактор, а в каждую строку заносится пример (ситуация, прецедент). Упорядоченность строк не является обязательной. Группы, итоги - не используются:

Таблица 1.2. Пример формализации неупорядоченных данных

Стаж работы

Наличие собственного транспортного средства

Сумма кредита (гр-)

1

> 5 лет

так

25000

2

<5 лет

ни

20000

Количество примеров (прецедентов) должна быть значительно больше числа факторов. В общем случае высока вероятность того, что случайный фактор сделает решающее влияние на результат. Если нет возможности увеличить количество данных, то уменьшается количество факторов, отбираются по степени воздействия.

Желательно, чтобы данные охватывали как можно большее количество ситуаций реального процесса и пропорции различных примеров (прецедентов) должны соответствовать реальности. Отметим, что система не может знать о чем-либо, что находится за пределами собранных для анализа данных. Например, если при создании медицинской системы диагностики подавать только сведения о больных, то система не будет знать о существовании в природе здоровых людей. И соответственно, любой человек по результатам работы такой системы будет обязательно чем-то болен.

Резюме

В основе любого процесса лежит определенная технология - набор способов, средств выбора и осуществления управляющего процесса из множества возможных его реализации. Информационная технология оперирует такими объектами, как информация (произвольные сведения о событии, сущность или процесс, знания (совокупность сведений из определенной предметной области) и данные (сведения, необходимые для формулирования выводов и принятия решений).

Жизненный цикл объектов технологии предполагает их последующую трансформацию: информация - данные, данные - знания и знания - знания, составляет процесс.

Информационные процессы разделяют на процессы циркуляции и переработки информации, которые, в свою очередь делятся на процессы сбора, передачи, обработки, хранения и направления к пользователю.

Ключевые слова

Технология, объект, технологический процесс, процесс, жизненный цикл, данные, информация, знания.

Вопросы и задания для обсуждения и самопроверки:

► Технология: определение, требования и результат.

► Какие требования предъявляются к современной технологии?

► Взаимосвязь и иерархия технологий.

► Охарактеризуйте роль понятия ЖЦ в технологии

► Этапы жизненных циклов.

► Опишите жизненный цикл процесса создания товара.

► Понятие процесса и его компоненты.

► Разновидности технологических процессов.

► Приведите примеры хаотического и автоматического технологических процессов.

► Какова специфика входной информации для программируемой технологии?

► Охарактеризуйте жизненный цикл информации.

► Опишите методы появления новых знаний.

► Назовите фазы данными.

► Опишите особенности систематизации данных.

 
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Естествознание
Журналистика
Инвестирование
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Политэкономия
Право
Психология
Региональная экономика
Религиоведение
Риторика
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика
Прочее