<<
>>

11.3. Информационные хранилища

Распределенная обработка данных обязательно предполагает наличие банков и баз данных. Однако база данных — это не место, куда просто складывают данные: ими нужно пользоваться, актуализировать, изменять форматы и связи и совершать множество других действий.

Если бессистемно наполнять базу информацией, то через некоторое время ею невозможно будет пользоваться — времени на поиск нужных данных будет уходить все больше и больше, пространство базы переполнится. В связи с этим данные необходимо «очищать» и структурировать, а для эффективной работы с ними требуются системы управления работой баз данных (Data Base Management System — DBMS). Индустрия создания баз данных и СУБД берет свое начало в 1960-е гг. и к настоящему времени достаточно развита, однако термин «хранилище данных» в современном понимании его появился относительно недавно. Идея хранилищ данных оказалось востребованной, так как во многих видах государственной, деловой, научной, социальной деятельности необходимы тематически объединенные и исторически очищенные совокупности данных. При этом постоянно возрастала потребность в более дешевых, точных и структурированных данных, а также большей оперативности получения, обработки и интегрирования данных.

К концу 1980-х гг., когда была в полной мере осознана необходимость интеграции корпоративной информации и надлежащего управления этой информацией, появились технические возможности доя создания соответствующих систем, которые первоначально были названы «хранилищами информации» (Information Warehouse). Лишь в 1990-е гг., с выходом книги Билла Инмона, хранилища получили свое нынешнее наименование «хранилища данных» (Data Warehouse — DW).

Инмон определил хранилища данных как предметно-ориентированные, интегрированные, неизменные, поддерживающие хронологию наборы данных, организованные для целей поддержки управления, призванные выступать в роли единого и единственного источника истины, обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решений.

В основе концепции хранилищ данных лежат три основополагающие идеи: интеграция ранее разъединенных детализированных данных (исторические архивы, данные из традиционных систем

обработки документов, разрозненных баз, данных, данные из внешних источников) в едином хранилище данных; тематическое и временное структурирование, согласование и агрегирование; разделение наборов данных, используемых для операционной (производственной) обработки, и наборов данных, применяемых для решения задач анализа.

Данные, помещаемые в хранилище, должны отвечать определенным требованиям: предметной ориентированности, интегрированности, поддержки хронологии и неизменяемости (табл. 11.1)

Таблица 11.1 Требования к данным, помещаемым в хранилище

Требование

j - , ^ 'У -'¦ v •

Предметная

ориентированность

Все данные о некоторой сущности (бизнес-объекте) из некоторой предметной области собираются из множества различных источников, очищаются, согласовываются, дополняются, агрегируются и представляются в единой, удобной для их использования в бизнес-анализе форме

И нтегри рова н ность

Все данные о разных бизнес-объектах взаимно согласованы и хранятся в едином общекорпоративном хранилище

Поддержка хронологии

Данные хронологически структурированы и отражают историю за период времени, достаточный для выполнения задач бизнес-анализа, прогнозирования и подготовки принятия решения

Неизменяемость

Исходные (исторические) данные, после того как они были согласованы, верифицированы и внесены в общекорпоративное хранилище, остаются неизменными и используются исключительно в режиме чтения

Хранилище данных выполняет множество функций, но его основное предназначение — предоставление точной информации в кратчайшие сроки и с минимумом затрат.

Для успешного же продвижения Web-среды электронного бизнеса требуется, чтобы доступ к информации был недорогим и не занимал много времени.

Понятие «хранилище данных» в первоначальном понимании было основано на понятии «распределенной витрины данных» (Distributed Data Mart — DDM). Вследствие этого в классическом исполнении хранилище данных было прежде всего репозиторием (сквозной базой данных) информации предприятия. Среда хранилища была предназначена только для чтения и состояла из детальных и агрегированных данных, которые полностью очищены

и интегрированы. Кроме того, в репозитории хранится обширная и детальная история данных на уровне транзакций. С точки зрения архитектурного решения такое хранилище данных реализует свои функции через подмножество зависимых витрин данных (рис. 11.10).

Достоинствами архитектуры классического хранилища данных являются: непротиворечивость информации; один набор процессов извлечения и бизнес-логики использования;

т общая семантика; централизованная, управляемая среда; легко создаваемые по шаблонам и наполняемые витрины данных; единый репозиторий метаданных; многообразие механизмов обработки и представления данных.

К недостаткам можно отнести большие затраты по реализации, высокую ресурсоемкость в масштабе всего предприятия, потребность в сложных сервисных системах, рискованный сценарий развития, когда все данные и метаданные находятся в одном репозитории и в неблагоприятном случае могут быть потеряны.

Рис. 11.10. Хранилище данных, реализующее свои функции через подмножество зависимых витрин данных

Кроме этого, при фильтрации и рафинировании «сырых» данных для такого хранилища обычно теряется очень много информации, которая может быть чрезвычайно полезной при бизнес-анализе. В связи с этим возникло понимание того, что хранилище, помимо механизмов извлечения данных (On-Line Transactional Processing — OLTP), репозитория и витрин, должно иметь соответствующее пространство для организации «сырых» данных и их многомерного анализа в режиме реального времени OLAP.

На сегодняшний день существует два основных подхода к архитектуре хранилищ данных [7]. Это так называемые корпоративная информационная фабрика Инмона (рис. 11.11) и хранилище данных с архитектурой шины Кимболла (рис. 11.12).

Работа корпоративной информационной фабрики (Corporate Information Factory — CIF) начинается со скоординированного извлечения данных из источников. После этого загружается реляционная база данных, содержащая соответствующие очищенные и согласованные («атомарные») данные. Получившееся нормализованное хранилище используется для того, чтобы наполнить информацией дополнительные репозитории презентационных данных, т.е. данных, подготовленных для анализа. Эти репозитории, в частности, включают в себя специализированные хранилища для изучения и добычи данных на базе применения технологий извлечения полезной информации из «сырых данных» (Data Mining — DM). После этого основной и, в случае необходимости, дополнительные репозитории используются для формирования


Рис. 11.12. Хранилище данных с архитектурой шины Кимболла

витрин данных. При таком сценарии конечные витрины данных создаются для обслуживания бизнес-отделов или для реализации бизнес-функций и используют пространственную модель для структурирования суммарных данных. Атомарные данные остаются доступными через нормализованное хранилище данных. Очевидно, что структура атомарных и суммарных данных при таком подходе существенно различается.

Таким образом, можно назвать следующие отличительные характеристики подхода Инмона к архитектуре корпоративных информационных хранилищ данных: использование реляционной модели организации атомарных данных и пространственной — для организации суммарных данных; итеративный или «спиральный» подход при создании больших хранилищ данных, т.е.

«строительство» не сразу, а по частям. Это позволяет вносить изменения в небольшие блоки данных или программных кодов и избавляет от необходимости перепрограммировать значительные объемы данных. То же самое можно сказать и о потенциальных ошибках: они также будут

локализованы в пределах сравнительно небольшого массива без риска испортить все данные хранилища разом; организация атомарных данных, что обеспечивает высокую степень детальности интегрированных данных и соответственно предоставляет корпорациям широкие возможности для манипулирования ими и изменения формата и способа представления данных по мере необходимости; рассмотрение хранилища данных в качестве концептуально и физически целостного объекта, а не механической коллекции разрозненных витрин данных.

Альтернативным подходом к архитектуре хранилищ данных является подход Кимболла — хранилище с архитектурой шины (Data Warehouse Bus — DWB) (см. рис. 11.12). В этой модели первичные данные преобразуются в информацию, пригодную для использования, на этапе подготовки данных. При этом обязательно принимаются во внимание требования к скорости обработки информации и качеству данных. Как и в модели Инмона, подготовка данных начинается со скоординированного извлечения данных из источников. Ряд операций совершается централизованно, например поддержание и хранение общих справочных данных, другие действия могут быть распределенными — в зависимости от поступившего запроса.

Область представления пространственно структурирована, при этом она может быть централизованной или распределенной. Пространственная модель хранилища данных содержит ту же атомарную информацию, что и нормализованная модель Инмона, но информация структурирована по-другому, чтобы облегчить ее использование и выполнение запросов. Эта модель включает в себя как атомарные данные, так и обобщающую информацию (агрегаты в связанных таблицах или многомерных кубах) в соответствии с требованиями производительности или пространственного распределения данных с заданным уровнем декомпозиции агрегатов.

В связи с этим запросы в процессе выполнения обращаются к все более низкому уровню детализации без дополнительного перепрограммирования со стороны пользователей или разработчиков приложения.

В отличие от CIF-подхода Инмона, здесь пространственные модели строятся для обслуживания динамичных бизнес-процессов (которые, в свою очередь, связаны с бизнес-показателями или

бизнес-событиями), а не статичных бизнес-отделов. Например, iice данные, которые должны быть доступны для общекорпоративного использования, вносятся в пространственное хранилище данных только один раз, в отличие от CIF-подхода, в котором их пришлось бы трижды копировать в витрины данных разных отделов. После того как в хранилище появляется информация об основных бизнес-процессах, консолидированные пространственные модели могут выдавать их перекрестные характеристики. Матрица корпоративного хранилища данных с архитектурой шины с коммутацией, построенной по технологии «звезда», выявляет и усиливает связи между текущими количественными и качественными показателями бизнес-процессов (фактами) и их описательными атрибутами (метриками).

В качестве оригинальных особенностей подхода Кимболла можно отметить: использование двухуровневой архитектуры, которая включает в себя стадию подготовки данных, недоступную для конечных пользователей, и хранилище данных с архитектурой шины как таковое. В состав последнего входят несколько витрин атомарных данных, несколько витрин агрегированных данных и персональная витрина данных, но оно не содержит одного физически целостного или централизованного хранилища данных — это дает гибкость при использовании данных и пространственной модели организации данных с архитектурой «звезда» (Star Scheme).

Таким образом, хранилище данных с архитектурой шины обладает следующими характеристиками: является пространственным; включает в себя как данные о транзакциях, так и суммарные данные; содержит витрины данных, посвященные только одной предметной области или имеющие только одну таблицу фактов (FactTable); может содержать множество витрин данных в пределах одной базы данных, отражающих показатели бизнес-процессов.

Хранилище данных Кимболла не является единым физическим репозиторием (в отличие от подхода Инмона). Это виртуальное хранилище — коллекция витрин данных, каждая из которых имеет архитектуру типа «звезда».

На рис. 11.13 показана схема типизированного корпоративного хранилища данных. Вопросы его проектирования, выбора

Рис. 11.13. Схема типизированного корпоративного хранилища данных

архитектуры, реализации в том или ином виде (CIF или ВЦИ) — это серьезный проект корпоративного масштаба, охватывающий все отделы и обслуживающий нужды всех пользователей корпорации.

<< | >>
Источник: под ред. В. В. Трофимова. Информационные технологии УЧЕБНИК. 2011

Еще по теме 11.3. Информационные хранилища:

  1. Многомерные хранилища данных
  2. Часть I ИНФОРМАЦИОННЫЙ МЕНЕДЖМЕНТ КАК БАЗОВЫЙ КОМПОНЕНТ СОЗДАНИЯ ИНФОРМАЦИОННОГО ОБЩЕСТВА
  3. Часть ФУНКЦИОНИРОВАНИЕ КОМПОНЕНТОВ ИНФОРМАЦИОННОГО ОБЩЕСТВА НА БАЗЕ ТЕХНОЛОГИЙ ИНФОРМАЦИОННОГО МЕНЕДЖМЕНТА
  4. Глава 3 ПРОФИЛИ ИНФОРМАЦИОННЫХ СИСТЕМ ДЛЯ ИНФОРМАЦИОННОГО МЕНЕДЖМЕНТА
  5. Глава ИНФОРМАЦИОННОЕ ОБЩЕСТВО И КОМПОНЕНТЫ ИНФОРМАЦИОННОГО МЕНЕДЖМЕНТА
  6. Комплекс средств проектирования и развития информационных систем для информационного менеджмента
  7. Информационное обеспечение Классификация компонентов информационных ресурсов.
  8. РАЗДЕЛ 3. ИНФОРМАЦИОННЫЙ РЕСУРС В ИНФОРМАЦИОННОМ КОНСАЛТИНГЕ
  9. 8.5. Защита информационных ресурсов и повышение информационной безопасности
  10. Информационный блок «Информационно-досуговая деятельность»
  11. ИНФОРМАЦИОННЫЕ СИСТЕМЫ В ИНФОРМАЦИОННОМ МЕНЕДЖМЕНТЕ
  12. Информационные технологии финансовой системы Автоматизированная информационная система «Финансы»
  13. Часть 3. Информационные технологии в инвестиционном проектировании Раздел 13. ИНФОРМАЦИОННЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ (ИС&Т) В ИНВЕСТИЦИОННОЙ ДЕЯТЕЛЬНОСТИ (ИД)
  14. ПРИОРИТЕТНЫЕ И НОВЫЕ ВИДЫ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ
  15. ИНФОРМАЦИОННЫЕ ПИСЬМА
  16. 3.3. Информационная безопасность
  17. ИНФОРМАЦИОННЫЙ ПОДХОД К ОРГАНИЗАЦИИ
  18. Роль информационного обеспечения
- Бюджетная система - Внешнеэкономическая деятельность - Государственное регулирование экономики - Инновационная экономика - Институциональная экономика - Институциональная экономическая теория - Информационные системы в экономике - Информационные технологии в экономике - История мировой экономики - История экономических учений - Кризисная экономика - Логистика - Макроэкономика (учебник) - Математические методы и моделирование в экономике - Международные экономические отношения - Микроэкономика - Мировая экономика - Налоги и налолгообложение - Основы коммерческой деятельности - Отраслевая экономика - Оценочная деятельность - Планирование и контроль на предприятии - Политэкономия - Региональная и национальная экономика - Российская экономика - Системы технологий - Страхование - Товароведение - Торговое дело - Философия экономики - Финансовое планирование и прогнозирование - Ценообразование - Экономика зарубежных стран - Экономика и управление народным хозяйством - Экономика машиностроения - Экономика общественного сектора - Экономика отраслевых рынков - Экономика полезных ископаемых - Экономика предприятий - Экономика природных ресурсов - Экономика природопользования - Экономика сельского хозяйства - Экономика таможенного дел - Экономика транспорта - Экономика труда - Экономика туризма - Экономическая история - Экономическая публицистика - Экономическая социология - Экономическая статистика - Экономическая теория - Экономический анализ - Эффективность производства -