Другие журналы
|
научное издание МГТУ им. Н.Э. БауманаНАУКА и ОБРАЗОВАНИЕИздатель ФГБОУ ВПО "МГТУ им. Н.Э. Баумана". Эл № ФС 77 - 48211. ISSN 1994-0408![]()
АЛГОРИТМИЧЕСКИЕ ВОПРОСЫ РЕАЛИЗАЦИИ ТЕМПОРАЛЬНОГО ХРАНИЛИЩА ДАННЫХ
#8 август 2006
Темпоральное хранилище данных – это хранилище данных с многомерной структурой, имеющее механизмы отслеживания изменений в структуре за счет применения идентификаторов времени валидности, структурных версий и матриц трансформации между структурными версиями [7,8,9]. Темпоральное хранилище состоит из куба данных, элементы которого поддерживают идентификаторы времени валидности. Каждое изменение в структуре измерений многомерной модели порождает создание новой структурной версии. Для сравнения данных двух структурных версий данные одной приводятся к структуре второй. Для поддержки темпоральности в многомерной структуре данных вводятся следующие понятия: 1. Хрон – обычно одно из измерений в модели определяет время. Мельчайший член измерения «время» является хроном Q. Временная ось определяется через последовательность хронов. Хрон можно определить как «неделимый временной промежуток, фиксированной, минимальной продолжительности» 2. Временной интервал – измерение является последовательностью членов (вершин графа), и иерархических связей между ними (ребра графа), таким образом, полученный граф является деревом, представляющим иерархическую структуру измерения. Чтобы надлежащим образом передать время актуальности такой системы, каждая вершина и ребро графа должны иметь временной интервал Темпорально многомерная система состоит из следующих частей [1,2,3,4]: 1. Количество измерений – 2. Набор измерений:
где:
3. Измерение
где:
4. Количество членов измерений M. 5. Набор членов измерений:
где:
6. Член измерения –
где:
7. Набор иерархических связей
где:
8. Иерархическая связь
где:
9. Структурная версия SV – это представление многомерной структуры, которая действительна в заданном временном интервале
где:
10. Хранилище данных DWH есть непустое конечное множество структурных версий:
Для описания статической структуры модели темпорально-многомерного хранилища данных в терминологии классов объектно-ориентированного программирования используем диаграммы классов в нотации языка UML [10]. Диаграмма представлена на Рис. 1. Рис. 1. Объектно-реляционная модель темпорального хранилища данных Для формирования связей между структурными версиями предлагается использовать матрицы трансформации.
Операция перемножения в данной формуле означает обычное перемножение матриц (так при перемножении Возможны следующие варианты:
Для преобразования всего куба необходимо произвести поочерёдное перемножение разверток куба по измерениям на соответствующие матрицы преобразования этих измерений. Преобразование всего куба данных где: N– количество различных измерений двух структурных версий, то есть если Обобщённый алгоритм трансформации хранилища данных из одной структурной версии в другую представлен на Рис. 2, данный алгоритм представляет собой реализацию формулы (1). Рис. 2. Алгоритм трансформации куба данных
Приведенное формальное описание трансформации хранилища данных предполагает перемножение матриц трансформации (сложность алгоритма перемножения матриц – Так матрица A, которая при представлении в виде двумерного массива выглядит как:
Та же матрица при представлении в виде массива списков примет вид:
Для перемножения матрицы, представляющей двумерную развёртку куба При представлении матриц в виде векторов списков примем следующие обозначения: 1. Матрицу 2. Матрицу 3. Результатом перемножения матрицы В алгоритме примем следующие обозначения: 1. Пары {индекс; элемент} будут представляться как объект IndexElement; 2. 3. 4. Алгоритм перемножения разреженных матриц приведён на Рис. 3. Рис. 3. Алгоритм перемножения разреженных матриц В связи с важностью процесса внедрения нового темпорального хранилища без потери данных, накопленных в старых многомерных и реляционных хранилищах данных, рассматривается вопрос перехода на темпорально многомерное хранилища данных [12,13]. Приводится алгоритм перехода с существующих систем хранения информации на темпоральное хранилище данных с формированием матриц трансформации, которые обеспечивают возможность вовлечения в анализ старых данных одновременно с новыми данными. Алгоритм представлен на Рис. 4.
Рис. 4. Алгоритм перехода с существующих систем хранения многомерной информации на темпоральное хранилище данных Механизм матриц трансформации возможно применить и в ETL процессе при преобразовании данных исходной системы в структуру хранилища данных [11,14,15]. Алгоритм ETL процесса с использованием матриц трансформации представлен на Рис. 5.
Рис. 5. Алгоритм ETL процесса с использованием матриц транформации Данный алгоритм состоит из двух частей: действий, которые выполняются регулярно при загрузке данных из оперативной регистрирующей системы и действий, которые выполняются однократно, на этапе определения правил трансформации данных. Описаное ETL-взаимодействие успешно используется и подтвердило верность теоретических исследований практическими результатами. Описанные в статье алгоритмы позволяют обеспечить полный цикл функционирования темпорального хранилища данных. Доказана возможность реализации основных процедур темпорального хранилища данных на основе применения механизма матриц трансформации.
ЛИТЕРАТУРА
1. Спандерашвили Д.В. Механизмы отслеживания изменений в многомерных структурах данных // Инфокоммуникационные технологии в науке и технике: Материалы международной научно-технической конференции. Ставрополь: СКГТУ, 2006. Ч 1. С. 160-162. 2. Спандерашвили Д.В. Объектная модель Темпорально многомерных данных и ее реализация средствами реляционной СУБД // Известия ОГТУ. Информационные системы и технологии. Орел, 2006. №1. Т 4. С 210-215. 3. Спандерашвили Д.В. Особенности построения системы сбора статистики телекоммуникационной компании // Информатика: проблемы, методология, технологии: Материалы региональной научно-методической конференции. Воронеж: ВГУ, 2005. Ч 2. С. 136-141. 4. Спандерашвили Д.В. Темпорально многомерная модель для контроля динамики данных региональной компании // Проблемы стратегии регионального развития: Материалы всероссийской научной конференции. Тамбов: ТГУ, 2006. С. 80-84. 5. Д.Кнут . Искусство программирования . Вильямс, 2000. 6. Кормен Т. . Алгогритмы, построение и анализ . Вильямс, 2005 7. P. Chamoni and S. Stock . Temporal Structures in Data Warehouse . Data Warehousing and knowladge discovery, 1999, pp. 353-358 8. E.F. Codd, S.B. Codd, C.T. Salley . Providing OLAP (On-Line Analytical Processing) to User-Analysts: An IT Mandate . E.F.Codd & Associates, 1993. 9. C.S. Jensen C.E. Dyreson . Glossary of Temporal Database Concepts . Springer-Verlag A consensus, 1998, pp. 367-405. 10. Donald Bell . UML basics . IBM Corporation 2003. 11. Ralph Kimball, Joe Caserta . The Data Warehouse ETL Toolkit . Wiley Press, 2004. 12. A. Kurz . Data Warehousing-Enabling Tachnology . MITP-Verlag . Bonn, 1999. 13. C. Liu X.Wang . A Data Model for Supporting On-Line Analytical Processing . ACM, CIKM, 1996 14. Eric Thomsen . OLAP Solutions: Building Multidimensional Information Systems . John Wiley, 1997. 15. P. Vassiliadis, T.Sellis . A Survey of Logical Models for OLAP Databases . SIGMOD records, 1999
Публикации с ключевыми словами: OLAP, разреженные матрицы, ETL-процесс, хранилище данных, Темпоральное хранилище данных, алгоритм перемножения матриц Публикации со словами: OLAP, разреженные матрицы, ETL-процесс, хранилище данных, Темпоральное хранилище данных, алгоритм перемножения матриц Смотри также:
Тематические рубрики: Поделиться:
|
|
||||||||||||||||||||||||||||||||
|