Другие журналы

научное издание МГТУ им. Н.Э. Баумана

НАУКА и ОБРАЗОВАНИЕ

Издатель ФГБОУ ВПО "МГТУ им. Н.Э. Баумана". Эл № ФС 77 - 48211.  ISSN 1994-0408

77-30569/270497 Алгоритм выбора архитектуры параллельной системы баз данных по критерию стоимости

# 12, декабрь 2011
Файл статьи: 1Григорьев_9_P.pdf (260.20Кб)
авторы: Григорьев Ю. А., Плужников В. Л.

УДК 004.657

МГТУ им. Н.Э. Баумана

grigorev@iu5.bmstu.ru

VPluzhnikov@croc.ru

Оценка стоимости параллельных систем базы данных

Для тех проектов построения информационных систем, для которых важен экономический эффект, должна выбираться архитектура системы с минимальной совокупной стоимостью владения.

Совокупная Стоимость Владения (TCO - total cost of ownership ) - это методика расчета, созданная чтобы помочь потребителям и руководителям предприятий определить прямые и косвенные затраты и выгоды, связанные с любым компонентом компьютерных систем.[11] Также основной целью подсчета стоимости владения, кроме выявления избыточных статей расхода, является оценка возможности возврата вложенных в информационные технологии средств.

В процессе анализа оценки совокупной стоимости владения (ССВ) архитектуры параллельных систем баз данных должны учитываться соответствующие затраты.  В работе предлагается проводить оценку ССВ архитектуры на основании следующей формулы:

,

(1)

где

 - изначальная стоимость оборудования, которая включает в себя стоимость серверов, систем хранения данных и активной сетевой инфраструктуры, обеспечивающей обмен данными в комплексе,

- изначальная стоимость программного обеспечения комплекса,

- стоимость эксплуатации комплекса в год,

 - стоимость сервисной поддержки оборудования у производителя в год,

 - стоимость сервисной поддержки программного обеспечения комплекса у производителя в год,

 - стоимость содержания персонала по обслуживанию комплекса в год и стоимость непрямых затрат на обслуживание комплекса,

 - предполагаемое время эксплуатации время эксплуатации комплекса в годах.

Детализируем значение стоимости эксплуатации комплекса

,

(2)

где

 - стоимость электроснабжения комплекса в год,

 - стоимость кондиционирования серверной комнаты в год,

- стоимость обслуживания других инженерных систем в год.

Детализируем значение стоимости обслуживания комплекса

(3)

где

 - стоимость содержания обслуживающего комплекс персонала в год,

- стоимость устранения аварийных ситуаций на комплексе в год,

- стоимость дополнительных расходов на обслуживание.

На основе формул (2) и (3), можно переписать формулу совокупной стоимости (1) как

 

(4)

В расчетах стоимости оборудования необходимо учитывать специфику увеличения стоимости оборудования комплекса в зависимости от изменений технических характеристик.

Ниже приводятся формулы для оценки стоимости ПСБД, состоящей их нескольких SMP-систем (рис. 1). На рис. 1 введены следующие обозначения:

– число процессоров в одной SMP-системе,

 – число SMP-систем (вычисляется автоматически ),

– число дисков, закреплённых за одной SMP-системой. Считается, что шина ввода/вывода очень быстродействующая.

 

(5)

Такая конфигурация позволяет исследовать следующие архитектуры:

o   SE (одна SMP-система),   (т.е. =1),

o   СE (кластер SMP-систем),  > 1 и  >  (т.е. >1),

o   SN (MPP-система с одним процессором в узле),=1 и  >  (т.е.  >1).

Рис. 1. Общая схема комплекса, состоящего из нескольких SMP систем.

Формулы для оценки стоимости ПСБД определяются особенностями зависимости стоимости системы от числа процессоров и числа дисков в дисковом массиве.

На рис. 2 показана зависимость стоимости SMP-системы от числа процессоров.

Рис. 2 Зависимость стоимости SMP-системы от числа процессоров.

На рис. 3 показана зависимость стоимости RAID-массива от числа дисков [12].

Рис. 3. Зависимость стоимости RAID-массива от числа дисков.

Допуская, что комплексы с различными архитектурами требуют одинаковые инженерные системы и одинаковую численность обслуживающего персонала, а также то, что системы имеют соизмеримые коэффициенты готовности систем, можно переписать формулу стоимости совокупного владения комплексом, оптимизировав ее для сравнения архитектур параллельных систем баз данных, следующим образом:

 

(6)

Для сравнительной оценки стоимости различных архитектур параллельных систем баз данных предлагается использовать оценку затрат ежемесячного ССВ комплекса на протяжении пяти лет без модернизации комплекса с  выделением следующих компонентов ПСБД: SMP-узлов, системы хранения и коммутационной сети. Таким образом, оценку стоимости определяется по формуле:

,                                                                                                                        (7)

где

 – стоимость системы хранения данных, зависящая от числа дисков и дисковых полок в системе хранения ,

 – стоимость SMP-сервера с количеством AMP-процессоров nAMP,

 – стоимость коммутатора сети ByNet на nSMP узлов в системе,

– стоимость дополнительного оборудования в комплексе (сеть хранения данных, терминальные системы и т.п.),

 – стоимость электроснабжения системы хранения данных в год,

– стоимость электроснабжения SMP-сервера с количеством AMP-процессоров nAMP,

 – стоимость электроснабжения коммутатора сети ByNet на nSMP узлов в системе,

 – стоимость электроснабжения дополнительного оборудования в комплексе,

– стоимость теплоотвода от системы хранения данных в год,

– стоимость теплоотвода SMP-сервера с количеством AMP-процессоров nAMP,

– стоимость теплоотвода коммутатора сети ByNet на nSMP узлов в системе,

– стоимость теплоотвода дополнительного оборудования в комплексе.

Оценка ССВ в пересчете затрат на месяц позволяет  рассчитать рентабельность системы и упрощает оценку построения систем по лизинговой схеме.

 

Алгоритм выбора архитектуры ПСБД

Учитывая специфику сравнения архитектур ПСБД и особенности стоимостной оценки, предлагается использовать следующий алгоритм для выбора архитектуры ПСБД.

 

Шаг 1. Рассчитать число дисков в RAID-массиве.

Расчёт числа дисков проводится по формуле (8)

,                                                                                                                        (8)

где

– общий объём хранимых данных (фактов и измерений),

 – объём диска,

– доля заполнения диска.

 – коэффициент, учитывающий использование технологии RAID для защиты данных от физического отказа дисков. Значения данного коэффициента приведены в таблице 1,

– коэффициент, учитывающий использование технологии горячего резервирования дисков (hotspare).

 

Таблица 1

Значения коэффициента

Тип RAID

Значения

RAID 0+1, RAID 1+0

2

RAID 5 (3+1)

RAID 5 (7+1)

RAID 6 (6+2)

RAID 6 (14+2)

         

 

Шаг 2. Оценить стоимость дискового массива .

На данном шаге проводится запрос стоимости конфигурации системы хранения данных у официальных дистрибуторов оборудования.

 

Шаг 3. Проанализировать запросы к хранилищу данных.

Для каждого i-го запроса

1) определить количество измерений, по которым выполняется поиск (),

2) оценить число записей таблиц измерений в запросе (),

3) рассчитать среднее значение .

Эти данные занести в табл. 2 и назначить граничные значения для среднего времени выполнения этих запросов.

Таблица 2

Сводная таблица параметров запросов с граничными значениями для среднего времени их выполнения

№ запроса

VP

K

Граничное значение для среднего времени выполнения

1

VP1

K1

Т1

2

VP2

K2

Т2

...

 

 

 

U

VPU

KU

ТU

 

Шаг 4. Положить n=1 и nAMP=1

Это соответствует самой дешёвой конфигурации (одна SMP-система c одним процессором).

 

Шаг 5. Рассчитать среднее время выполнения запросов.

Рассчитать среднее время (М) для всех запросов из табл. 2, используя соответствующие формулы [10]. Если для какого-либо запроса время его выполнения превышает граничное значение, то перейти к Шагу 6, иначе перейти к Шагу 8.

 

Шаг 6. Проверить nAMP.

Если для текущего значения  перегружается диск массива RAID (дальнейшее увеличение не приведёт к уменьшению времени выполнения запросов) или >  (см. рис. 2), то перейти к Шагу 7, иначе положить  – сохраняем число SMP-систем,  – увеличиваем число процессоров в каждой   SMP-системе, перейти к Шагу 5.

 

Шаг 7. Увеличить число SMP-систем.

Положить , перейти к Шагу 5.

 

Шаг 8. Полученная конфигурация является оптимальной (). Полученные значения  необходимо использовать для расчета оценки ССВ архитектуры ПСБД по формуле (7). Завершить алгоритм.

 

Приведённый выше алгоритм путём последовательного наращивания  и  упорядочивает параллельные системы баз данных (ПСБД) с архитектурами SE, CEи SNпо возрастанию их стоимости. Это следует из рисунка 2 и описания шага 6.

В этой последовательности можно выделить подпоследовательность, в которой ПСБД упорядочены по убыванию среднего времени выполнения запросов. Действительно, для ПСБД с параметрами  и  существует конфигурация ПСБД с параметрами  и  (если до этого не было найдено оптимальное решение). Но в силу выражений для среднего времени выполнения запросов [10] эта конфигурация строго лучше по времени, чем предыдущий вариант, т.к. в алгоритме не исследуются системы с перегруженным разделяемым ресурсом (см. шаг 6). Этот вывод также следует из свойства внешней монотонности систем массового обслуживания [13].

Так как в алгоритме последовательно анализируются все варианты ПСБД, то за конечное число итераций будет найдено оптимальное решение.

 

ЛИТЕРАТУРА

1.     М. Тамер Оззу, Патрик Валдуриз. Распределенные и параллельные системы баз данных: [Электронный ресурс]. [http://citforum.ru/database/classics/distr_and_paral_sdb/]. Проверено 26.11.2010.

2.     Соколинский Л. Б., Цымблер М. Л. Лекции по курсу "Параллельные системы баз данных”: [Электронный ресурс]. [http://pdbs.susu.ru/CourseManual.html]. Проверено 04.12.2010.

3.     Григорьев Ю.А., Плужников В.Л. Оценка времени соединения таблиц в параллельной системе баз данных// Информатика и системы управления. – 2011. - № 1. – С. 3-16.

4.     Лисянский К., Слободяников Д. СУБД Teradata® для ОС UNIX®: [Электронный ресурс]. [http://citforum.ru/database/kbd98/glava5.shtml]. Проверено  14.03.2011.

5.     КузнецовС. Essential Modelling Options: [Электронныйресурс].  [http://citforum.ru/database/digest/dig_1612.shtml]. Проверено  14.03.2011.

6.     Лев Левин. Teradata совершенствует хранилища данных: [Электронный ресурс]. [http://www.pcweek.ru/themes/detail.php?ID=71626]. Проверено  26.11.2010.

7.     Григорьев Ю.А., Плутенко А.Д. Теоретические основы анализа процессов доступа к распределённым базам данных. - Новосибирск: Наука, 2002. – 180 с.

8.     Миллер Р., Боксер Л. Последовательные и параллельные алгоритмы. Общий подход. – М.: БИНОМ. Лаборатория знаний, 2006. – 406 с.

9.     Григорьев Ю.А., Плужников В.Л. Оценка времени соединения таблиц в параллельной системе баз данных// Информатика и системы управления. – 2011. - № 1. – С. 3-16.

10.  Григорьев Ю.А., Плужников В.Л. анализ времени обработки запросов к хранилищу данных в параллельной системе баз данных // Информатика и системы управления. – 2011. - № 2. – С. 94-106.

11.  П. Тарасенко Расчет и распределение затрат [Электронный ресурс]. [http://www.eg-online.ru/article/52214/] Проверено 23.10.2011.

12.  John P. Desmond  Infrastructure: storage resource management software and SAN architecture seen lowering TCO // Journal Software Magazine Volume 22 Issue 2, 2002 P. 19-20.

13.  Штоян Д. Качественные свойства и оценки стохастических моделей. – М.: Мир, 1979. – 268 с.

Поделиться:
 
ПОИСК
 
elibrary crossref ulrichsweb neicon rusycon
 
ЮБИЛЕИ
ФОТОРЕПОРТАЖИ
 
СОБЫТИЯ
 
НОВОСТНАЯ ЛЕНТА



Авторы
Пресс-релизы
Библиотека
Конференции
Выставки
О проекте
Rambler's Top100
Телефон: +7 (915) 336-07-65 (строго: среда; пятница c 11-00 до 17-00)
  RSS
© 2003-2020 «Наука и образование»
Перепечатка материалов журнала без согласования с редакцией запрещена
 Тел.: +7 (915) 336-07-65 (строго: среда; пятница c 11-00 до 17-00)