Системы обработки распределенных бд

      Комментарии к записи Системы обработки распределенных бд отключены

В распределенной БД (Ра БД) данные распределены по узлам компьютерной сети. Каждый узел имеет собственную БД и может обращаться к данным, хранящимся на других узлах.

Пользователь распределенной БД не обязан знать, как ее компоненты размещены в узлах сети и представляет себе эту БД как единое целое.

Ра БД – это совокупность логически взаимосвязанных БД, распределенных в КС.

Распределенная СУБД (РаСУБД) – программная система, обеспечивающая управление Ра БД и прозрачность ее распределенности для пользователей.

Информация о местоположении каждой из частей РаБД находится в глобальном словаре данных, который хранится на одном из компьютеров сети или может быть распределенным.

В общем случае все РаБД можно разделить на гомогенные и гетерогенные.

В гомогенной все локальные БД имеют одинаковые модели данных и управляются СУБД одного типа.

В гетерогенной локальные БД могут базироваться на разных моделях данных и управляться СУБД разных типов.

Стратегии распределения данных

В системах обработки РаБД используется специальная операция – репликация БД. С целью приближения данных к месту их использования и сокращения тем самым сетевого трафика и/или повышения производительности системы создаются копии БД в нескольких узлах сети – реплики. После этого и в оригинал БД, и в реплику могут вноситься изменения. Затем выполняется операция синхронизации реплики с оригинальной БД – перенос в нее всех изменений из реплик.

Стратегии распределения данных по компьютерам:

  • разделения – нереплицирования. БД распределена по компьютерам и реплики не создаются;
  • неразделения – реплицирования. БД не разделена и создается реплика на каждом компьютере;
  • разделения – реплицирования. БД распределена по компьютерам и на них создаются копии отдельных частей БД.

В РаБД на основе реляционной модели данных разделение или фрагментация может быть вертикальной, горизонтальной и смешанной.

При горизонтальной таблица разбивается на совокупности строк (записей), которые располагаются на различных компьютерах.

При вертикальной таблица разделяется на совокупности столбцов (полей), которые хранятся на различных компьютерах.

При смешанной происходит разделение реляционной таблицы как по столбцам, так и по строкам.

Требования к РаБД и РаСУБД

(12 правил К. Дейта):

  • локальная автономность;
  • никакой конкретный сервис не должен возлагаться на какой-либо специально выделенный центральный узел;
  • непрерывность функционирования;
  • независимость от местоположения, от фрагментации, от тиражирования;
  • распределенная обработка запросов;
  • управление распределенными транзакциями;
  • независимость от оборудования, от операционных систем, от сети, от СУБД.

Исходя из правил К. Дейта система обработки РаБД – это слабосвязанная сетевая структура, на узлах которой располагаются локальные БД, которые автономны, независимы и доступ к ним обеспечивается, в общем случае, различными СУБД. Узлы обмениваются между собой потоками данных.

Некоторые прототипы СУРБД:

  • система SDD-1 (в конце 70-х – начале 80-х г. прошлого столетия, фирма Computer Corporation of America);
  • система System R* (в начале 80-х г., фирма IBM);
  • система Distributed INGRES (в начале 80-х г., в Калифорнийском университете в Беркли).

В настоящее время в большинстве сетевых СУБД предусмотрены отдельные виды поддержки РаБД с различным набором функций. Н-р, есть в ORACLE, DB2.

Достоинства РаБД:

§ более полно отражают территориально распределенную структуру предприятия;

§ обеспечивают большую живучесть ИС, так как в случае разрушения одной из локальных БД другие БД остаются работоспособными.

Недостаток РаБД – повышенная сложность их практической реализации.

Хранилище данных

Хранилище данных (ХД) – ориентированная на предметную область, интегрированная, статичная, не разрушаемая совокупность данных, предназначенная для поддержки принятия решений

Предметная ориентированность – ХД предназначено для предоставления данных, связанных с одним организационным процессом.

Интегрированность – применение единых законов именования, способов вычисления значений данных, полученных из различных источников.

Статичность – ХД содержит как исторические данные (до 5 лет), так и данные, которые имели статус текущих при последнем погружении в хранилище данных.

Неразрушаемая совокупность данных – в ХД помещается большой объем данных, которые будучи раз погруженными, уже никогда больше не подвергаются каким–либо изменениям.

Киоск данных (витрина данных) – это небольшое хранилище данных, обслуживающее одно из направлений бизнеса компании или одно ее структурное подразделение.

OLAP-системы

ИС можно разделить на два класса:

  • ориентированные на оперативную обработку данных (OLTP-системы);
  • ориентированные на аналитическую обработку данных.

OLTP-системы создаются для того, чтобы способствовать повседневной деятельности корпорации, и опираются на актуальные для текущего момента данные, хранящиеся в оперативной БД.

ИС, ориентированные на аналитическую обработку данных, опираются на ХД. Для них характерна массовая и длительная обработка запросов. Они делятся на две группы:

  • ориентированные на статическуюаналитическую обработку данных – системы поддержки принятия решений (DSS-системы);
  • ориентированные на аналитическую оперативнуюобработку данных – OLAP-системы.

DSS-системы являются статическими аналитическими системами, но в отличие от OLTP- систем используют данные о деятельности компании за несколько лет.

OLAP-системы являются дальнейшим развитием DSS- и OLTP-систем. Они служат для анализа деятельности корпорации, ее структурных подразделений и прогнозирования их будущего состояния. Анализ проводится на основе накопленных многочисленных данных о деятельности в прошлом, а также внешних источников данных.

OLAP-системы обладают отличительными особенностями:

  • анализ осуществляется с помощью ХД;
  • имеют гибкие средства навигации по данным (OLAP-манипуляции);
  • могут работать на базе киосков данных.

ДостоинстваOLAP-систем:

  • консолидация информации из разных БД;
  • полнота аналитических данных;
  • повышенная защита данных;
  • полная и легкая настройка отчета без программиста;
  • возможность детализировать отчет в процессе анализа данных;
  • непротиворечивость данных между отчетами;
  • простота использования и восприятия отчетов.

К недостаткам OLAP-систем следует отнести их сложность при разработке и внедрении.

Статьи к прочтению:

Виктор Гамов — Распределяй и властвуй: введение в распределенные системы


Похожие статьи:

  • Распределенная обработка данных.

    Распределенная обработка данных — обработка данных, проводимая в распределенной системе, при которой каждый из технологических или функциональных узлов…

  • Распределенная обработка данных

    Лекция № 2. Компьютерные сети и сетевые технологии. План 1. Локальные компьютерные сети. 2. Глобальная компьютерная сеть Internet. 3. Сервисы Internet….