single.php
< Beitrag von Götz Gleitsmann

Metadaten in BI-Systemen

Metadaten in BI-Systemen werden in ihrer Bedeutung häufig unterschätzt und deshalb vielfach vernachlässigt. Aber wenn wir uns kurz ein BI-System ohne Metadaten vorstellen, wird deutlich: Ohne diese Daten ist das System zwar technisch funktionsfähig, aber sowohl die Systemnutzung wie auch die -wartung sind dann äußerst problematisch.

Ohne Metadaten können sich die User im BI-System nicht orientieren, denn sie erfahren weder etwas über die Bedeutung der Felder, die in den Berichten und Dashboards angezeigt werden, noch können sie die angezeigten Daten bezüglich ihrer Herkunft beurteilen. Dagegen haben es die IT-Entwickler sehr schwer, ein bestehendes BI-System zu erweitern oder an geänderte Anforderungen anzupassen. Ein System ohne Metadaten erzeugt hohe Kosten, denn der große Entwicklungsaufwand kompensiert nicht die mangelnde Akzeptanz des Systems, aus der wiederum Fehlentscheidungen resultieren.

Ein BI-System besteht im Wesentlichen aus einem Data Warehouse (DWH) und den angeschlossenen Berichten und Dashboards. Die Metadatenbank ist insofern eine wichtige Komponente, als sie Meta-Informationen so speichert und verwaltet, dass sie diese Informationen schnell und sicher auffindbar und weitgehend autonom verwendbar zur Verfügung stellt. Metadaten dienen also vor allem zwei fachlichen und einem technischen Zweck:

  • Bedeutungsspezifikation gespeicherter Inhalte (fachlich)
  • Navigationskomponente (fachlich)
  • Administration des Systems (technisch)

Fachliche Metadaten: Navigationskomponente

Um das BI-System zielführend nutzen zu können, ist eine Navigationskomponente notwendig, die auf Metadaten basiert und fachlich orientierte Anwender unterstützt. Dazu verfügt die Navigationskomponente über folgende Funktionen:

  • die freie Formulierung von Abfragen
  • die Navigation innerhalb des BI-Systems
  • die elektronische Berichtsverteilung
  • den Durchgriff (Drill-Through) auf Daten in den operativen Systemen

Darüber hinaus erleichtern weitere fachliche Metadaten den Usern des BI-Systems die Arbeit:

  • Informationen über existierende Standardberichte und Berichtsvorlagen
  • Definitionen der verwendeten Geschäftsbegriffe
  • Berechnungsvorschriften für Kennzahlen
  • Voraussetzungen für Zugangsberechtigungen auf bestimmte Datenbereiche
  • zuständige Ansprechpartner
  • Begriffslexika, die das Fachvokabular mit den Datenobjekten verbinden

All diese Informationen über Daten dienen dazu, die Transparenz der gesamten Datenkette von der Quelle bis zum Bericht oder Dashboard zu erhöhen. Außerdem werden die Bedeutung, die Herkunft und die Verwendung der betriebswirtschaftlichen Kennziffern durch Metadaten dokumentiert. Abgesehen davon sind Metadaten auch besonders wichtig für die Interpretation der Daten. Semantische Beschreibungen und Views sind wiederum entscheidend für Zugriffs- und Navigationswege im DWH und ermöglichen außerdem die umgangssprachliche Navigation im System.

Technische Metadaten: Data Lineage

Entwickler und Administratoren einer BI-Landschaft benötigen vor allem technisch orientierte Metadaten, also etwa:

  • Angaben über Datenquellen und Data Lineage
  • Regeln zur Verbesserung der Datenqualität
  • Regeln für Transformations- und Konsolidierungsschritte
  • Zuordnungsinformationen zwischen Datenquellen und DWH-Modellen
  • Metadaten der Datenmodelle des DWH selbst

Um den Überblick zu wahren und effektiver auf Anforderungen der Fachseiten reagieren zu können, ist eine möglichst vollständige Darstellung der Data Lineage notwendig. Mit anderen Worten: Jedes Feld, das in irgendeinem Bericht angezeigt wird, soll über seinen gesamten Entstehungsweg zurückverfolgt werden können – bis hin zu seinen ursprünglichen Quellen. Dies gilt besonders für Aggregationstabellen, denn hier ist die Herkunft der Daten häufig nicht mehr auf Anhieb erkennbar.

In einem DWH stehen zahlreiche Dimensions– und Faktentabellen miteinander in Beziehung. Wenn auch die voraggregierte Tabellen berücksichtigt werden, so kommt man rasch auf eine hohe 3-stellige Anzahl von Tabellen. Ist das DWH z. B. nach Data Vault statt Kimball aufgebaut, kann die Anzahl der Tabellen noch deutlich größer sein. Jede Tabelle des DWH enthält ihrerseits zahlreiche Spalten, deren Inhalte möglicherweise aus mehreren Quellen in verschiedenen Datenbanken stammen.

Die Data Lineage basiert im Wesentlichen auf den folgenden Metadaten:

Tabelle

  • Datenbankname
  • zulaufende Tabellen
  • abhängige Tabellen
  • Mengengerüst
  • Table Space, z. B. Oracle

Spalten

  • Tabellenbezug
  • zulaufende Spalten, jeweils mit Tabellenbezug
  • abhängige Spalten, jeweils mit Tabellenbezug
  • Contraints bzw. Wertebereiche
  • Aggregationsregeln

Die Data Lineage ist nicht nur ein wichtiger Pfeiler der Dokumentation des DWH, sondern sie unterbindet auch Doppelentwicklungen, z. B. gleiches Feld aus gleicher Quelle, aber unter verschiedenen Namen in den Berichten. Dadurch leistet sie einen wichtigen Beitrag zu einer geordneten Struktur des BI-Systems.

Metadatenbankverwaltung

An dieser Stelle ist bereits klar, dass eine Metadatenverwaltung auf manueller Basis nicht sinnvoll sein kann, sondern vielmehr automatisiert erfolgen muss. Mithilfe der in den Datenbank-Management-Systemen (DBMS) abgelegten Tabellen-Metadaten ist dies ohne weiteres möglich, denn jede Datenbank speichert die oben aufgezählten Metadaten sämtlicher Objekte in Sondertabellen.

Doch wie kommen wir nun zu unserer Data Lineage, also zu der Verknüpfung der zahlreichen Tabellen und Felder untereinander? Dies ist relativ einfach zu bewerkstelligen, wenn ETL-Tools (ELT =  Extract/Transform/Load) bzw. ELT-Tools (ETL = Extract/Load/Transform) für die Bewirtschaftung des DWH verwendet werden, denn diese Tools speichern die Metadaten ihrer Mappings, Tasks und Workflows in Datenbanksystemen. Dabei handelt es sich im Wesentlichen um die in der obigen Aufzählung genannten Informationen. Hinzu kommen noch Informationen zu Transformationen, LookUps etc.

So hält z. B. das weit verbreitete ETL-Tool „Informatica Power Center“ seine Daten in einem frei wählbaren DBMS. Bei Microsoft leistet das ELT-Tool „SQL Server Integration Services“ das gleiche, denn es gibt in der SQL-Server-Instanz eine Sonderdatenbank für diesen Zweck. Auf diese Weise lässt sich die Data Lineage für die Bewirtschaftungsstrecken ‚Quelle bis Staging-Bereich‘ und ‚Staging-Bereich bis DWH‘ mit relativ geringem Aufwand automatisieren.

Das ist aber noch lange nicht alles, denn auch der weitere Weg der Daten vom DWH in die Berichte lässt sich recht gut automatisiert darstellen. Sowohl Microsoft-Berichte als auch die Berichte vieler anderer Hersteller (Oracle etc.) basieren auf XML-Definitionen, die mit geeigneten Anwendungen ebenfalls automatisiert ausgelesen werden können.

Metadaten sind also unerlässlich für die Nutzung und Verwaltung eines BI-Systems. Darüber hinaus erbringen sie einen großen Mehrwert im Hinblick auf die Auswertung von Big Data bzw. Data Lakes. Mehr dazu in meinem nächsten Blog-Beitrag.

Folgen
X

Folgen

E-mail : *
Kategorie: Business Intelligence | Schlagwörter: , | Kommentare: 0

Beitrag kommentieren

CAPTCHA * Time limit is exhausted. Please reload CAPTCHA.