single.php
< Beitrag von Götz Gleitsmann

Data Lake: Nutze 4 Typen von Metadaten

Ein Data Lake ist eine Methode zur Speicherung unstrukturierter Daten in einem eigenen System oder Repository. Da die Verwendung der Daten noch nicht feststeht, werden sie zunächst in ihrem Rohformat gespeichert. Data Lakes eignen sich vor allem dann, wenn große Mengen an Sensordaten anfallen, also z. B. bei der Speicherung von Fahrzeugdaten oder der Daten von Fertigungsmaschinen aus dem Internet of Things (IoT). Auch im Data Lake spielen Meta Daten eine wichtige Rolle.

Durch die Art der Datenspeicherung ist ein Data Lake kostengünstiger als ein Data Warehouse. Ist der Data Lake gut organisiert, so fungiert er aufgrund seines strukturierten Aufbaus auch als Data-Management-Plattform.

Ein Data Lake besteht im Wesentlichen aus verschiedenen Datenbanken (relational, NoSQL) und verteilten Dateisystemen. Alle Komponenten beziehen unterschiedliche Daten aus diversen Quellen. Dazu gehören z. B. Unternehmensdaten, benutzergenerierte Daten, Maschinen- und Sensordaten sowie Webdaten. Über Batch-Jobs und Streaming-Systeme (für Echtzeitanforderungen) nehmen die Daten ihren weiteren Weg vom Data Lake in die Anwendungen hinein.

Die Rohdaten in einem Data Lake werden nicht in ein anderes Format umgewandelt, bevor sie in Anwendungen benötigt werden (Schema-on-Read). Daher ist ein Data Lake ein sehr guter Ausgangspunkt für Big-Data-Analysen – vor allem dann, wenn große Massen an Informationen mit herkömmlichen Mitteln nicht analysiert werden können. Viele Unternehmen haben Millionen von Sensordaten, Verkaufsinformationen oder Social-Media-Inhalten, und diese Daten können in einem Data Lake abgelegt werden.

Auswertung der Daten im Data Lake

Eine Kennzeichnung der Daten durch Metadaten ist insofern unbedingt erforderlich, als erst diese Kennzeichnung die Nutzung der unstrukturierten Daten ermöglicht. Dabei lässt sich die Kennzeichnung durchaus vergleichen mit der Inventarisierung von Arbeitsmitteln und Geräten in einer großen Organisation. Sinnvoll ist z. B. der Vermerk der Herkunft, der Qualität und der empfohlenen Interpretationsweise der Daten sowie operative Metadaten. Nur mit Hilfe einer umfassenden Kennzeichnung ist es überhaupt möglich, den Data Lake effizient zu betreiben und die Datennutzung im Sinne von Self-Service-BI in die Hand der Fachverantwortlichen zu legen.

Data Lake

Je mehr Daten gespeichert sind und je komplexer sie zusammenhängen, desto besser müssen sie außerdem gegen jeden unberechtigten Zugriff geschützt werden. Dies erfordert ein wohldurchdachtes Sicherheitskonzept, denn in der Regel sollen nicht alle Nutzer die gleichen Zugriffsrechte haben. Außerdem erfordert der gesetzliche Datenschutz ein solches Sicherheitskonzept.

Zur Erfüllung der oben beschriebenen Anforderungen werden die Rohdaten also mit zusätzlichen Merkmalen angereichert. Wichtig ist, dass diese Merkmale sinnvoll, selbsterklärend und eindeutig sind. Andernfalls verkommt der Data Lake schnell zu einem Datenfriedhof, der für Auswertungen weitgehend ungeeignet ist. Ein Beispiel: Der bloße Datumsvermerk „29.01.2018“ ist nicht eindeutig genug, denn er kann Rohdaten enthalten, die aus ganz anderen Zeiträumen stammen. Hier gilt es also, die Bedeutung des Datumswerts genauer zu spezifizieren.

Weitere Beispiele für Fragen, auf die Metadaten eine Antwort geben sollen:

  • Zugriffsinformationen. Beispiel: Von welchem Ort aus hat jemand auf eine Webanwendung zugegriffen?
  • Metaprozess-Informationen. Beispiel: Wann und wo wurden die Daten generiert?
  • Sensordaten-Informationen. Beispiel: Welche Maschine hat das Bauteil um 14:30 Uhr hergestellt?

Weiterhin nötig sind Kontextdaten, die Texteingaben in Formularen oder E-Mails strukturieren. Auch dazu ein Beispiel: Ein Computer erkennt nicht, wann mit dem Wort „Bank“ das Geldinstitut oder die Sitzgelegenheit gemeint ist. Und „last but not least“: Zuordnungshinweise beschreiben die Beziehung zwischen Daten bzw. Abhängigkeiten zwischen Merkmalen.

Typsierung der Metadaten

Im Laufe der Jahre haben sich insgesamt 4 verschiedene Kategorien an Metadaten eines Data Lake herausgebildet:

1. IoT-Geräte-Metadaten (Quellsysteme)

IoT-Geräte-Metadaten enthalten Information über angeschlossene Geräte, wie Smart-Home, Fertigungsmaschinen etc. Diese Daten dienen der Einbindung, Verwaltung und Steuerung von IoT-Geräten, indem sie z. B. die ID, den Typ, den Status und den Hersteller der Geräte dokumentieren. Bitte verwechseln Sie diese Daten nicht mit den Sensordaten, die die IoT-Geräte selbst während ihres Betriebs erzeugen. Denn diese Sensordaten gehören zu den originären Data-Lake-Metadaten.

2. Originäre Metadaten (Quellsysteme & Data Lake)

Originäre Metadaten erfassen, was im Data Lake gespeichert ist. Dazu gehören z. B. Aussagen über Daten in relationalen Datenbanken und Message-Queues. In der Praxis bewährt hat sich die Unterscheidung der originären Metadaten in technische, fachliche und operative Metadaten:

  • Technische Metadaten erfassen sämtliche technischen und strukturellen Aspekte inklusive der zugrundeliegenden Datenhaltungssysteme im Data Lake: Tabellenstrukturen, Attributnamen, Wertelisten, Zugriffsrechte etc.
  • Fachliche Metadaten erfassen inhaltliche Bedeutungen und Zusammenhänge der Daten, z. B. Begriffsabgrenzungen, Kennzahlendefinitionen, organisatorische Verantwortlichkeiten und konzeptionelle Datenmodelle.
  • Operative Metadaten erfassen technische Details zu Datentransformationen und Datenzugriffe, z. B. ETL-Jobs, Quellsysteme und Zugriffsmuster.

3. Data-Lake-API-Metadaten (Schnittstellen zu den Anwendungen)

API-Metadaten gehören zu den vom Data Lake bereitgestellten Programmierschnittstellen (engl. Application Programming Interface = API), die wiederum den Anwendungen ermöglichen, auf die Inhalte des Data Lake zuzugreifen. Typischerweise dokumentieren diese Daten Angaben zu Methoden und Parametern einer API.

4. Ergebnis-Metadaten (fachliche Auswertung)

Ergebnis-Metadaten schließlich, beschreiben Analyseergebnisse, z. B. Kennzahlenberichte, Dashboards und Data-Mining-Modelle. Sie umfassen sowohl Angaben zum Erstellungsprozess der Ergebnisse (verwendete Parameterwerte von Data-Mining-Algorithmen) als auch Angaben zu ihrer Interpretation, z. B. die Kennzeichnung bestimmter Knoten in einem Entscheidungsbaum.

Und wie können Metadaten die Anforderungen der DSGVO zum Schutz personenbezogener Daten unterstützen? Das erfahren Sie im 3. und letzten Teil meiner kleinen Blog-Serie über die Bedeutung von Metadaten.

Folgen
X

Folgen

E-mail : *
Kategorie: Business Intelligence | Schlagwörter: | Kommentare: 0

Beitrag kommentieren

CAPTCHA * Time limit is exhausted. Please reload CAPTCHA.