Data Lakes
Daten sind in der digitalisierten Wirtschaft der Schlüssel zum Erfolg. Doch erst, wenn daraus Informationen werden. Meist werden Daten deswegen schon beim Speichern in Data Warehouses entsprechend aufbereitet. Dabei gehen die Rohdaten jedoch verloren. Eine Alternative dazu sind Data Lakes.
Was sind Data Lakes?
175 Zettabyte. Dieses Datenvolumen erwarten die Marktforscher von IDC bis zum Jahr 2025 weltweit. Und laut McKinsey Global verdoppelt sich das weltweite Datenvolumen alle drei Jahre. Man kann also mit Fug und Recht sagen, dass Daten im heutigen Geschäftsleben so wertvoll wie Gold sind, aber lange nicht so selten wie das Edelmetall. Für sich genommen sind Daten jedoch nutzlos. Erst wenn sie verarbeitet und analysiert werden, entstehen daraus Informationen, die dem Unternehmen nützen.
Dazu dienen heute in der Regel Data Warehouses, in denen die gesammelten Daten zur weiteren Verarbeitung gespeichert sind. Hier werden die Daten bereits so vorbereitet abgelegt, dass sie ohne weitere Zwischenschritte für die Analysen durch eine Business-Intelligence-Lösung verfügbar sind: Alle Daten im Data Warehouse sind strukturiert und in Datenbanken organisiert. Unstrukturierte Daten werden aufbereitet und in die definierte Datenbankstruktur überführt. Der Vorteil dieses Ansatzes ist die schnelle Verfügbarkeit, da keine Transformationen an den Daten mehr notwendig sind. Der Nachteil hingegen ist, dass die Daten nicht im Rohformat vorliegen, es also unter Umständen durch die Transformationen zu Informationsverlusten kommt. Denn unstrukturierte Daten können in klassischen Datenbanken nicht direkt abgelegt werden. Allerdings liegen sehr viele Informationen im Unternehmen unstrukturiert vor: Texte wie Mails oder Word-Dokumente, Bilder oder Data Streams aus IoT-Sensoren.
Data Lake ist nicht strukturiert
Der Informationsverlust durch Strukturierung, so kann man einwenden, ist für Business Intelligence unerheblich, alle üblichen Analysen können auf dieser Basis durchgeführt werden. Was aber, wenn sich der Informationsbedarf ändert oder neue Analysemethoden und Datenquellen hinzukommen? Dann wäre es unter Umständen hilfreich, auf die ursprünglichen Rohdaten zugreifen zu können. Dieses Problem adressieren Data Lakes, Datenseen. Der Begriff wurde geprägt von James Dixon, CTO von Pentaho. Er vergleicht Data Warehouses mit einem Laden voller Wasserflaschen – gereinigt, abgepackt und so strukturiert, dass das Wasser durch den Benutzer einfach konsumierbar ist. Ein Data Lake hingegen ist eine mehr natürliche Wasseransammlung, eben einem See vergleichbar. Die unterschiedlichen Nutzer dieses Sees können das darin gesammelte Wasser auf verschiedene Art nutzen.
Ein Data Lake ist im Gegensatz zu einem Data Warehouse nicht strukturiert. Alle Daten liegen in ihrer Rohform vor – ganz ähnlich wie auf der eigenen Festplatte. Alle Arten von Daten lassen sich im Data Lake speichern, es gibt keinerlei Einschränkung bei den Datentypen. Anders als ein Data Warehouse kann der Data Lake damit als zentraler, abteilungs- und funktionsübergreifender Speicher angelegt sein. Auf diese Weise beseitigt dieser Ansatz das häufig auftretende Problem der Insellösungen bei der Datenspeicherung. Durch Inseln geht dem Unternehmen der vollständige Blick auf sämtliche Daten leicht verloren. Zudem werden bei Data-Warehouse-Inseln viele Daten mehrfach erfasst und gespeichert, etwa in unterschiedlichen Abteilungen.
Vierstufiges Konzept
Der Datenspeicher eines Data Lakes basiert auf einem verteilten Dateisystem, meist kommt heute die Open-Source-Technologie Apache Hadoop zum Einsatz. Dadurch ist es möglich, die Daten über viele, auch unterschiedliche Storage-Lösungen zu verteilen. Oft benötigte Daten können damit zum Beispiel in einem performanten Storage-Cluster im eigenen Rechenzentrum oder über einen breitbandig angebundenen Cloud-Service abgelegt werden, während weniger häufig angefragte Daten auf günstigeren Speichersystemen liegen. Um die Daten zu erschließen und bei Bedarf schnell auffindbar zu machen, dient ein Katalog- und Suchsystem, dass über dem Datenspeicher liegt. Als dritte Schicht kommt ein System zur Verwaltung der Benutzerrechte und der Verschlüsselung zum Einsatz. Dieses sorgt dafür, dass die Daten durch Verschlüsselung und Zugriffskontrollen vor Missbrauch geschützt sind, sowohl auf dem Speichermedium (Data at rest) als auch während des Datentransports über das Netzwerk (Data in motion). Die vierte und letzte Ebene eines Data Lakes bildet in der Regel das User Interface, über das die Benutzer mit der Datensammlung interagieren und Abfragen ausführen können. In der Regel sind in dieser Schicht auch Schnittstellen implementiert, die eine Anbindung des Data Lakes an weitere Systeme wie Data Warehouses für BI-Lösungen ermöglichen.
Da die Daten im See in Rohform vorliegen, werden sie erst dann in das passende Format und die geforderte Struktur überführt, wenn sie von einem System angefordert werden. Dabei arbeitet ein Data Lake mit Kopien der Daten, die Originaldaten bleiben unverändert. Das hat gegenüber einem klassischen Data Warehouse den Vorteil, dass die gesammelten Daten für alle denkbaren, auch zukünftigen Analyselösungen verfügbar bleiben. Einen kleinen Nachteil muss man bei diesem Ansatz jedoch auch in Kauf nehmen: Die Aufbereitung der Rohdaten benötigt etwas Zeit und Rechenleistung. In der Regel wird diese Latenz von den Anwendern jedoch nicht wahrgenommen.
Neue Daten für den Data Lake
Besonders in Hinblick auf das IoT und die darauf aufbauenden Nutzungsmodelle führt kaum ein Weg an einem Data Lake vorbei. Denn hier entstehen durch die Sensoren sehr große Datenvolumina. Diese in einem Data Warehouse zu speichern, ist wirtschaftlich in vielen Fällen nicht sinnvoll. Denn zum einen werden nicht immer alle IoT-Daten benötigt, zum anderen ist das flexible Konstrukt des Data Lakes mit geringeren Kosten verbunden. Auch ist es bei den Rohdaten aus dem Datensee einfacher, diese mit zusätzlichen Informationen anzureichern: Der Data Lake macht keine Vorgaben zur Art der erweiterten Daten oder zu deren möglicher Quelle.
Ein Projekt in diesem Bereich, das Materna aktuell realisiert, hat genau diese Herausforderungen: Bei der V2x-Kommunikation (Vehicle to Everything) kommuniziert ein Fahrzeug mit anderen Fahrzeugen jeder Art. Auch weitere Kommunikationspartner wie Verkehrssignale oder Fußgänger sind denkbar. Das Ziel des Informationsaustausches ist es, mögliche gefährliche Situationen bereits im Vorfeld zu erkennen und damit zu vermeiden. Dabei entstehen fortlaufende Data Streams, die ein erhebliches Datenvolumen aufweisen. Die deutsche Automobilindustrie ist bei der Entwicklung solcher Sicherheitskonzepte führend. Eine zentrale Herausforderung dabei, in die Materna einbezogen ist: die Sammlung und Auswertung der dafür notwendigen Sensordaten aus den Fahrzeugen, um diese für den Fahrer aufzubereiten. Die Daten werden dafür an einen Data Lake in der Cloud übertragen, dort konsolidiert und mit zusätzlichen Informationen aus verschiedenen Quellen angereichert. Daraus werden dann kontextbezogene Informationen für die Assistenzsysteme des Fahrzeugs generiert, sodass der Fahrer immer mit den Informationen versorgt wird, die er aktuell benötigt.
Offen für die Zukunft
Durch den Einsatz eines Data Lakes ist es möglich, die Daten erst bei Bedarf auf ihre Relevanz hin zu filtern und zeitnah im richtigen Kontext aufzubereiten. Dazu müssen die Daten sehr aktuell sein, eine Aufbereitung vorab wäre kaum möglich. Ändern sich die Situation für den Fahrer oder die Rahmenbedingungen, können schnell weitere Daten hinzugezogen werden. Denn alle Daten stehen für alle nachgelagerten Systeme zur Verfügung. Neue Daten, etwa durch kommende Sensoren, lassen sich mit geringem Aufwand in den Data Lake integrieren und damit in die künftigen Auswertungen einbeziehen. Mit dieser Flexibilität und Offenheit haben Data Lakes das Potenzial, das Rückgrat der Datenverarbeitung in Zeiten von IoT, autonomer Mobilität und smarten Anwendungen aller Art zu werden.
Unternehmen, die bereits IoT-Geschäftsmodelle etabliert haben, können zudem von den Kostenvorteilen eines Data Lakes gegenüber dem herkömmlichen Data Warehouse profitieren. Wie der See konkret ausgestaltet werden sollte, hängt dabei von den zu sammelnden Daten und von den individuellen Bedürfnissen des Unternehmens ab. Materna verfügt über langjährige Erfahrung bei Aufbau und Betrieb innovativer Infrastrukturen und Anwendungen. Durch den herstellerneutralen Ansatz ist Materna dazu in der Lage, Lösungen zu konzipieren, die passgenau auf die Anforderungen des Unternehmens zugeschnitten sind. Damit der Einstieg in den Data Lake kein Sprung ins kalte Wasser wird.
Data Lakes – Vorteile auf einen Blick
Data Lakes haben nicht den Anspruch, Data Warehouses zu ersetzen. In den meisten Szenarien spielen die Lakes ihre Stärken voll aus, wenn sie als vorgelagerte Instanz betrachtet werden. Alle Datenabnehmer, auch die Warehouses, speisen sich aus diesem zentralen Repository.