Ein Data Lake ist ein Repository – also ein digitales Archiv –, in dem Daten verschiedenster Art gespeichert werden. Meistens handelt es sich dabei um sehr umfangreiche Datenmengen.
In der Regel dienen Data Lakes dazu, fundiertere Unternehmensentscheidungen zu ermöglichen.
Sie sind flexibler und schneller als traditionelle Data Warehouses.
Ein Data Lake ist ein großer Datenspeicher, der unterschiedlichste Daten enthält. Vor der Einführung eines Data Lakes sollten Sie sich sorgfältig überlegen, wie Sie die Daten darin wertschöpfend verwenden können.
Data Lakes lösen die traditionellen Data Warehouses ab. Die Daten in den großen Repositorys können schneller analysiert werden, sodass mehr Echtzeitergebnisse zur Verfügung stehen. Außerdem lassen sich neue Analysearten flexibler durchführen.
Viele Unternehmen haben keinen ROI erzielt, weil die Qualität der Daten in ihren Lakes ungenügend war oder weil sie – ohne zuvor Anwendungsfälle zu definieren – vorschnell viel Geld für den Data Lake ausgegeben haben.
Data Lakes werden oft verwendet, um Big Data zu speichern und zu verarbeiten.
Beschreibung
In einem Data Lake werden große Mengen an Rohdaten gespeichert. Die Daten können aus allen Bereichen eines Unternehmens stammen: von strukturierten Betriebs- und Transaktionsdatensystemen, die den Unternehmensbetrieb gewährleisten, bis hin zu unstrukturierten externen Daten, z. B. Kundenwünschen.
Ursprünglich sollten mit Data Lakes die traditionellen Data Warehouses verbessert werden. In Letzteren mussten Daten vor dem Speichern erst bearbeitet und bereinigt werden. Neue Analysearten einzuführen war umständlich, denn dazu mussten neue Daten aufbereitet und im Warehouse erfasst werden.
Mit Data Lakes wurden diese Probleme gelöst, da Daten erst im Rohzustand erfasst und später analysiert werden.
So konnten zwar einige der Schwierigkeiten von Data Warehouses behoben werden, das größte Problem aber blieb bestehen: Wie lassen sich die gesammelten Daten wertschöpfend verwenden?
Denn das reine Erfassen und Speichern von Daten in einem Lake führt nicht dazu, dass ein Mehrwert erzielt wird. Viele Organisationen zeigten sich nach ihren Erfahrungen mit Data Lakes enttäuscht, da die Datenqualität nicht ausreichend war. Fakt ist: Ohne vorherige Datenkuratierung enthält der Data Lake womöglich doppelte Daten oder Daten von schlechter Qualität.
Vorteile
Data Lakes sind flexibler und schneller als traditionelle Data Warehouses. Wenn Sie es richtig angehen, können Sie dort Big Data speichern und analysieren und erhalten dadurch neue Einblicke, z. B. zur Unternehmensleistung oder zur Ermittlung neuer Kundentrends.
Unternehmen nutzen dieses Modell auch, um große öffentliche Datensätze in ihre Analysen einzubinden. So lassen sich mit Wetterdaten z. B. die Auswirkungen von gutem Wetter auf den Einzelhandel prognostizieren oder mit Kartendaten die Transportwege für die Lieferkette optimieren.
Trade-offs
Eine Faustregel besagt: Ungenutzte Daten vergammeln – wie reife Bananen. Ob Sie nun ein Data Warehouse, einen Data Lake oder ein Data Mesh einrichten möchten, Sie sollten sich auf jeden Fall im Vorfeld überlegen, wie die Daten verwendet werden sollen. Wenn Sie unbereinigte Daten in einen Data Lake einspeisen, werden die Daten nicht strukturiert, d. h. sie sind auch bei der Weiterverarbeitung noch im Rohzustand.
Wird das Modell richtig angewendet – also mit entsprechenden Fokus auf die Datennutzung –, können Sie mit dieser Technologie Ihre Datenpläne umsetzen.
Viele Organisationen haben schlechte Erfahrungen mit ihren Data Lakes gemacht, weil sie im Vorfeld nicht festgelegt hatten, wie die Daten verwendet werden sollen. Wenn Sie zuerst konkrete Anwendungsfälle definieren, liefert ein Data Lake schneller relevante Ergebnisse.
Anwendung
Data Lakes sind für große Datenprojekte geeignet, z. B. um Daten aus IoT-Installationen, zu Nutzerverhalten bei Ereignissen oder zu Finanztransaktionen zu erfassen.
Ähnliche Beiträge
Welches Thema sollen wir für Sie entschlüsseln?
Hinterlassen Sie Ihre E-Mail-Adresse und wir melden uns, wenn der Begriff decodiert wurde.