Was ist ein Data Warehouse?

Beim Data Warehouse handelt es sich um ein Datensystem, das hauptsächlich in Unternehmen verwendet wird. Das zentrale Datenbanksystem wird  zu Analysezwecken genutzt.

Data Warehouse - Die Wortherkunft

Data Warehouse ist die Bezeichnung für einen Speicherort/eine Plattform, auf der alle Daten der verschiedenen Systeme, die eine Firma verwendet, zentral gespeichert werden. Die Plattform ist sozusagen nichts anderes als ein Datenlager. Ein Datenlager, dessen Inhalt (Daten) zu Analysezwecken verwendet wird.

Welche Vorteile bietet die Nutzung eines Data Warehouses?

  • Alle Daten aus verschiedenen Systemen, die in einer Firma verwendet werden, werden zentral gesammelt.
  • Alle Daten stehen strukturiert und konsistent auf einem zentralen System zur Verfügung, was einen einfachen Datenzugriff ermöglicht.
  • Effizientere Datenverwaltung wird sichergestellt, da alle Daten mit wenigen Klicks abgerufen und gesichert werden können.

Wissenswert: Ein Data Warehouse ist so konzipiert, dass Datenauszüge mithilfe von Data Access Tools (Data Marts) möglich sind. Das bedeutet, dass die Daten nach individuellen Vorgaben und Mustern analysiert werden können. Eben diese Analysen sind die Basis, um wichtige betriebliche Kennzahlen zu ermitteln. Alle Prozesse, die bei der Beschaffung, der Bereitstellung, der Sicherung und der Verwaltung der Daten anfallen, werden ebenfalls unter dem Begriff „Data Warehouse“ bzw „Data Warehousing“ zusammengefasst.

Wie ist ein Data Warehouse aufgebaut?

  • Beschaffung und Extraktion der Daten aus allen Systemen
  • Datenspeicherung/Langzeitarchivierung
  • Data Marts/Bereitstellung der Daten
  • Auswertung der Daten

Data Warehouse - Die technologische Grundlage

Insgesamt zeigt die Architektur von Data Warehouse vier verschiedene Bereiche (Quellsysteme, Data Staging Area, Data Presentation Area und Data Access Tools). Im ersten Schritt erfolgt eine Bereitstellung aller Daten, die aus den verschiedenen Systemen bezogen werden. Die Extrahierung, Strukturierung und Transformation der Daten wird von der Staging Area des Data Warehouse übernommen.

Darüber landen die Daten auch in der Datenbank des Data Warehouse. Bei dieser Datenbank handelt es sich um die sogenannte Data Presentation Area. Auf diese und die nachgelagerten Systeme kann separat zugegriffen werden. Der Zugriff auf die gespeicherten Daten der verschiedenen Ebenen erfolgt mit Data Access Tools (Data Marts). Normalerweise werden beim Data Warehouse relationale Datenbanken verwendet. Das erlaubt es, dass die Datenabfrage mithilfe von SQL-Abfragen umgesetzt werden kann.

Wissenswert: Geht es darum, relativ große Datenmengen zu speichern, wird oft auf sogenannte OLAP-Datenbanken ausgewichen. In der Regel werden die Daten des Data Warehouse regelmäßig aktualisiert und durch neue ergänzt. Mittlerweile kommen aber auch immer mehr Systeme zum Einsatz, die einen Datenzugriff in Echtzeit zulassen.

Das Data Warehouse ist ein wichtiges Werkzeug, um auswertende und operative Systeme voneinander zu trennen. Es erlaubt steuerbare Datenanalysen in Echtzeit.

Wo kommt ein Data Warehouse zum Einsatz?

Ein Data Warehouse kommt in Firmen in den verschiedensten Bereichen zum Einsatz. Es ist ein wichtiges Werkzeug für Entscheider, um anhand der Analysen und ermittelten Unternehmenskennzahlen fundierte Entscheidungen treffen zu können. So kann ein Data Warehouse für die Ressourcenermittlung, die Kostenermittlung, die Analyse von unternehmenseigenen Prozessen (z. B. Produktion, Vertrieb usw.), dem Ermitteln von Unternehmenskennzahlen und der Erstellung von Statistiken und Reports verwendet werden. Aber auch für die Bereitstellung von Daten, sowie für deren Harmonisierung und Strukturierung ist ein Data Warehouse unersetzlich.

Data Warehouse und Data Lakes sind untrennbar miteinander verbunden

Das Data Warehouse bezieht sich hauptsächlich auf Daten, die in strukturierter Form in SQL-Datenbanken erfasst wurden. Das kann aber schwierig werden, vor allem im Big-Data-Umfeld. Hier ist ein Zugriff auf große und unstrukturierte Datenmengen Gang und Gäbe. Datenmengen, die die Kapazitäten von SQL-Datenbanken bis an ihre Grenzen bringen. Aus diesem Grund wird das Data Warehouse in Unternehmen ab einer bestimmten Größe mit dem Data Lake kombiniert.

Was ist ein Data Lake?

Ein Data Lake ist so konzipiert, dass das Ablegen von großen Datenmengen aufgrund der hohen Speicherkapazität kein Problem ist. Dabei ist ein Data Lake auch fähig, große und unstrukturierte Datenmengen zu verarbeiten.