TestmanagementDie Welt verändern, ein Bug nach dem anderen…
Wir ertrinken in Informationen und hungern nach Wissen.
John Naisbitt
Business Intelligence (BI) und Datawarehouse-Systeme (DWH)
Unter Business Intelligence bezeichnet man Verfahren und Prozesse zur semantischen Analyse von Daten in elektronischer Form. Ziel ist die Gewinnung von Erkenntnissen, die bessere operative oder strategische Entscheidungen ermöglichen. Intelligence ist im Deutschen als "Information" zu verstehen.
Im Idealfall gibt es ein BusinessIntelligence Competence Center (BICC), dessen Aufgabe es ist, mit allen Fachbereichen in permanentem Austausch zu stehen, wie durch Business Intelligence Business Benefits erzeugt werden können (BI-Requirement-Management).
Ein Datawarehouse ist grundsätzlich wie folgt aufgebaut:
Zulieferung durch Datenquellen beispielsweise aus ERP, CRM, SAP und Flatfiles
Speicherung und Bereitstellung im DWH (Staging, Data Mart, Meta-Daten) durch den ETL-Prozess (Extraktion, Transformation und Laden)
Reporting an Endbenutzer, Informationssysteme, analytische Applikationen und Data Mining
Bereits im ETL-Prozess entstehen eine Reihe von Fragen, die testrelevant sein können:
Identifikation von fehlerhaften Daten durch Plausiblitätsprüfungen.
Feststellen von nicht bereinigten fehlerhaften Daten aus Vorsystemen.
Technische Fehlerquellen, die nicht transparent sind.
Daten aus heterogenen Quellsystemen wurden nicht harmonisiert und in das erwartete Format des DWH gebracht.
Möglicherweise fehlen auch Aggregationen, so dass gewünschte Auswertungen nicht erfolgen können.
Fachbereichsspezifische Anforderungen werden in sogenannten Data Marts abgelegt. Diese sind meist voraggregiert und somit performant. Via OLAP werden zunehmend Daten aus den Fachabteilungen bereitgestellt. Dabei spielen multidimensionale Sichten auf Aggregationen von operativen Daten in OLAP-Berichtswürfeln eine Rolle.
Auswahl einiger Grundoperationen:
Slice Ausschneiden von Scheiben
TOP
Dice Ein Teilwürfel
Pivoting Drehen in eine andere Dimension
Drill Down Auf detaillierte Werte herunterbrechen
Drill Up Verdichten auf ins höhere Hierarchiestufe
Die Informationsbereitstellung erfolgt in Form von Reports über die Frontends. Hier gibt es eine große Vielfalt von Möglichkeiten.
Eines der Hauptprobleme ist jedoch das By-Pass-Reporting. Dies tritt immer dann auf, wenn Reports auf Basis von parallelen Datenabzügen aus den operativen Systemen erzeugt werden. Dadurch entsteht ein Reihe von negativen Effekten wie beispielsweise:
keine Reporting-Sicherheit
Qualitätsverluste
fehlende Transparenz
Vertrauensverluste
Akzeptanzverluste
Neben vielen neuen Begriffen, die in der IT in großer Anzahl entstehen, jedoch meist eine längere Zeit brauchen, um sich durchzusetzen, anbei folgende: Big Data bezeichnet Daten-Mengen, die zu groß, zu komplex sind, oder sich zu schnell ändern, um sie mit klassischen Methoden der Datenverarbeitung auszuwerten. Der Begriff Big Data unterliegt als Schlagwort derzeit einem kontinuierlichen Wandel. So wird mit Big Data ergänzend auch oft der Komplex der Technologien beschrieben, die zum Sammeln und Auswerten dieser Datenmengen verwendet werden.
Hadoop Distributed File System (HDFS) ist ein hochverfügbares, leistungsfähiges Dateisystem zur Speicherung sehr großer Datenmengen auf den Dateisystemen mehrerer Rechner (Knoten). HDFS unterstützt Dateisysteme mit mehreren 100 Mio. Dateien. Cloudera und Hortonworks sind zwei bekannte Anbieter von Hadoop.
Der Anspruch an ein gut funktionierendes Datawarehouse ist hoch. In vielen Fällen driften Anspruch und Wirklichkeit voneinander ab. Wir versuchen dies zu verhindern.
Ein Data-Warehouse (DWH) ist eine Datenbank, in der Daten aus unterschiedlichen Quellen in einem einheitlichen Format zusammengefasst werden. Die Daten werden von den Datenquellen bereitgestellt und im ETL-Prozess in das Data-Warehouse geladen und dort vor allem für die Datenanalyse (OLAP) und zur betriebswirtschaftlichen Entscheidungshilfe in Unternehmen sowie zum Data-Mining langfristig gespeichert.
Als Business Intelligence (BI) bezeichnet man Verfahren und Prozesse zur semantischen Analyse von Daten in elektronischer Form. Ziel ist die Gewinnung von Erkenntnissen, die bessere operative oder strategische Entscheidungen ermöglichen. Intelligence ist im Deutschen als "Information" zu verstehen.
Aufgabe des Business Intelligence Competence Center (BICC) ist es mit allen Fachbereichen in permanentem Austausch zu stehen, wie durch Business Intelligence Business Benefits erzeugt werden können.
Enterprise resource planning (ERP) ist eine komplexe Software für die Planung und Verwaltung der Ressourcen eines Unternehmens. Beispielsweise für die Materialwirtschaft, Produktion, Einkauf, Finanz- und Rechnungswesen, Controlling, Personalwirtschaft usw. Bekannte Anbieter sind SAP, Microsoft, Infor, Oracle u.v.a.m.
Customer-Relationship-Management (CRM) bezeichnet die konsequente Ausrichtung einer Unternehmung auf ihre Kunden und die systematische Gestaltung der Kundenbeziehungsprozesse. Die dazugehörende Dokumentation und Verwaltung von Kundenbeziehungen ist ein wichtiger Baustein und ermöglicht ein vertieftes Beziehungsmarketing. Mittels CRM werden diese Kundenbeziehungen gepflegt, was sich maßgeblich auf den Unternehmenserfolg auswirken soll.
Unter einem Flatfile versteht man ein Textdatei, die in einem Texteditor im Klartext betrachtet werden kann. HTML-Quellcode ist ein Flatfile, ebenso PHP- oder auch CSS-Dateien.
Staging ist ein Prozess der Informationsintegration, in dem Daten in einem Datenbereich temporär zwischengespeichert werden, um sie dort zu bereinigen und zu transformieren. Nach dem Bereinigungs- und Transformationsschritt werden die Daten in eine Zieldatenbank geladen. Staging wird typischerweise bei der Implementierung eines ETL-Prozesses verwendet. Dieser Prozess dient dazu, Daten aus einer Reihe von operativen Datenbanken in einer zentralen Datenbank - häufig in ein Data Warehouse zusammenzuführen. Dort können die Daten mittels Methoden wie u. a. OLAP, Data-Mining, Text Mining analysiert werden.
Ein Data-Mart ist eine Kopie des Teildatenbestandes eines Data-Warehouses (DWH).
Extract, Transform, Load (ETL) ist ein Prozess, bei dem Daten aus mehreren ggf. unterschiedlich strukturierten Datenquellen in einer Zieldatenbank (DWH) vereinigt werden.
Unter dem Begriff betriebliches Berichtswesen (auch Reporting) versteht man die Einrichtungen, Mittel und Maßnahmen eines Unternehmens zur Erarbeitung, Weiterleitung, Verarbeitung und Speicherung von Informationen über den Betrieb und seine Umwelt in Form von Berichten. Berichte sind für eine vorgegebene Zielsetzung zusammengefasste Informationen.
By-Pass-Reporting tritt dann auf, wenn Reports auf Basis von parallelen Datenabzügen im DWH aus den operativen Systemen erzeugt werden.
Online Analytical Processing (OLAP). OLAP-Systeme beziehen ihre Daten entweder aus den operativen Datenbeständen eines Unternehmens oder aus einem Data-Warehouse. Hier steht die Durchführung komplexer Analysevorhaben im Vordergrund, welche ein sehr hohes Datenaufkommen verursachen. Das Ziel ist, durch multidimensionale Betrachtung dieser Daten ein entscheidungsunterstützendes Analyseergebnis zu gewinnen. Die OLAP zugrunde liegende Struktur ist ein OLAP-Würfel, der aus der operationalen Datenbank erstellt wurde. Dieser folgt einer multidimensionalen, datenpunktorientierten Logik im Gegensatz zur zeilenorientierten Logik beim Online-Transaction-Processing (OLTP).
Big Data bezeichnet Daten-Mengen, die zu groß, zu komplex sind, oder sich zu schnell ändern, um sie mit klassischen Methoden der Datenverarbeitung auszuwerten. Der Begriff Big Data unterliegt als Schlagwort derzeit einem kontinuierlichen Wandel. So wird mit Big Data ergänzend auch oft der Komplex der Technologien beschrieben, die zum Sammeln und Auswerten dieser Datenmengen verwendet werden.
Hadoop Distributed File System (HDFS) ist ein hochverfügbares, leistungsfähiges Dateisystem zur Speicherung sehr großer Datenmengen auf den Dateisystemen mehrerer Rechner (Knoten). HDFS unterstützt Dateisysteme mit mehreren 100 Mio. Dateien. Cloudera und Hortonworks sind zwei bekannte Anbieter von Hadoop.