Business Intelligence (BI) means the methods and procedures for semantic analysis of data in electronic form. The term intelligence in the German language is understood as information. Its goal is the acquisition of knowledge to enhance operative and strategic decision making.
Under ideal conditions, a BusinessIntelligence Competence Center (BICC)existswhich is in permanent communication with all departments, and through which Business Intelligence Business Benefits can be created (BI-Requirement-Management).
A Data Warehouseis basically structured as follows:
Delivery through data sources, for example: ERP, CRM, SAP and Flatfiles
Storage and activation in DWH (Staging, Data Mart, Meta-Daten) through the ETL-Process (Extraction, Transformation and Loading)
Reporting of information systems, analytical applications and Data Mining to the user.
Already in the ETL-Process a lot of questions will arise which can be relevant to testing:
Identification of defective data through proving plausibility.
Identification of defective data from the previous systems.
Technical sources of mistakes which are not transparent.
Data from heterogenes sources which are not attuned and are not in the expected format of the DWH.
Possibly aggregations are missing so that the desired output cannot be produced.
Department-specific requirements will be stored in Data Marts. These are mostly pre aggregated and therefore well functioning. Through OLAP (Online Analytical Processing), the increasing accumulation of data will be provided to the management. Here multidimensional views on aggregations from operative data in OLAP Cubes play a role.
Auswahl einiger Grundoperationen:
Slice Cut to a slice
TOP
Dice Part of a cube
Pivoting Rotation and dimension
Drill Down Detailed Values breakdown
Drill Up Condensed to a higher level
The information is provided in the form of reports through the front-ends. Here are possible variations. One of the main problems, however, is by-pass-reporting. This usually occurs if reports based on parallel data selections are created out of the operative system.
Thereby a lot of negative effects can arise:
no reporting safety
loss of quality
lack of transparency
lack of trust
lack of acceptance
Among many of the new terms created in Information Technology (IT), the following are essential: Big Data describes data quantities which are too large, too complex or too quickly changing to produce using classic methods of IT. Often the complexities of technology are described with the term Big Data which is used for the collecting and evaluating such quantities of data.
Hadoop Distributed File System (HDFS) is a highly available, efficient data system for storage of very large qualities of data in the filing systems of many computers. HDFS supports data systems with several hundred million files. Cloudera and Hortonworks are two well known providers of Hadoop.
The expectations of a well functioning Data Warehouse System are extremely high. Often expectations and reality fall far apart. We try to close this gap.
Ein Data-Warehouse (DWH) ist eine Datenbank, in der Daten aus unterschiedlichen Quellen in einem einheitlichen Format zusammengefasst werden. Die Daten werden von den Datenquellen bereitgestellt und im ETL-Prozess in das Data-Warehouse geladen und dort vor allem für die Datenanalyse (OLAP) und zur betriebswirtschaftlichen Entscheidungshilfe in Unternehmen sowie zum Data-Mining langfristig gespeichert.
Als Business Intelligence (BI) bezeichnet man Verfahren und Prozesse zur semantischen Analyse von Daten in elektronischer Form. Ziel ist die Gewinnung von Erkenntnissen, die bessere operative oder strategische Entscheidungen ermöglichen. Intelligence ist im Deutschen als "Information" zu verstehen.
Aufgabe des Business Intelligence Competence Center (BICC) ist es mit allen Fachbereichen in permanentem Austausch zu stehen, wie durch Business Intelligence Business Benefits erzeugt werden können.
Enterprise resource planning (ERP) ist eine komplexe Software für die Planung und Verwaltung der Ressourcen eines Unternehmens. Beispielsweise für die Materialwirtschaft, Produktion, Einkauf, Finanz- und Rechnungswesen, Controlling, Personalwirtschaft usw. Bekannte Anbieter sind SAP, Microsoft, Infor, Oracle u.v.a.m.
Customer-Relationship-Management (CRM) bezeichnet die konsequente Ausrichtung einer Unternehmung auf ihre Kunden und die systematische Gestaltung der Kundenbeziehungsprozesse. Die dazugehörende Dokumentation und Verwaltung von Kundenbeziehungen ist ein wichtiger Baustein und ermöglicht ein vertieftes Beziehungsmarketing. Mittels CRM werden diese Kundenbeziehungen gepflegt, was sich maßgeblich auf den Unternehmenserfolg auswirken soll.
Unter einem Flatfile versteht man ein Textdatei, die in einem Texteditor im Klartext betrachtet werden kann. HTML-Quellcode ist ein Flatfile, ebenso PHP- oder auch CSS-Dateien.
Staging ist ein Prozess der Informationsintegration, in dem Daten in einem Datenbereich temporär zwischengespeichert werden, um sie dort zu bereinigen und zu transformieren. Nach dem Bereinigungs- und Transformationsschritt werden die Daten in eine Zieldatenbank geladen. Staging wird typischerweise bei der Implementierung eines ETL-Prozesses verwendet. Dieser Prozess dient dazu, Daten aus einer Reihe von operativen Datenbanken in einer zentralen Datenbank - häufig in ein Data Warehouse zusammenzuführen. Dort können die Daten mittels Methoden wie u. a. OLAP, Data-Mining, Text Mining analysiert werden.
Ein Data-Mart ist eine Kopie des Teildatenbestandes eines Data-Warehouses (DWH).
Extract, Transform, Load (ETL) ist ein Prozess, bei dem Daten aus mehreren ggf. unterschiedlich strukturierten Datenquellen in einer Zieldatenbank (DWH) vereinigt werden.
Unter dem Begriff betriebliches Berichtswesen (auch Reporting) versteht man die Einrichtungen, Mittel und Maßnahmen eines Unternehmens zur Erarbeitung, Weiterleitung, Verarbeitung und Speicherung von Informationen über den Betrieb und seine Umwelt in Form von Berichten. Berichte sind für eine vorgegebene Zielsetzung zusammengefasste Informationen.
By-Pass-Reporting tritt dann auf, wenn Reports auf Basis von parallelen Datenabzügen im DWH aus den operativen Systemen erzeugt werden.
Online Analytical Processing (OLAP). OLAP-Systeme beziehen ihre Daten entweder aus den operativen Datenbeständen eines Unternehmens oder aus einem Data-Warehouse. Hier steht die Durchführung komplexer Analysevorhaben im Vordergrund, welche ein sehr hohes Datenaufkommen verursachen. Das Ziel ist, durch multidimensionale Betrachtung dieser Daten ein entscheidungsunterstützendes Analyseergebnis zu gewinnen. Die OLAP zugrunde liegende Struktur ist ein OLAP-Würfel, der aus der operationalen Datenbank erstellt wurde. Dieser folgt einer multidimensionalen, datenpunktorientierten Logik im Gegensatz zur zeilenorientierten Logik beim Online-Transaction-Processing (OLTP).
Big Data bezeichnet Daten-Mengen, die zu groß, zu komplex sind, oder sich zu schnell ändern, um sie mit klassischen Methoden der Datenverarbeitung auszuwerten. Der Begriff Big Data unterliegt als Schlagwort derzeit einem kontinuierlichen Wandel. So wird mit Big Data ergänzend auch oft der Komplex der Technologien beschrieben, die zum Sammeln und Auswerten dieser Datenmengen verwendet werden.
Hadoop Distributed File System (HDFS) ist ein hochverfügbares, leistungsfähiges Dateisystem zur Speicherung sehr großer Datenmengen auf den Dateisystemen mehrerer Rechner (Knoten). HDFS unterstützt Dateisysteme mit mehreren 100 Mio. Dateien. Cloudera und Hortonworks sind zwei bekannte Anbieter von Hadoop.