Business Intelligence

Einführung in Data Warehousing und Data Mining

Einführung in Data Warehousing und Data Mining


Kartei Details

Karten 100
Sprache Deutsch
Kategorie Informatik
Stufe Universität
Erstellt / Aktualisiert 29.06.2015 / 11.01.2024
Weblink
https://card2brain.ch/box/business_intelligence4
Einbinden
<iframe src="https://card2brain.ch/box/business_intelligence4/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Grundzüge der Data Warehouse Modellierung: STAR/SNOWFLAKE

IE-Notation nach J. MARTIN

  1. Darstellung der Kardinalität
  2. identifizierende und nichtidentifizierende Beziehungen

Ebenen der Modellierung

  1. Beschreibungsebenen eines Informationssystems nach SCHEER ARIS: Architektur integrierter Informationssysteme
  2. Ebenen der Data-Warehouse-Modellierung

Multidimensional Entity / Relationship (ME/R)

  1. Notation, sinngemäß angegeben z. B. bei KURZ

Fakten- und Dimensionstabellen

Die Faktentabelle enthält die zu analysierenden be-triebswirtschaftlichen Kennziffern. Ihr zusammenge-setzter Primärschlüssel verweist auf die unterste Ebene der die Fakten beschreibenden Dimensionen.

Sonderform: factless fact table (vgl. unten)

Die Dimensionstabellen enthalten die deskriptiven Daten der Dimensionen.

Starschema

Im Starschema ordnen sich die Dimensionstabellen sternförmig um die Faktta-belle(n) - jeweils in 1:n - Beziehung - an. Das Schema ist denormalisiert und mit dem Nachteil behaftet, dass hierarchische Abhängigkeiten und Beziehungen der Dimensionen untereinander nicht dargestellt werden können.

Performance durch Redundanz

Snowflakeschema

Die Nachteile des Starschemas werden beim Snowflakeschema dadurch besei-tigt, dass die vorhandenen Redundanzen durch weitere 1:n-Beziehungen aufge-löst werden. Es ergibt sich ein streng normalisiertes Datenmodell.

Jede Implementierung, die ein streng normalisiertes Datenmodell umsetzt, ist Join-intensiv. In Abhängigkeit von den dominanten Analyseanforderungen ist am Snowflakeschema ein Performance-Tuning möglich.

Mischformen von Star- und Snowflakeschema

  1. Galaxy (Multi-Fakttabellen-Schema)
  2. Erweitertes Star-Schema in SAP BW

 

Die Transformation eines Datenmodells für operative Anwendungen (ERM) in ein OLAP-geeignetes analytisches Datenmodell bedeutet nach LUSTI:

 

• überflüssige operative Daten eliminieren (z. B. ist der Rechnungsstatus [offen, bezahlt, Zahl der Mahnungen] für OLAP irrelevant).

• Zeitdimension integrieren (Zeithierarchie!)

• einfache Vorberechnungen ausführen ( z. B. Betrag = Menge x Stückpreis)

• Verbundoperationen einsparen (Denormalisierung)

Vom ERM zum multidimensionalen Modell

Zusammenfassende Darstellung [Lusti: a.a.O., S. 173]

siehe Grafik

OLAP

Begriffsbestimmung

„OLAP is the name given to the dynamic enterprise analysis required to create, manipulate, animate, and synthesize information from exegetical, contemplative, and formulaic data analysis models."

[CODD et al, 1993.]

Die Outputschnittstelle muss vor allem den Auswertungsbedürfnissen der Endnutzer Rechnung tragen, die von Standardberichten bis hin zu ursachenforschenden Ad-hoc-Anfragen eine große Bandbreite haben. In diesem Zusammenhang gewinnt OLAP (Online Analytical Processing), eine Softwarelösung für die multidimensionale Analyse, eine Schlüsselfunktion. OLAP wurde von E. F. CODD, dem Begründer der Relationentheorie, ausgearbeitet (Mitte der 80er Jahre 42 Evaluierungsregeln für relationale DBMS).

Entwicklungskette: reationale Datenbank SQL OLAP (MDX)

MDX = Multidimensional Expressions multidimensionales SQL

12 Evaluierungsregeln für OLAP-Tools (1-6)

1 Mehrdimensio-nale konzeptionelle Sichten

Der Endbenutzer muss eine ihm vertraute, mehrdimensionale Sicht auf alle notwendigen Daten erhalten. Durch die Aufgliederung betriebswirtschaftlich relevanter Kennzahlen (z.B. Umsatz) in Dimensionen (z.B. Produkt, Zeit) entsteht ein multidimensionales Datenmodell als Abbild der realen Unternehmenswelt.

2 Transparenz

OLAP-Werkzeuge müssen sich problemlos in die bestehende Benutzer-umgebung integrieren lassen. Dem Endbenutzer wird eine einheitliche Benutzeroberfläche zur Verfügung gestellt; alle technischen Details sollen ihm verborgen bleiben.

3 Zugriffsmöglichkeiten

OLAP-Systeme müssen den Zugriff auf die verschiedenartigen Daten-quellen und -formate unterstützen, damit dem Endnutzer ein logisch kon-sistentes und einheitliches Datenmodell für seine Analysen zur Verfügung steht.

4 Stabile Antwortzeiten

Auch bei steigender Anzahl der Dimensionen und/oder bei Zunahme der Datenmengen müssen stabile Antwortzeiten und Berichtsleistungen gewährleistet sein.

5 Client-Server- Architektur

OLAP-Systeme müssen auch in Client-Server-Umgebungen eingesetzt werden können. Sie müssen in der Lage sein, auf verteilte Datenquellen zuzugreifen, diese logisch zu integrieren und beliebig zu verdichten.

6 Grundprinzip gleichgestellter Dimensionen

Alle Datendimensionen müssen hinsichtlich ihrer Struktur und Funktiona-lität übereinstimmen. Demzufolge sollte für alle Dimensionen nur eine logische Struktur bestehen, damit auch jede neue Funktion auf alle Di-mensionen anzuwenden ist.

12 Evaluierungsregeln für OLAP-Tools (7-12)

7 Dynamische Ver-waltung dünnbesetzter Matrizen


Charakteristisch für mehrdimensionale Datenbanken sind sogenannte dünnbesetzte Matrizen ( = ungenutzter Speicherplatz). Unter Berücksichti-gung dieses Charakteristikums muss die Datenorganisation eines OLAP-Systems für eine effiziente und sinnvolle Speicherung der Daten sorgen.

8 Mehrbenutzer-fähigkeit


Durch OLAP-Systeme muss ein Mehrbenutzerbetrieb möglich sein, bei dem sowohl konkurrierender Datenzugriff

als auch wichtige Sicherheits- und Integritätsregeln unterstützt werden müssen.


9 Unbeschränkte kreuzdimensio-nale Operationen


Das OLAP-System muss dem Endnutzer die problemlose Ausführung be-stimmter Operationen (z.B. Berechnungen) innerhalb bzw. über einzelne Dimensionen hinweg ermöglichen, wobei zugrundeliegende Berechnungsvorschriften für den Nutzer transparent bleiben sollen.

10 Intuitive Daten-manipulation


OLAP-Systeme müssen eine intuitive Navigation und Manipulation in der Datenbasis unterstützen, indem dem Endnutzer flexible und benutzer-freundliche Oberflächen zur Verfügung gestellt werden.

11  Flexibles Be-richtswesen


Die Generierung von Berichten aus dem mehrdimensionalen Datenmodell muss für den Endnutzer einfach und flexibel möglich sein. Das OLAP-Sy-stem sollte sowohl Standardberichte zur Verfügung stellen als auch die Erzeugung individueller Berichte und Grafiken unterstützen.

12 Unbegrenzte Di-mensions- und Aggregationsstufen


OLAP-Systeme müssen in der Lage sein, eine unbegrenzte Anzahl von Dimensions- und Verdichtungsstufen zu unterstützen, wobei für betriebs-wirtschaftliche Analysen die Beschränkung auf max. 20 Dimensionen aus-reichend ist.

FASMI-Definition nach PENDSE/CREETH

F Fast
Die durchschnittliche Antwortzeit bei Abfragen sollte bei 5 sec. liegen, wobei sie bei einfachen nicht mehr als 1 bis 2 sec. und bei komplexen Analysen max. 20 sec. betragen sollte.

A Analysis of
Das OLAP-System sollte über alle für die Datenanalyse notwendi-gen analytischen und statistischen Funktionalitäten verfügen, die den Endnutzer dazu befähigen, auch ohne Programmierkennt-nisse neue Ad Hoc-Abfragen und -Kalkulationen durchzuführen.

S Shared
Das OLAP-System sollte über alle Sicherheitsfunktionen wie ein RDBMS verfügen (z.B. verschiedene Schutzmechanismen bei Mehrbenutzerbetrieb, Sperrverfahren bei konkurrierenden Zugrif-fen).

M Multidimen-sional
Das OLAP-System sollte die multidimensionale konzeptionelle Sicht auf die Daten unterstützen sowie die Bildung von Hierarchien innerhalb der Dimensionen zulassen.

I Information
Das OLAP-System sollte alle vom Endbenutzer benötigten Infor-mationen, unabhängig von Datenherkunft und -menge, bereitstel-len.

Dashboard

Ein Dashboard (auch Kennzahlen-Cockpit, Management Cockpit, Scorecard oder Cockpit-Chart) ist eine Visualisierungsform großer Mengen von meist verteilten Informationen in verdichteter Form, z.B. als Kennzahlen, Messpunkte oder Key Performance Indikatoren (KPI).

Der Grad sowie die Visualisierungsform der Verdichtung sind ziel- und adressatenabhängig.

Die Verdichtung beinhaltet eine Quantifizierung und darauf aufbauend eine Qualifizierung von Informationen, um den Adressaten große Mengen von Informationen übersichtlicher darzustellen. Häufig zu finden ist die Darstellung von Kennzahlen als Ampel-, Tachometer- oder Thermometer-Darstellung.

Multidimensional Expressions (MDX)

Multidimensional Expressions (MDX) ist eine Datenbankabfragesprache für OLAP-Datenbanken. Sie wurde von Microsoft vorangetrieben und etabliert sich als Industriestandard. MDX wurde wesentlich von Mosha Pasumansky entwickelt. MDX ist insgesamt sehr komplex und mächtig. [Wikipedia]

geht von SQL aus, vederwendet gleichartige Syntax, erlaubt multidimensionale Analysen via Abfragesprache auszuführen

OLAP-Anwendungsbeispiel

OLAP stellt unterschiedlichen Nutzern unterschiedliche Sichten auf die zu analysierenden Daten zur Verfügung.

Realisierung rollen- und funktionsabhängiger Sichten erfordert vielfältige, leicht zu handhabende Navigationsmöglichkeiten. In diesem Zusammenhang sind vor allem folgende Techniken von Interesse, die jeweils von der Existenz eines Datenwürfels (Hypercube) ausgehen:
• Slicing: Abschneiden von Scheiben aus dem Datenwürfel
• Dicing: Herausschneiden eines speziellen Unterwürfels
• Pivoting: Drehen, Rotieren des Datenwürfels
• Drilling: Aufbrechen, Detaillierung, Verfeinerung (Varianten: u. a. Drill Down, Drill Up, Drill Across; Drill Anywhere)

Prozessorientiertes Vorgehen

  1. Continuous Business Improvement Cycle als Ausgangspunkt

siehe Grafik

2.Zwei Konsequenzen für das Data Warehousing:
• Das Data Warehouse ist niemals ein Endzustand, sondern immer ein Prozess.
iterativer Analyseprozess
iteratives Phasenmodell bei Einführung/Erweiterung
• Data Warehouse erhält Schlüsselrolle im Unternehmen und wird zum bleibenden Kostentreiber.

Einbeziehung des Top
Managements in Data Warehouse- Gestaltung wird zum unterneh-merischen Erfolgsfaktor.

DWH Lifecycle Diagramm nach KIMBALL

siehe Grafik

Data Mining

Sinkende Verdopplungszeit der Informationen, aber nur 5 ... 10 % dieser Informationen werden analysiert.

Ziel des Data Mining ist die automatische und nichttriviale Suche nach Wis-sen in Massendaten. Die Suchmethoden sind nichttrivial, weil sie statt der herkömmlichen Datenbankwerkzeuge komplexe Methoden aus den Berei-chen der wissensbasierten Systeme und der Statistik verwenden. [Lusti, a.a.O., S. 250]


Data Mining ist damit der Prozess (nicht das Tool!), um neue gehaltvolle Be-ziehungen, Muster und Trends zu entdecken, indem mittels statistischer und mathematischer Methoden große Datenmengen gesiebt werden. [Integrata]
 

Klassen von Data Mining-Anwendungen [nach Lusti, a.a.O., S. 252]

siehe Grafik

CRISP-DM

CRISP-DM-Vorgehensmodell (Cross-Industry Standard Process for Data Mining).
Gemeinschaftsprojektes von Industrieunternehmen, Herstellern von Data-Mining-Produkten und Anbietern von Datenbanklösungen unter Schirmherrschaft der Europäischen Kommission 1997.

OLAP – Data Mining

siehe Grafik

Die Funktionalität der OLAP-basierten Warenkorbanalyse ist geringer im Vergleich zu den Möglichkeiten von echtem Data Mining.

Clustering auf der Basis neuronaler Netze

Künstliche neuronale Netze entstammen der Biologie. Sie haben das Ziel, das menschliche Gehirn nachzubilden. In der Informatik werden sie dem Bereich der Künstlichen Intelligenz zugeordnet. Wesentliche Bausteine sind die Neuronen. "Ein Neuron ist eine lernfähige Verarbeitungseinheit, die Eingaben aus anderen Neuronen oder der Umwelt verarbeitet und an weitere Neuronen oder die Um-welt ausgibt." [M. Lusti (1999, S. 319 f.] Zu den Komponenten eines künstlichen Neu-rons zählen:
• n gewichtete Eingänge
• Transformationsfunktion
• ein Ausgang

Neuronale Netze

Künstliche neuronale Netze beinhalten in Schichten angeordnete Neuronen. Über die Inputschicht wer-den Daten aufgenommen und durch die Output-schicht Ausgabewerte be-reitgestellt. Input- und Out-putschicht sind über ver-steckte Schichten mitein-ander verbunden, wobei zwischen allen Neuronen benachbarter Schichten gewichtete Verbindungen bestehen (vgl. Lusti, S. 326)

KOHONEN-Netze

Eine Sonderform künstlicher neuronaler Netze (kNN) bilden die Selbstorgani-sierenden Karten oder, von ihrem Ent-wickler Teuvo Koho-nen 1984 als Self Organizing Maps (SOM) oder Self Or-ganizing Feature Maps (SOFM) vorge-stellt . Einen wesent-lichen Unterschied zu allen anderen Netzty-pen bildet bei diesem relativ jungen Ansatz die besondere Bedeutung der geometrischen Anordnung der Neuronen. Mit Hilfe dieser Eigenschaft lassen sich SOM-Modelle in vielfältigen Anwendungen einsetzen. Ihr Haupteinsatzgebiet stellt dabei die Klassenbildung und Klassifizierung von Daten innerhalb des Data Mining dar, jedoch werden sie auch für Prognose-Aufgaben oder im Bereich der Optimierung eingesetzt.

Charakteristisch für Kohonen-Netze ist, dass das Lernverfahren ohne Lehrer stattfindet unüberwachtes Netz. Der Nachteil unüberwachter Netze liegt darin, dass das Wissen über die Zusammenhänge eines neuronalen Netzes nicht dokumentiert sind. Dies be-deutet, dass das Netz zwar funktioniert, aber niemand sagen kann, warum es funktio-niert. Das Netz ist eine black-box, deren Wissen nirgendwo festgehalten ist.

BI Maturity Model

Standard vs Flexibilität

zufällig vs Machtbenutzer

Entscheidungslatenz vs Datenfrische

Kosten vs Wert