Business Intelligence
Einführung in Data Warehousing und Data Mining
Einführung in Data Warehousing und Data Mining
Kartei Details
Karten | 100 |
---|---|
Sprache | Deutsch |
Kategorie | Informatik |
Stufe | Universität |
Erstellt / Aktualisiert | 29.06.2015 / 11.01.2024 |
Weblink |
https://card2brain.ch/box/business_intelligence4
|
Einbinden |
<iframe src="https://card2brain.ch/box/business_intelligence4/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Grundzüge der Data Warehouse Modellierung: STAR/SNOWFLAKE
IE-Notation nach J. MARTIN
- Darstellung der Kardinalität
- identifizierende und nichtidentifizierende Beziehungen
Ebenen der Modellierung
- Beschreibungsebenen eines Informationssystems nach SCHEER ARIS: Architektur integrierter Informationssysteme
- Ebenen der Data-Warehouse-Modellierung
Multidimensional Entity / Relationship (ME/R)
- Notation, sinngemäß angegeben z. B. bei KURZ
Fakten- und Dimensionstabellen
Die Faktentabelle enthält die zu analysierenden be-triebswirtschaftlichen Kennziffern. Ihr zusammenge-setzter Primärschlüssel verweist auf die unterste Ebene der die Fakten beschreibenden Dimensionen.
Sonderform: factless fact table (vgl. unten)
Die Dimensionstabellen enthalten die deskriptiven Daten der Dimensionen.
Starschema
Im Starschema ordnen sich die Dimensionstabellen sternförmig um die Faktta-belle(n) - jeweils in 1:n - Beziehung - an. Das Schema ist denormalisiert und mit dem Nachteil behaftet, dass hierarchische Abhängigkeiten und Beziehungen der Dimensionen untereinander nicht dargestellt werden können.
Performance durch Redundanz
Snowflakeschema
Die Nachteile des Starschemas werden beim Snowflakeschema dadurch besei-tigt, dass die vorhandenen Redundanzen durch weitere 1:n-Beziehungen aufge-löst werden. Es ergibt sich ein streng normalisiertes Datenmodell.
Jede Implementierung, die ein streng normalisiertes Datenmodell umsetzt, ist Join-intensiv. In Abhängigkeit von den dominanten Analyseanforderungen ist am Snowflakeschema ein Performance-Tuning möglich.
Mischformen von Star- und Snowflakeschema
- Galaxy (Multi-Fakttabellen-Schema)
- Erweitertes Star-Schema in SAP BW
Die Transformation eines Datenmodells für operative Anwendungen (ERM) in ein OLAP-geeignetes analytisches Datenmodell bedeutet nach LUSTI:
• überflüssige operative Daten eliminieren (z. B. ist der Rechnungsstatus [offen, bezahlt, Zahl der Mahnungen] für OLAP irrelevant).
• Zeitdimension integrieren (Zeithierarchie!)
• einfache Vorberechnungen ausführen ( z. B. Betrag = Menge x Stückpreis)
• Verbundoperationen einsparen (Denormalisierung)
OLAP
Begriffsbestimmung
„OLAP is the name given to the dynamic enterprise analysis required to create, manipulate, animate, and synthesize information from exegetical, contemplative, and formulaic data analysis models."
[CODD et al, 1993.]
Die Outputschnittstelle muss vor allem den Auswertungsbedürfnissen der Endnutzer Rechnung tragen, die von Standardberichten bis hin zu ursachenforschenden Ad-hoc-Anfragen eine große Bandbreite haben. In diesem Zusammenhang gewinnt OLAP (Online Analytical Processing), eine Softwarelösung für die multidimensionale Analyse, eine Schlüsselfunktion. OLAP wurde von E. F. CODD, dem Begründer der Relationentheorie, ausgearbeitet (Mitte der 80er Jahre 42 Evaluierungsregeln für relationale DBMS).
Entwicklungskette: reationale Datenbank SQL OLAP (MDX)
MDX = Multidimensional Expressions multidimensionales SQL
12 Evaluierungsregeln für OLAP-Tools (1-6)
1 Mehrdimensio-nale konzeptionelle Sichten
Der Endbenutzer muss eine ihm vertraute, mehrdimensionale Sicht auf alle notwendigen Daten erhalten. Durch die Aufgliederung betriebswirtschaftlich relevanter Kennzahlen (z.B. Umsatz) in Dimensionen (z.B. Produkt, Zeit) entsteht ein multidimensionales Datenmodell als Abbild der realen Unternehmenswelt.
2 Transparenz
OLAP-Werkzeuge müssen sich problemlos in die bestehende Benutzer-umgebung integrieren lassen. Dem Endbenutzer wird eine einheitliche Benutzeroberfläche zur Verfügung gestellt; alle technischen Details sollen ihm verborgen bleiben.
3 Zugriffsmöglichkeiten
OLAP-Systeme müssen den Zugriff auf die verschiedenartigen Daten-quellen und -formate unterstützen, damit dem Endnutzer ein logisch kon-sistentes und einheitliches Datenmodell für seine Analysen zur Verfügung steht.
4 Stabile Antwortzeiten
Auch bei steigender Anzahl der Dimensionen und/oder bei Zunahme der Datenmengen müssen stabile Antwortzeiten und Berichtsleistungen gewährleistet sein.
5 Client-Server- Architektur
OLAP-Systeme müssen auch in Client-Server-Umgebungen eingesetzt werden können. Sie müssen in der Lage sein, auf verteilte Datenquellen zuzugreifen, diese logisch zu integrieren und beliebig zu verdichten.
6 Grundprinzip gleichgestellter Dimensionen
Alle Datendimensionen müssen hinsichtlich ihrer Struktur und Funktiona-lität übereinstimmen. Demzufolge sollte für alle Dimensionen nur eine logische Struktur bestehen, damit auch jede neue Funktion auf alle Di-mensionen anzuwenden ist.
12 Evaluierungsregeln für OLAP-Tools (7-12)
7 Dynamische Ver-waltung dünnbesetzter Matrizen
Charakteristisch für mehrdimensionale Datenbanken sind sogenannte dünnbesetzte Matrizen ( = ungenutzter Speicherplatz). Unter Berücksichti-gung dieses Charakteristikums muss die Datenorganisation eines OLAP-Systems für eine effiziente und sinnvolle Speicherung der Daten sorgen.
8 Mehrbenutzer-fähigkeit
Durch OLAP-Systeme muss ein Mehrbenutzerbetrieb möglich sein, bei dem sowohl konkurrierender Datenzugriff
als auch wichtige Sicherheits- und Integritätsregeln unterstützt werden müssen.
9 Unbeschränkte kreuzdimensio-nale Operationen
Das OLAP-System muss dem Endnutzer die problemlose Ausführung be-stimmter Operationen (z.B. Berechnungen) innerhalb bzw. über einzelne Dimensionen hinweg ermöglichen, wobei zugrundeliegende Berechnungsvorschriften für den Nutzer transparent bleiben sollen.
10 Intuitive Daten-manipulation
OLAP-Systeme müssen eine intuitive Navigation und Manipulation in der Datenbasis unterstützen, indem dem Endnutzer flexible und benutzer-freundliche Oberflächen zur Verfügung gestellt werden.
11 Flexibles Be-richtswesen
Die Generierung von Berichten aus dem mehrdimensionalen Datenmodell muss für den Endnutzer einfach und flexibel möglich sein. Das OLAP-Sy-stem sollte sowohl Standardberichte zur Verfügung stellen als auch die Erzeugung individueller Berichte und Grafiken unterstützen.
12 Unbegrenzte Di-mensions- und Aggregationsstufen
OLAP-Systeme müssen in der Lage sein, eine unbegrenzte Anzahl von Dimensions- und Verdichtungsstufen zu unterstützen, wobei für betriebs-wirtschaftliche Analysen die Beschränkung auf max. 20 Dimensionen aus-reichend ist.
FASMI-Definition nach PENDSE/CREETH
F Fast
Die durchschnittliche Antwortzeit bei Abfragen sollte bei 5 sec. liegen, wobei sie bei einfachen nicht mehr als 1 bis 2 sec. und bei komplexen Analysen max. 20 sec. betragen sollte.
A Analysis of
Das OLAP-System sollte über alle für die Datenanalyse notwendi-gen analytischen und statistischen Funktionalitäten verfügen, die den Endnutzer dazu befähigen, auch ohne Programmierkennt-nisse neue Ad Hoc-Abfragen und -Kalkulationen durchzuführen.
S Shared
Das OLAP-System sollte über alle Sicherheitsfunktionen wie ein RDBMS verfügen (z.B. verschiedene Schutzmechanismen bei Mehrbenutzerbetrieb, Sperrverfahren bei konkurrierenden Zugrif-fen).
M Multidimen-sional
Das OLAP-System sollte die multidimensionale konzeptionelle Sicht auf die Daten unterstützen sowie die Bildung von Hierarchien innerhalb der Dimensionen zulassen.
I Information
Das OLAP-System sollte alle vom Endbenutzer benötigten Infor-mationen, unabhängig von Datenherkunft und -menge, bereitstel-len.
Dashboard
Ein Dashboard (auch Kennzahlen-Cockpit, Management Cockpit, Scorecard oder Cockpit-Chart) ist eine Visualisierungsform großer Mengen von meist verteilten Informationen in verdichteter Form, z.B. als Kennzahlen, Messpunkte oder Key Performance Indikatoren (KPI).
Der Grad sowie die Visualisierungsform der Verdichtung sind ziel- und adressatenabhängig.
Die Verdichtung beinhaltet eine Quantifizierung und darauf aufbauend eine Qualifizierung von Informationen, um den Adressaten große Mengen von Informationen übersichtlicher darzustellen. Häufig zu finden ist die Darstellung von Kennzahlen als Ampel-, Tachometer- oder Thermometer-Darstellung.
Multidimensional Expressions (MDX)
Multidimensional Expressions (MDX) ist eine Datenbankabfragesprache für OLAP-Datenbanken. Sie wurde von Microsoft vorangetrieben und etabliert sich als Industriestandard. MDX wurde wesentlich von Mosha Pasumansky entwickelt. MDX ist insgesamt sehr komplex und mächtig. [Wikipedia]
geht von SQL aus, vederwendet gleichartige Syntax, erlaubt multidimensionale Analysen via Abfragesprache auszuführen
OLAP-Anwendungsbeispiel
OLAP stellt unterschiedlichen Nutzern unterschiedliche Sichten auf die zu analysierenden Daten zur Verfügung.
Realisierung rollen- und funktionsabhängiger Sichten erfordert vielfältige, leicht zu handhabende Navigationsmöglichkeiten. In diesem Zusammenhang sind vor allem folgende Techniken von Interesse, die jeweils von der Existenz eines Datenwürfels (Hypercube) ausgehen:
• Slicing: Abschneiden von Scheiben aus dem Datenwürfel
• Dicing: Herausschneiden eines speziellen Unterwürfels
• Pivoting: Drehen, Rotieren des Datenwürfels
• Drilling: Aufbrechen, Detaillierung, Verfeinerung (Varianten: u. a. Drill Down, Drill Up, Drill Across; Drill Anywhere)
Prozessorientiertes Vorgehen
- Continuous Business Improvement Cycle als Ausgangspunkt
siehe Grafik
2.Zwei Konsequenzen für das Data Warehousing:
• Das Data Warehouse ist niemals ein Endzustand, sondern immer ein Prozess.
iterativer Analyseprozess
iteratives Phasenmodell bei Einführung/Erweiterung
• Data Warehouse erhält Schlüsselrolle im Unternehmen und wird zum bleibenden Kostentreiber.
Einbeziehung des Top
Managements in Data Warehouse- Gestaltung wird zum unterneh-merischen Erfolgsfaktor.
Data Mining
Sinkende Verdopplungszeit der Informationen, aber nur 5 ... 10 % dieser Informationen werden analysiert.
Ziel des Data Mining ist die automatische und nichttriviale Suche nach Wis-sen in Massendaten. Die Suchmethoden sind nichttrivial, weil sie statt der herkömmlichen Datenbankwerkzeuge komplexe Methoden aus den Berei-chen der wissensbasierten Systeme und der Statistik verwenden. [Lusti, a.a.O., S. 250]
Data Mining ist damit der Prozess (nicht das Tool!), um neue gehaltvolle Be-ziehungen, Muster und Trends zu entdecken, indem mittels statistischer und mathematischer Methoden große Datenmengen gesiebt werden. [Integrata]
CRISP-DM
CRISP-DM-Vorgehensmodell (Cross-Industry Standard Process for Data Mining).
Gemeinschaftsprojektes von Industrieunternehmen, Herstellern von Data-Mining-Produkten und Anbietern von Datenbanklösungen unter Schirmherrschaft der Europäischen Kommission 1997.
Clustering auf der Basis neuronaler Netze
Künstliche neuronale Netze entstammen der Biologie. Sie haben das Ziel, das menschliche Gehirn nachzubilden. In der Informatik werden sie dem Bereich der Künstlichen Intelligenz zugeordnet. Wesentliche Bausteine sind die Neuronen. "Ein Neuron ist eine lernfähige Verarbeitungseinheit, die Eingaben aus anderen Neuronen oder der Umwelt verarbeitet und an weitere Neuronen oder die Um-welt ausgibt." [M. Lusti (1999, S. 319 f.] Zu den Komponenten eines künstlichen Neu-rons zählen:
• n gewichtete Eingänge
• Transformationsfunktion
• ein Ausgang
Neuronale Netze
Künstliche neuronale Netze beinhalten in Schichten angeordnete Neuronen. Über die Inputschicht wer-den Daten aufgenommen und durch die Output-schicht Ausgabewerte be-reitgestellt. Input- und Out-putschicht sind über ver-steckte Schichten mitein-ander verbunden, wobei zwischen allen Neuronen benachbarter Schichten gewichtete Verbindungen bestehen (vgl. Lusti, S. 326)
KOHONEN-Netze
Eine Sonderform künstlicher neuronaler Netze (kNN) bilden die Selbstorgani-sierenden Karten oder, von ihrem Ent-wickler Teuvo Koho-nen 1984 als Self Organizing Maps (SOM) oder Self Or-ganizing Feature Maps (SOFM) vorge-stellt . Einen wesent-lichen Unterschied zu allen anderen Netzty-pen bildet bei diesem relativ jungen Ansatz die besondere Bedeutung der geometrischen Anordnung der Neuronen. Mit Hilfe dieser Eigenschaft lassen sich SOM-Modelle in vielfältigen Anwendungen einsetzen. Ihr Haupteinsatzgebiet stellt dabei die Klassenbildung und Klassifizierung von Daten innerhalb des Data Mining dar, jedoch werden sie auch für Prognose-Aufgaben oder im Bereich der Optimierung eingesetzt.
Charakteristisch für Kohonen-Netze ist, dass das Lernverfahren ohne Lehrer stattfindet unüberwachtes Netz. Der Nachteil unüberwachter Netze liegt darin, dass das Wissen über die Zusammenhänge eines neuronalen Netzes nicht dokumentiert sind. Dies be-deutet, dass das Netz zwar funktioniert, aber niemand sagen kann, warum es funktio-niert. Das Netz ist eine black-box, deren Wissen nirgendwo festgehalten ist.
BI Maturity Model
Standard vs Flexibilität
zufällig vs Machtbenutzer
Entscheidungslatenz vs Datenfrische
Kosten vs Wert