Business Intelligence Prüfungsvorbereitung
Gekürzte Fassung
Gekürzte Fassung
Kartei Details
Karten | 80 |
---|---|
Sprache | Deutsch |
Kategorie | Informatik |
Stufe | Universität |
Erstellt / Aktualisiert | 01.06.2017 / 16.08.2024 |
Weblink |
https://card2brain.ch/box/20170601_business_intelligence_pruefungsvorbereitung
|
Einbinden |
<iframe src="https://card2brain.ch/box/20170601_business_intelligence_pruefungsvorbereitung/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Lernkarteien erstellen oder kopieren
Mit einem Upgrade kannst du unlimitiert Lernkarteien erstellen oder kopieren und viele Zusatzfunktionen mehr nutzen.
Melde dich an, um alle Karten zu sehen.
Clustering
Cluster Analysis
Was ist eine Cluster-Analyse?
àDatenobjekte werden in multidimensional Datenräume eingeordnet (Attribute bilden die Koordinaten)
Cluster-Analyse:
- findet Gruppen von Objekten
- Objekte in verschieden Gruppen stehen nicht in Beziehung zueinander
Problemstellung:
- Objekte in Gruppen möglichst groß und homogen
- Gruppen/ Segmente möglichst heterogen
- Lösungen: deskriptives Data Ming und unsupervised Learning
Clustering
Hierarchical Clustering
Hierarchisches Clustern
Iterative Algorithmen
- Schleifen
- Bilden gemittelte Clusterlösungen
Divisive (trennendes) Clustering
- Top-Down-Ansatz
- Globales Cluster in Sub-Cluster trennen
Agglomerative Clustering
- Bottom-Up-Ansatz
- Iteratives Zusammenführen von Clustern
Clustering
Exvlusive vs. non-exclusive
Exklusives Clustering
- Jeder Case wird einem Cluster zugeordnet
- Z.B. K-Means
Nicht-exklusives Clustering
- Fälle werden irgendeinem Cluster zugeordnet mit bestimmter Wahrscheinlichkeit
- Z.B. Gaussian Mixture
Clustering
K-Means
- nicht-hierarchisches Clustern
- Anzahl der Cluster (K) warden im Vorraus spezifiziert
- Algorithmus:
- Jeder Punkt wird mit einem Centroid
- zufällig oder durch Berechnung zugeordnet
- Wiederholung bis alle Centroiden und Cluster stabil sind (bzw. maginale Änderungen bei Durchlauf der Schleife)
Clustering
SSE
=Sum of Squared Errors
- Bekannteste Maß um Clustering zu bewerten
- Fehler = Distanz vom Punkt zum Centroiden
- SSE = alle Fehler eines Clusters werden quadriert und summiert
- K-Means zielt darauf ab, den SSE zu minimieren
Clustering
Initial Points
Problem bei der Auswahl zufälliger Startpunkte:
- Wenn es k-natürliche Cluster gibt, ist dieChance einen Centroiden pro Cluster auszuwählen gering
- Iteration bewegt Centroiden nicht immer in die richtige Richtung
Lösung:
- Mehrfache Ausführung des Algorithmus mit zufälligen Centroiden (Selektion immer noch ein Problem)
- Mehr als k zufällige Centroiden (am weitesten entfernte auswählen)
- Manuelles Nachbearbeiten
Clustering
Number of Clusters: Elbow Method
siehe Blatt (=elbow-finding -> graphische Darstellung)
Clustering
Euclidean Distance
siehe Blatt
SQL
Funktionen und Syntax
SELECT Welche Attribute soll das Ergebnis enthalten
DISTINCT löscht doppelte Ergebnisse
FROM Welche Tabellen werden betrachtet
WHERE Welche Bedingungen sollen erfüllt sein?
LIKE %xxx% schränkt enthaltene Worte ein
GROUP BY Ergebnisse durch ein/mehrere Attribute gruppieren
HAVING Bedingungen, die nur für die Gruppe zählen
ORDER BY Reihenfolge der Ergebnisse
DESC gibt absteigende Reihenfolge an
SQL
Abfragen formulieren
siehe Blatt
OLAP via SQL
Funktionen und Syntax
???
OLAP via SQL
Abfragen formulieren
siehe Blatt
Data Understanding and Preprocressing
Verschiedene Typen von Attributen
vgl Blatt
- nominal
- ordinal
- interval
- ratio
Data Understanding and Preprocressing
Verschiedene Typen von Daten
- Record
- Graph
- Ordered
Data Understanding and Preprocressing
Data Preparation Landscape (Tasks)
- Feature Selection
- Feature extraction
- Sampling
- Encoding
- Outliers
- Missing Values
- Standardizing Data
- Discretization
Introduction und Foundation
Informationspyramide und Scope of BI
Pyramide:
untere Schicht sind Operative Data Systems
obere Schicht sind Management Support Systems (=Scope of BI)
Introduction und Foundation
Process of Rational Decision Making
Stufen der rationalen Entscheidungsfindung
- Intelligenz - Untersuchung der Umwelt; Definition des Problems
- Design - mögliche Vorgehensweisen
- Choice - Alternativen analysieren und auswählen und implementieren
Arten von Entscheidungsfindungsprozessen
- Strukturiert
- Unstrukturiert (neuartige Probleme)
Introduction und Foundation
Business Intelligence Difinitionen
Konzepte & Methoden zur Unterstützung von business decision making durch Verwendung von faktenbasierten Unterstützungssystemen
- Betonung liegt auf Logistik der Informationen
- Sammeln und Aufbewahren von Daten
- Anreichern von Daten
- Muster entdecken
Introduction und Foundation
Data Mining
- Algorithmen zentrierter Ansatz der Datenanalyse
- Automatisierte Analyse großer Datenmengen und Muster entdecken
- Methoden
- Predictive/ vorhersagend
- Descriptive/ beschreibend
Introduction und Foundation
Operational vs. BI Systems
Siehe Blatt (Tipp: Daten, Technologie, Zweck/Zielgruppe)
Data Warehousing
KDD
= Knowledge Discovery from Databases
Databases -> DWH -> Data Mining -> Evaluation& Presentation -> Knowledge
Data Warehousing
Definition
Data Warehouse
- Themenorientierte
- Integrierte
- Chronologisierte
- Persistente
- Sammlung von Daten
- Um das Management bei seinen Entscheidungsprozessen zu unterstützen
Data Warehousing: Prozess des Aufbauens und Nutzens eines DWH.
Data Warehouse
Federation vs. DWH
Traditioneller Weg zur Integration heterogener DB:
- Bauen von Wrappern
- Komplexe Informationsfilterung
DWH – Integration im Voraus:
- Informationen aus verschiedenen Quellen werden im Voraus integriert und im DWH gespeichert und stehen für Abfragen zur Verfügung
- Hohe Performance
Data Warehouse
OLAP - Definition
OLAP = Online Analytical Processing
Online = Zugang zu “live”-Daten
Analytical = Analysieren der Daten für Reporting
Reports sind
- Multidimensional
- Voller Kalkulationen
- Zeitbasierte Analyse
- Ideal für ad-hoc-Anfragen
Data Warehouse
Operational DBMS (OLTP) vs. Data Warehouse (OLAP)
OLTP
- Hauptaufgabe traditioneller RDBMS
- Tägliche/ operative Aufgaben
- Komplexes Tabellendesign
OLAP
- Hauptaufgabe von DWH-Systemen
- Entscheidungsunterstützung
- Sternschema
Data Warehouse
Warum DWH separieren?
- Hohe Performanz für beide Systeme
- Verschiedene Funktionen und verschiedene Daten
- Entscheidungsfindung benötigt historische Daten (sind nicht im DBMS enthalten)
- Unterschiedliche Quellen benutzen verschiedene Datenpräsentationen
Data Warehouse
Modelle und Architektur
DWH Modelle
- Enterprise DWH sammelt Informationen über Themen des gesamten Unternehmens
- Data Mart Teildatenstück, dass für bestimmte Nutzergruppen einen Wert besitzt
Architektur
- Operative Systeme (Server) maßgebende Aufzeichnung
- ETL (Server) Überführung ins DWH
- DWH (Server) Geschäftsprozessmessung
- Front End (Client und Services) Präsentation
- User
Data Warehouse
Data Mart
- Teildatenstück, dass für bestimmte Nutzergruppen einen Wert besitzt
- „abhängige Data Marts“ sind Teil eines DWH
- Meist auf low-cost Server implementiert
Data Warehouse
Metadata
- Daten über Daten (Namen, Definition, Beschreibung)
- Definieren Warehouse-Objekte
- Beschreiben Felder, die aus ETL-Prozessen entstehen
Data Warehouse
Architecture Development
Architekturentwicklung
Empfohlen: Implementierung inkrementell und evolutionär
- Definieren eines high-level Datenmodells für das gesamte Unternehmen
- Implementierung eines Enterprise Warehouse und von Data Marts
- Verteilte Data Marts erstellen
- DWH ist einziger Verwalter der Daten, welches Daten an Data Marts verteilt
-
- 1 / 80
-