BI Prüfung
Kurzinfos für Morgen.
Kurzinfos für Morgen.
Kartei Details
Karten | 26 |
---|---|
Sprache | Deutsch |
Kategorie | Informatik |
Stufe | Universität |
Erstellt / Aktualisiert | 29.06.2017 / 30.06.2017 |
Weblink |
https://card2brain.ch/box/20170629_bi_pruefung
|
Einbinden |
<iframe src="https://card2brain.ch/box/20170629_bi_pruefung/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Lernkarteien erstellen oder kopieren
Mit einem Upgrade kannst du unlimitiert Lernkarteien erstellen oder kopieren und viele Zusatzfunktionen mehr nutzen.
Melde dich an, um alle Karten zu sehen.
Prozess des "Rational Decision Making"
Intelligence (Problemdefinition & Umweltanalyse)
Design (mögliche Vorgehensweisen)
Choice (Alternativen analysieren und implementieren)
Es gibt strukturierte und unstrukturierende (neuartige) Probleme & Entscheidungsfindungsprozesse.
"Business Intelligence" definieren
Konzepte & Methoden zur Unterstützung von business decision making durch Verwendung von fatenbasierten Unterstützungen.
Betonung liegt auf:
- Logistik der Informationen
- Sammeln, Aufbewahren & Anreichern von Daten
- Muster entdecken
"Data Warehouse" definieren
Themenorientierte, (präzise Sicht auf Problemstellung sowie Modellierung & Analyse von Daten)
Integrierte (Kombinationen von heterogenen Datenquellen)
Chronologisierte (Daten enthalten einen Zeitstempel)
Persistente (physisch getrennter Speicher)
Sammlung von Daten um das Management bei seinen Entscheidungsprozessen zu unterstützen.
"OLAP" definieren
Online (Zugang zu Live Daten)
Analytical (Analysieren von Daten für Reporting)
Processing
- Hauptaufgabe eines DWH (Analyse und Entscheidungen)
OLAP Operationen erklären
Roll-Up
Reduzieren von Dimensionen
Drill Down
Hinzufügen von Dimensionen
Slice
Scheiben herausschneiden
Dice
Würfel herausschneiden
Pivot
Würfel drehen (2D-Darstellung)
M/R/H OLAP
Multidimensional OLAP
Arraybasierte, spezialisierten DB
Speichert Daten physisch in mehrdimensionaler Form
Relational OLAP
Relationales DBMS um DWH-Daten zu verwalten
Implementiert das logische dimensionale Modell
Hybrid OLAP
Nutzerflexibilität: Daten werden in MOLAP & ROLAP gelagert.
Datenqualität
- relevant
- nützlich
- akkurat
- zugänglich
Datenakkuranz
- korrekt
- eindeutig
- konsistent
- vollständig
ETL definieren
Extraktion (Daten aus OLTP-DB auswählen)
Transformation (Validieren, Säubern, Integration & Zeitstempel der Daten)
Laden (Schreiben der Daten in das DWH)
ETL - "T" Prozessschritte
- Daten zusammenfassen (Aggregation)
- Entfernen von Anomalien
- Multiple Encoding
- Multiple Standards
Data Mining Definition
Algorithmen-zentrierter Ansatz der Datenanalyse
Automatisierte Analyse großer Datenmengen
Muster entdecken
Prädiktives vs Deskriptives Data Mining
...
Multidimensionale Daten in RDBMS
Sternschema
einfachstes Schema, Faktentabelle von Dimensinstabellen umgeben
Schneeflockenschema
Abwandlung des Sternschemas, Dimensionstabellen liegen normalisiert vor
Galaxienschema
Mehrere Faktentabellen teilen sich teilweise Dimensionstabellen
Reporting beschreiben
Reports
- zeitbasierte Analyse
- voller Kalkulationen
- multidimensional
- ist die gängiste Form (in BI 80%) um Informationen aufzubereiten
Arten:
- ad-hoc
- standard
- ereignisgesteuert
Cloud Computing beschreiben
Bietet HW, SW, Speicher & Dienste zeitgleich für viele Nutzer
Nutzt Internet für Kommunikation & Transport
APIs & graphische Schnittstellen (versteckt Komplexität)
Vorteile von Cloud Computing
- Wartung entfällt für Kunden
- On Demand Service
- Fokus auf kernservice
SaaS definieren
Software as a Service
- Modell der SW-Bereitstellung
- Anwendung als Service gehostet (über Internet bereitgestellt)
- häufig Business-SW
Virtualisierung definieren
- Abstraktion eines physischen Hosts
- flexible SW-Konfiguration
- Betrieb vieler VM auf einer physischen Maschine
Vorteile:
- Betriebssysteme laufen entfernt von HW
- einfacher SW-Test
- Machinen mit geringer Auslastung teilen sich einen Host
- einfache Migration von Vm
NoSQL definieren
DB mit nicht-relationalen Ansatz
kein festes Schema
Open Source
basiert auf modernen WebApps
NoSQL - BASE
Basically Available (Nutzung von Replikaten)
Soft State (Behandlung inkonsistenter Daten)
Eventually Consistent (Daten in Zukunft konsistent)
NoSQL Kategorien
Key/ Value Speicher
- ordnet Werten einen Schlüssel zu
- keine komplexen Anfragen
Spaltenbasierte DB
- Daten einer Spalte werden gemeinsam gespeichert
- sparsam & einfache Aggregation
Dokumentenorientierte DB
- Speichert Dokumente (Hash mit ID)
- flexibel
Speicher Netzwerke/ Graph Databases
- für Social Networks genutzt
- besteht aus Knoten und Beziehung zwischen Knoten
Data Mining Model nennen und Beispiele
Regression
- Verkaufsvorhersage
- Fnanzvorhersage
- Restwertschätzung
- Share of Wallet
- Gesundheitskostenentwicklung
- Aufwandsschätzung
Classification
- Churn-Vorhersage
- Direct Mail
- Defekt-Vorhersage
- Credit Scoring
- Acceptance Scoring
- Betrugserkennung
Clustering
- Kundengruppen identifizieren
- Dokumente clustern
- Betrugserkennung
Association Rule
- Warenkorbanalyse
- Web Usage Mining
Aufbau eines Decision Tree
- Root Node
- Splitter
- Internal Node
- Leaf Node
Decision Tree erstellen
Splittng Rule (Wie wird ein Knoten aufgeteilt?)
Stopping Rule (Knoten = Leaf Node)
Lösung für overfitting: Pruning
Pre Pruning (frühes Stoppen des Baumaufbaus)
Post Pruning (Löschen der kleineren Äste)
Decision Tree Bewertungsmethoden
Resubstitution Estimate
für erklärende Modelle
Split Sample Method
Anwendung auf neue Daten (Gegensatz zu Daten der Modellentwicklung)
Verschwendet 20-40% der Daten
hohe Varianz
N-Fold Cross Validation
mehrfache Wdh führt zu geringen Abweichungen
zufällige Aufteilung der Daten in n Datensätze
Clustering & exclusive vs. non-exclusive
Datenobjekte werden in multidimensionale Datenräume eingeteilt
(gruppiert Objekte)
(Attribute bilden die Koordinaten)
exclusive - jeder Case in einem Cluster
non-exclusive - Case wird irgendeinem Cluster zugeordnet (bestimmte Wahrscheinlichkeit)
-
- 1 / 26
-