BI Prüfung

Kurzinfos für Morgen.

Kurzinfos für Morgen.


Kartei Details

Karten 26
Sprache Deutsch
Kategorie Informatik
Stufe Universität
Erstellt / Aktualisiert 29.06.2017 / 30.06.2017
Weblink
https://card2brain.ch/box/20170629_bi_pruefung
Einbinden
<iframe src="https://card2brain.ch/box/20170629_bi_pruefung/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Prozess des "Rational Decision Making"

Intelligence (Problemdefinition & Umweltanalyse)

Design (mögliche Vorgehensweisen)

Choice (Alternativen analysieren und implementieren)

Es gibt strukturierte und unstrukturierende (neuartige) Probleme & Entscheidungsfindungsprozesse.

"Business Intelligence" definieren

Konzepte & Methoden zur Unterstützung von business decision making durch Verwendung von fatenbasierten Unterstützungen.

Betonung liegt auf:

  • Logistik der Informationen
  • Sammeln, Aufbewahren & Anreichern von Daten
  • Muster entdecken

"Data Warehouse" definieren

Themenorientierte,  (präzise Sicht auf Problemstellung sowie Modellierung & Analyse von Daten)
Integrierte (Kombinationen von heterogenen Datenquellen)
Chronologisierte (Daten enthalten einen Zeitstempel)
Persistente (physisch getrennter Speicher)
Sammlung von Daten um das Management bei seinen Entscheidungsprozessen zu unterstützen.

"OLAP" definieren

Online (Zugang zu Live Daten)
Analytical (Analysieren von Daten für Reporting)
Processing

  • Hauptaufgabe eines DWH (Analyse und Entscheidungen)

OLAP Operationen erklären

Roll-Up
Reduzieren von Dimensionen

Drill Down 
Hinzufügen von Dimensionen

Slice
Scheiben herausschneiden

Dice
Würfel herausschneiden

Pivot
Würfel drehen (2D-Darstellung)

M/R/H OLAP 

Multidimensional OLAP
Arraybasierte, spezialisierten DB
Speichert Daten physisch in mehrdimensionaler Form

Relational OLAP
Relationales DBMS um DWH-Daten zu verwalten
Implementiert das logische dimensionale Modell

Hybrid OLAP
Nutzerflexibilität: Daten werden in MOLAP & ROLAP gelagert.

Datenqualität

  • relevant
  • nützlich
  • akkurat
  • zugänglich

Datenakkuranz

  • korrekt
  • eindeutig
  • konsistent
  • vollständig

ETL definieren

Extraktion (Daten aus OLTP-DB auswählen)

Transformation (Validieren, Säubern, Integration & Zeitstempel der Daten)

Laden (Schreiben der Daten in das DWH)

ETL - "T" Prozessschritte

  • Daten zusammenfassen (Aggregation)
  • Entfernen von Anomalien
    • Multiple Encoding
    • Multiple Standards

Data Mining Definition

Algorithmen-zentrierter Ansatz der Datenanalyse

Automatisierte Analyse großer Datenmengen

Muster entdecken

Prädiktives vs Deskriptives Data Mining

...

Multidimensionale Daten in RDBMS

Sternschema
einfachstes Schema, Faktentabelle von Dimensinstabellen umgeben

Schneeflockenschema
Abwandlung des Sternschemas, Dimensionstabellen liegen normalisiert vor

Galaxienschema
Mehrere Faktentabellen teilen sich teilweise Dimensionstabellen

Reporting beschreiben

Reports 

  • zeitbasierte Analyse
  • voller Kalkulationen
  • multidimensional
  • ist die gängiste Form (in BI 80%) um Informationen aufzubereiten

Arten:

  • ad-hoc
  • standard
  • ereignisgesteuert

Cloud Computing beschreiben

Bietet HW, SW, Speicher & Dienste zeitgleich für viele Nutzer

Nutzt Internet für Kommunikation & Transport

APIs & graphische Schnittstellen (versteckt Komplexität)

Vorteile von Cloud Computing

  • Wartung entfällt für Kunden
  • On Demand Service
  • Fokus auf kernservice

SaaS definieren

Software as a Service

  • Modell der SW-Bereitstellung
  • Anwendung als Service gehostet (über Internet bereitgestellt)
  • häufig Business-SW

Virtualisierung definieren

  • Abstraktion eines physischen Hosts
  • flexible SW-Konfiguration
  • Betrieb vieler VM auf einer physischen Maschine

 

Vorteile:

  • Betriebssysteme laufen entfernt von HW
  • einfacher SW-Test
  • Machinen mit geringer Auslastung teilen sich einen Host
  • einfache Migration von Vm

NoSQL definieren

DB mit nicht-relationalen Ansatz

kein festes Schema

Open Source

basiert auf modernen WebApps

NoSQL - BASE

Basically Available (Nutzung von Replikaten)

Soft State (Behandlung inkonsistenter Daten)

Eventually Consistent (Daten in Zukunft konsistent)

NoSQL Kategorien

Key/ Value Speicher

  • ordnet Werten einen Schlüssel zu
  • keine komplexen Anfragen

 

Spaltenbasierte DB

  • Daten einer Spalte werden gemeinsam gespeichert
  • sparsam & einfache Aggregation

 

Dokumentenorientierte DB

  • Speichert Dokumente (Hash mit ID)
  • flexibel

 

Speicher Netzwerke/ Graph Databases

  • für Social Networks genutzt
  • besteht aus Knoten und Beziehung zwischen Knoten

Data Mining Model nennen und Beispiele

Regression

  • Verkaufsvorhersage
  • Fnanzvorhersage
  • Restwertschätzung
  • Share of Wallet
  • Gesundheitskostenentwicklung
  • Aufwandsschätzung

Classification

  • Churn-Vorhersage
  • Direct Mail
  • Defekt-Vorhersage
  • Credit Scoring
  • Acceptance Scoring
  • Betrugserkennung

Clustering

  • Kundengruppen identifizieren
  • Dokumente clustern
  • Betrugserkennung

Association Rule

  • Warenkorbanalyse
  • Web Usage Mining

Aufbau eines Decision Tree

  • Root Node
  • Splitter
  • Internal Node
  • Leaf Node

Decision Tree erstellen

Splittng Rule (Wie wird ein Knoten aufgeteilt?)

Stopping Rule (Knoten = Leaf Node)

 

Lösung für overfitting: Pruning

Pre Pruning (frühes Stoppen des Baumaufbaus)

Post Pruning (Löschen der kleineren Äste)

Decision Tree Bewertungsmethoden

Resubstitution Estimate
für erklärende Modelle

Split Sample Method
Anwendung auf neue Daten (Gegensatz zu Daten der Modellentwicklung)
Verschwendet 20-40% der Daten
hohe Varianz

N-Fold Cross Validation
mehrfache Wdh führt zu geringen Abweichungen
zufällige Aufteilung der Daten in n Datensätze

Clustering & exclusive vs. non-exclusive

Datenobjekte werden in multidimensionale Datenräume eingeteilt
(gruppiert Objekte)
(Attribute bilden die Koordinaten)

exclusive - jeder Case in einem Cluster
non-exclusive - Case wird irgendeinem Cluster zugeordnet (bestimmte Wahrscheinlichkeit)