Data-Warehouse

Data Warehouse Grundlagen 2015. "P-Fragen"

Data Warehouse Grundlagen 2015. "P-Fragen"


Set of flashcards Details

Flashcards 22
Language Deutsch
Category Computer Science
Level University
Created / Updated 08.10.2015 / 13.04.2023
Weblink
https://card2brain.ch/box/datawarehouse
Embed
<iframe src="https://card2brain.ch/box/datawarehouse/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Unterscheiden Sie zwei wesentliche Gebiete der WI hinsichtlich ihrer fachinhaltlichen Einordnung, sowie der jeweiligen Herausforderung im Bezug auf die Integration?

Man unterscheidet Basissysteme (SAP, allg. ERP, CRM) und Führungssysteme (OLAP - DWH) ( http://datawarehouse4u.info/OLTP-vs-OLAP.html )

  • Basissysteme: Kerzprozesse und Wertschöpfung
  • Führungssysteme: aggregierte Daten zu Auswertungszwecken

Herausforderung:

  • BS: Integration der Prozesse
  • FS: Datenintegration aus verschiedenen Quellen

Beschreibung der Informationskongruenz unter ökonomischen Gesichtspunkten.

Objektiv: Informationsmenge die man braucht um gute Entscheidungen zu treffen

Subjektiv: Was der Manager denkt, was er an Informationen braucht

Angebot: Tatsächlich, vorhandene Informationen

Informationsstand: Schnittmenge

  • Subjektiv und Infoangebot müssen an den objektiven Bedarf angepasst werden
    • Zu viel Subjektiv: falsche Entschiedungsgrundlage, zu subjektiv, evtl zu viele Daten oder sogar zu wenig
    • zu viel Angebot: zu viele Daten, unnötiger Aufwand / Speicher

Angenommen alle haben die gleiche Situation (alle Infos,… gleich und diese werden jeweils vollständig ausgewertet) entscheiden sich die Manager dann gleich?

Entscheidung kann je Unternehmen und Manager unterschiedlich sein, weil es Nebenbedingungen gibt, die pro Unternehmen/ Manager anders sind

  • Faktor Mensch (aktuelles Befinden, Bauchgefühl, keine Entscheidung trifft man rational)
  • Unterschiedliche Zielsetzung: Gewinnorient, Marktorientiert, Arbeitsplätze sichern, …
  • Risikomanagement unter Führungskräften: Risikoneigung (Risikoneutral, Risikoavers, Risikofreudig)

Mensch, Vision, Risiko

Wer controllt im Unternehmen?

Meist eine eigene Abteilung

  • Controller versteht sich als Lotse , er entscheidet nicht, sorgt aber für informationstransparenz
  • Der Ergebnisverantwortliche controllt. Dieser trifft die Entscheidungen (Kapitän) -> Lotse ist nicht verantwortlich -> Controlling betreibt der Manager, der Controller gibt nur die Informationen dazu

Wo ist die Granularität hoch (oben im Bild oder unten)? Grundrechnung nach Haun.

Granularität hoch heißt Grobkörnig, also bei Auswertung

erste Ebene: einzel Vorfälle ( Krankmeldungen)

zwei Ebene: aggregierte Daten ( Anzahl der Krankmeldungen)

dritte Ebene: Auswertung (Anzahl der Krankmeldungen für Bank Münster)

Geben Sie ein Beispiel für die Grundidee für die Grundrechung nach Haun.

  • Zweckneutral
  • Mehrdimensionalität
  • Einfache Auswertung
  • Verrechnungsfreiheit

Zu welchen Problemen führt die Überlappung von semantischen Datenmodellen einzelner Anwendungssysteme innerhalb eines Unternehmens?

  • Semantische Datenmodelle: Datenhaltung innerhalb der Anwendung (Logik)
  • Mögliche Probleme: Probleme bei der Zusammenführung der Datenbestände auf Grund unterschiedlicher Formate, Missverständnisse, Folge: Inkonsistenzen, Redundanzen

Was wäre eine mögliche Lösung dazu?

  • Ein gemeinmsanes unternehmensweites Datenmodell (UDM)

 

Wie realistisch ist das UDM?

  • Sehr aufwendig
  • eher Wunschvorstellung
  • ein Modell zur kann nicht die Komplexität abbilden

Wie viele mögliche Schnittstellen bei 50 Anwendungen und 50 Endanwendern?

  • Die Anzahl der Schnittstellen ergibt sich aus der multiplikativen Verknüpfung
  • Endandwender x System
  • hier: 50x50 = 2500 Schnittstellen

Schildern sie die wesentlichen Schwächen historisch gewachsener Statistikwelten ohne DWH-Einsatz.

  • Heterogene DV-Strukturen behindern den Zugriff und die Zusammenführung der Systeme was zu Dateninkonsistenzen führen kann, wenn es nicht in einer einheitlichen Struktur vorliegt (Haun und UMD)
  • Begrenzte Kapazitäten für operative Systeme führen bei flexiblen ad hoc Auswertungen zu Priorisierungskonflikten und unklaren Verantwortlichkeiten zwischen EDV und Fachabteilungen
  • Mangelhafte Verfügbarkeit historischer Daten in OLTP Systemen; umgekehrt haben Trendaussagen im MUS-Umfeld eine hohe Bedeutung
  • Aktualität und Qualität der Daten ist nur schwer überprüfbar
    • Zum Teil nicht gepflegte Datenfelder
    • Zeitliche Änderungen z.B. durch Strukturbrüche erschweren die Auswertungen
    • Die nicht synchronisierten Datenzugriffe führen zu interpretationsfehlern
    • Unterschiedliche Datenformate und semantische Modelle für gleiche Sachverhalte erschweren die Interpretation der Daten
  • Die Skalierbarkeit der IT-Infrastruktur ist für operative Systeme nur eingeschränkt erforderlich. Im MUS Umfeld ist hingegen ein exponentiell gute Skalierbarkeit der Plattformen erforderlich 

Erläutern Sie die Zusammenhänge zwischen dem DWH-Ansatz nach Inmon und dem Grundrechnungsansatz von Haun.

  • Die Daten der operativen Systeme sollten nicht getrennt sondern kumuliert betrachtet werden (Zweckneutral)
  • Die Daten werden in verschiedenen Dimensionen betrachtet (Mehrdimensional)
  • Atomistische Betrachtung der Daten (feinste Ebene)
  • Verrechnungsfreiheit bei dem Umgang mit Daten (Vereinheitlichung der Daten, zentrale Ablagestelle)

Haun hat dies betriebswirtschaftlich, logisch erkannt, der Ansatz von Inman ist eher technisch betrachtet.

Vergleichen Sie die Komplexität der Schnittstellen zwischen einem unorganisiertem dispositivem Datenbestand und dem Hub & Spoke Ansatz.

additiv und nicht multiplikativ, da ein zentraler Datentopf

 

Wie greift Inmon den Haun auf? Was ist die Grundüberlegung?

  • Die Daten der operativen Systeme sollten nicht getrennt sondern kumuliert betrachtet werden (Zweckneutral)
  • Die Daten werden in verschiedenen Dimensionen betrachtet (Mehrdimensional)
  • Atomistische Betrachtung der Daten (feinste Ebene)
  • Verrechnungsfreiheit bei dem Umgang mit Daten (Vereinheitlichung der Daten, zentrale Ablagestelle)

Haun hat dies betriebswirtschaftlich, logisch erkannt, der Ansatz von Inman ist eher technisch betrachtet.

Worauf kann man bei der Rohdaten-Ebene eher verzichten; auf Dateninstanzen oder Attribute (Schlüsselattribute sind vorhanden)?

  • Es kommt drauf an:
    • wenn Attribute fehlen, können bestimmte Perspektiven nicht mehr ausgewertet werden (Unterscheidung Geschlecht bei Schadensfällen in Versicherungen)
    • wenn Dateninstanzen fehlen, werden die kompletten Ergebnisse verfälscht (Nur ein Teil der Schadenfälle ist abgebildet)
  • Es gibt zwar auch Beispiele bei denen das fehlen von Dateninstanzen in Ordnung wäre, diese würden dann aber nicht mehr zweckneutral verwendet werden können

Begründen Sie die Notwendigkeit einer zusätzlichen Datenschicht neben den Rohdaten (weitere Redundanz) ?

  •  Schnellere / einfachere Datenauswertungen möglich (kleinerer Datenbestand und denormalisiert)
  • Aufhebung der Zweckneutralität --> Nun Zweckgebunden

Erläutern Sie Abgrenzungsmerkmale von Data Marts und gehen sie dabei auf mögliche Redundanzen zwischen den DM ein.

  • Örtlich
  • juristisch
  • zeitlich
  • Mandanten-Rechtliche Art
  • Fach: agrregation
  • Performance der Auswertung und der Entwicklung
  • Abgeleitet / isoliert
  • Rechtlich-Juristisch
  • Allgemein: Viele Einteilung sind mölich
  • Redundanzen sind zulässig

Können Data Marts mehrstufig angelegt sein?

  • Ja wenn die auf der gleichen Rohdatenbasis basieren und sie sich an das Metadatenmanagement halten
  • Definition von neuen Elementen müssen gleich sein

Matchen Sie die vier Charakteristika des DWH-Ansatzes auf die Hub & Spoke Architektur

  • Zweckneutrailität
    • verschiedene Blickwinkel soll möglich werden
    • Rohdaten
  • Zeitraumbezug
    • Potenzial wird in den Rohdaten aufgebaut, aber die Betrachtung an sich (Zeitpunkt, Zeitraum) in den Cubes und Data Marts
  • Struktur und Formatvereinheitlichung
    • Rohdaten
    • Stichwort: Integration
  • Nicht-Volatilität
    • Rohdaten, DM, Cubes --> alles außerhalb der operativen Systeme

An welcher Stellen einer DWH-Architektur sollte typischerweise ein offenes System genutzt werden und wo kann aus wirtschaftlichen oder technischen Gründen darauf verzeichnet werden. (Grad der Offenheit eines System macht er von der Herstellerabhängigkeit ab)

  • Möglichst offen in den Rohdaten und in den Cubes

 

Bedeutung von Metadaten im DWH-Ansatz im Vergleich zum UDM Ansatz nach Scheer

  • die Metadaten beschreiben die Daten in dem Datawarehouse
  • somit bilden die Metadaten eine Art UDM

Wer ist für die Daten verantwortlich?

  • Dem Fachbereich gehören die Daten und sie sind verantwortlich