Business Intelligence and Data Mining
Klausurfragen
Klausurfragen
Set of flashcards Details
Flashcards | 64 |
---|---|
Students | 15 |
Language | Deutsch |
Category | Computer Science |
Level | University |
Created / Updated | 13.07.2014 / 05.07.2023 |
Weblink |
https://card2brain.ch/box/business_intelligence_and_data_mining
|
Embed |
<iframe src="https://card2brain.ch/box/business_intelligence_and_data_mining/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Create or copy sets of flashcards
With an upgrade you can create or copy an unlimited number of sets and use many more additional features.
Log in to see all the cards.
Erklärung und Formeln für Support und Konfidenz!
Support gibt die Häufigkeit des Aufkommens von Items an, die eine Assoziationsregel erfüllen
Schnittmenge A und B / alle Transaktionen
(in den Formeln stehen die Buchstaben für Artikel)
Konfidenz gibt die Stärke des Zusammenhangs an
Schnittmenge A und B / A (Anteil der Transaktionen, die A und B enthalten an der Menge der Transaktionen, die den Regelrumpf erfüllen, also A enthalten --> wie oft trifft B ein, wenn A eingetreten ist?)
Was ist die Apriori Eigenschaft und wie wird sie genutzt?
- ist ein Verfahren für die Lösung von Assoziationsmodelle (Kategorie der Beschreibungsmodelle)
- Jede Teilmenge eines Frequent Itemsets ist ein Frequent Itemset.
- Beispiel: Wenn Milch und Müsli oft zusammen gekauft werden wird auach Milch oft gekauft bzw wird auch Müsli oft gekauft.
- Ausgenutzt werden kann diese Eigenschaft, da so aus kleinen Frequent Itemsets große gebaut werden können, solange der Schwellenwert für den Support erreicht ist
Es liegen 100.000 Transaktionsdatensätze von EInkäufen vor. Diese zeigen, dass 10.000 mal Strandmuschel und 4.000 mal Sandeiner-Schaufel-Set gekauft wurden, davon wurden 2.000 mal beide Produkte zusammen erworben. Berechnen Sie mit Rechenweg
1. die Confidence für "Wenn Strandmuschel dann wird auch SchaufelSand Set gekauft"
2. Confidence für die Regel "Wenn Sandeimerset gekauft, dann auch Strandmuschen"
Formel: Schnittmenge A und B / A
A: Strandmuschel=10000 B: Sandeimerset=4000 Schnitt= 2000
1. 2000 / 10000 = 1/5 = 20%
2. (2000 / 4000) = ½ = 50%
Apriori Algorithmus: Zweck, Idee, Vorgehen
Zweck: Effiziente Ermittlung aller relevanten Beziehungen in einer Datenbasis durch Berücksichtigung einfacher Mengenzusammenhänge (zB Ausdruck von Confidence durch Supportwerte)
Idee: Ein-Item-Sets werden benutzt, um Zwei-Item-Sets zu bilden, diese wiederum zum Bilden von Drei-Item-Sets bzw. Berechnung von k-Item-Set durch Zusammensetzung aus (K-1)Itemsets
2-Phasen-Vorgehen:
1. Phase Häufigkeitszählungen, Generieren von Frequent Itemsets
2. Phase Regelbildung aus Frequent Itemsets
Erläutere zwei Anwendungsgebiete von Assoziationsregeln
Warenkorbanalyse
- Erkenntnisse über Kundengrupen, Artikelgruppen, Kaufverhalten
- gut für Marketing, kundengruppenspezifische Angebote, Empfehlung von Artikeln, Sortimentsanordnung....
Surfverhalten
- Untersuchen des Surfverhaltens von Internetnutzern, Web Mining
Prinzip und Phasen der Sequenzanalyse und Beispiel
- klassische Assoziationsanalyse, die sich auf Transaktionen eines einzelnen Zeitpunkts beschränkt
- Itemmengen werden bestimmten Kunden zugeordnet durch Kartenzahlung, Kundenkarten etc.
- Bei Elementen eines Sequenzmusters kann es sich um Einzelartikel drehen als auch um Aritkelmengen, Quantität pro Transaktion nicht berücksichtigt
Phasen: Sortierung zb nach Kundennr, Generalisierung nach häufigen Itemmengen, Transformation, Sequenz zur Ermittlung häufiger Sequenzen, Maximalphase zur Bestimmung der maximalen Sequenzen
- Beispiel: Kundenverhalten in einer Videothek: Wenn sich ein Kunde 1. Teil einer Trilogie ausleiht, dann leiht er sich kurze Zeit später wahrschienlich Teil 2 und 3 aus. Egal ob direkt nacheinander oder ob andere Filme dazwischen ausgeliehen werden.
Grundidee und Motivation des Web Mining
- Web Mining zielt darauf ab, das WWW zu einem nützlichen Instrument umzuformen bzw. es nutzbar zu machen, so dass der Benutzer gewünschte Informationen schneller und einfacher finden kann. Es geht also um die Erkennung von Wissen aus einer Sammlung von Web-Daten, die so nicht auf einer einzelnen Seite vorliegen.
--> Kombi aus Data Mining und WWW als Datenquelle
Fragen zur Navigation im Web
Teilgebiete für Web Mining mit Beispielen und Erläuterungen
Web Content Mining
- Beispiel: Gruppieren von Webseiten mit ähnlichen Inhalten in verschiedenen Klassen
- Web Content Mining ist die Entdeckung nützlicher informationen aus dem Inhalt einer Webseite (Text Mining, Bild, Ton, Film). So kann man zB verschiedene Videoportale danach gruppieren, was für Filme sie anbieten ( Titel)
Web Structure Mining
- Bestimmung der Wichtigkeit einer Seite aufgrund von Hyperlinks
- beschäftigt sich mit der Analyse von Strukturen insbesondere der Verlinkung von Seiten. Crawler sammeln und durchsuchen Seiten im Web mit Breiten- bzw Tiefensuche. Bei der Breitensuche werden gut vernetzte Seiten bevorzugt.
Web Usage Mining
- Auffinden von Mustern, die Verhalten von Webnutzern beschreiben
- Ist die Analyse und Entdeckung von interessanten Mustern in den Nutzungsdaten eines Webnutzers. Nutzerdaten werden in einem Onlineshop gespeichert, beispielsweise um die Bedürfnisse des Nutzers besser zu verstehen. Mit diesen Informatonen können gezielt Werbebanner, basierend auf dem was sich der Kunde vorher angeschaut hat, eingeblendet werden.
Datenbeschaffungsmöglichkeiten und Probleme dabei im Web Mining
Serverlogs, Verhaltensstudien durch Fragebögen, (Eye)Tracking, Skripts (Clients)
Probleme des Datenschutzes, Privatsphäre, Zurückhaltung von Daten, Sicherheitsaspekte
Was ist Visualisierung, Vor und Nachteile
Ein Werkzeug, um bei Geschäfts- und Datenanalysen in den Geschäftsdaten neue Muster und Trends zu entdecken.
+ Bilder werden schneller wahrgenommen und verarbeitet als Text oder Zahlen, Darstellung dichter u ergiebiger Datensätze, Element moderner Kommunikation
- erfordert Interpretation, Gefahr der Fehlinterpretation, Emotionalität/Erwartungshaltung des Betrachters
Was bedeutet grafische Integrität?
Grafische Integrität ist dann erreicht, wenn die Schlussfolgerung eines Betrachters konsistent sind mit den wahren Gründen und den Beziehungen zwischen Effekten in dem System, das die Daten erzeugt hat.
- numerische Grundlage, visualisierte Daten und Wahrnehmung des Betrachters stimmen überein.
Matterhorneffekt
Effekt, wenn identisch geformte Objekte bei perspektivischen Zeichnungen umso größer wirken, je weiter sie sich im Hintegrund befinden.
Warum sollten zur Beobachtung von regelmäßig wiederkehrenden saisonalen Schwankungen keine zu groben oder feinen Filterstufen gewählt werden?
- zu grob, dann können saisonale Schwankungen überdeckt und
nur ein zufälliges, unbedeutendes Rauschen identifiziert werden
oder es sind lediglich Hinweise zu erkennen, die jedoch nicht deutlich sind!
- zu fein, dann werden Schwankungen ebenfalls überdeckt, jedoch durch das
Rauschen einer Vielzahl von Daten, sodass kein Muster entstehen kann.
Nenne drei Gründe für eine Datenvisualisierung
- Bildhafte Informationen werden ganzheitlich erfasst (zB Weltkarte)
- Bilder werden mit geringer gedanklicher Anstrengung aufgenommen und verarbeitet
- Grafische Darstellungen können Strukturen sichtbar machen
Erkläre, worin sich operative, taktische bzw. strategische Führungsaufgaben unterscheiden und geben Sie für jede Führungsaufgabe die unterstützenden BI-Systeme an!
Aufgaben:
- Strategisch: Definition von Unternehmenszielen, außergewöhnliche Strukturentscheidungen und langfristige Unternehmensentwcklung
- Unterstützung durch Führungsinformationssysteme (FIS) für interne und externe verdichtete Daten, ausgeprägte Kommunikationselemente und intuitive Benutzerschnittstellen
- Taktisch: Umsetzung der Unternehmensziele, Effektivität und Effizienz des Ressourceneinsatzes auf mittelfristige Sicht
- Entscheidungsunterstützungs-Systeme (EUS) für z.B. Optimierung und Simulation, Fokus auf Teilprobleme z.B. Maschinenbelegungen
- Operativ: Laufende Koordinationsaufgaben auf Kurzfristperspektive
- Management-Informations-Systeme (MIS) mit z.B. standardisierten Berichten aus Basis operativer Datenbestände
Welche BI-Technologien gibt es?
- DB's (MIS, operativ)
- große Datenmengen, relationale Datenbanken und NoSQL
- Tabellenkalkuation (EUS, taktisch)
- Auswertung und Darstellung von kleinen/mittleren Datenmengen
- What-if Rechnung, Pivottabellen
- Kommunikations- und Kooperationssysteme (FIS,strategisch)
- Rechnersysteme, (A)synchrone kommunikation), Workgroup Mgmt Systeme für Teamarbeit
Geben Sie für zwei Phasen aus dem Managementprozess (Situationsanalyse, Steuerung, Planung, Kontrolle) ein Beispiel für eine konkrete Managementaufgabe. Beispiel, wie eine Unterstützung durch BI (Technologie) aussehen könnte.
- Organisation & Steuerung: laufende Koordinationsaufgaben, MIS können dabei mit standardisierten Berichten helfen, als BI Technologie kann je nach Umfang der Daten entweder eine Datenbank bei großer Datenmenge oder bei kleinen Datenmengen Tabellenkalkulation eingesetzt werden.
- Situationsanalyse: Definition von Unternehmenszielen, unterstützt durch FIS und BI Technologie mit Kommunikations- und Kooperationssystemen
Weche sind die drei BI Nutzergruppen und welche Werkzeuge nutzen sie?
- Informationskonsumenten
- standardisierte Ansichten auf definierte Datenbestände
- periodische Aktualisierung
- Endgerätnutzung, Vergleichsdarstellungen mit Zeitreihen
- -> z.B. betriebliches Berichtswesen
- Analytiker
- Lösung (semi)unstrukturierter Probleme
- Freie Navigation durch den Datenraum, selbstständige Auswahl/Kombination verfügbarer Daten, flexible Darstellungsmöglichkeiten
- Einfache Analysemethoden
- -> z.B. OLAP
- Spezialisten
- komplizierte Aufgabenstellungen (Ursache-Wirkungszusammenhänge)
- Anspruchsvolle Methoden
- ggf eigene Lösungsentwicklung (z.B. SQL)
- -> z.B. Data Mining
Was sind Data Warehouse (DWH) und Operatives Datensystem (ODS) und wofür werden sie genutzt?
DWH
- soll themenorientierte, vereinheitlichte Daten dauerhaft und mit Zeitbezug zur Entscheidungsunterstützung aus unterschiedlichen Datenquellen (nämlich den ODS) periodisch zu sammeln, nutzungsbezogen aufzubereiten und bedarfsgerecht zur Verfügung zu stellen.
- Es wird genutzt, um integrierte und konsistente Unternehmensdaten getrennt von operativen Systemen bereitzustellen und große Datenmengen für Analyse zur Verfügung zu stellen
- Die Datenbestände stehen für Analysen und Entscheidungshilfen (z.B. OLAP, DM,..) langfristig zu Verfügung
ODS
-
Operative Systeme sind Administrations- und Dispositionssysteme mit dem Ziel zur Rationalisierung und Effizienz von Arbeitsabläufen beizutragen
-
Sie werden genutzt um das Tagesgeschäft abzuwickeln (z.B. Warenverkauf, Auftragseingang,...)
-
Operative Daten resultieren aus Geschäftstransaktionen
Erkläre die Bausteine OLAP-Server und Metadatenbanksystem der DWH Referenzarchitektur!
OLAP-Server
- Ansatz zur interaktiven, multi-dimensionalen analyse von Unternehmensdaten
- Ergänzung eines starren Berichtswesens
- Operationen zur definition und Manipuation von Dimensionen und Konsolidierungshierarchien
Metadatenbanksystem
- Technische Angaben (Datenmodell, Datenursprung)
- Fachliche Angaben (Hilfe zum Auffinden von Daten, Dokumentation vordefinierter ANFRAGEN und Erläuterung von Fachbegriffen
Was ist ETL?
Das ETL System ist zuständig für die Integration von Daten aus verschiedenen (heterogenen) Quellen ins DWH
- Extraktion
- Datenbank und Dateispeicherung
- Dokumentation v. datenstrukturen und Schnittstellen in Quellsystemen
- Datenauswahl (Identifikation geändeter Daten; Zeitstempel, trigger DB-Logfiles)
- Transformation
- Harmonisieren (Verknüpfen Schlüssel/Attribute & Vereinheitlichung Währung, Maßeinheiten..)
- Bereinigen ( Fehler)
- Zuordnen (Mapping von Ausgangsstruktur zu Zielstruktur
- Laden
- physischer Datentransport
- Anreicherung (kennzahlen)
Was ist subjektorientiert und vereinheitlich im Zusammenhang mit DWH?
subjektorientiert (oder auch themenorientiert)
- die Daten sind fokussiert auf inhaltliche Kernbereiche im Unternehmen und es wird eine nutzenorientierte Vorselektion zu Themenschwerpunkten vorgenommen
- z.B. können die Daten auf die verschiedenen Subjekte Kunden, Produkte, Lieferanten,... fokussiert sein
Vereinheitlicht
- Die Daten aus den operativen Systemen werden übernommen und die vorhandenen heterogenen Daten vereinheitlicht bzw. harmonisiert z.B. Namensgebung und Kodierung, damit sich ein konsistenter Datenbestand ergibt
Was ist der Unterschied zwischen einem DWH und Data Mart (DM)?
Bei einem Data Mart ist der Datenspeicher nach der selben Philosophie wie bei einem DWH aufgebaut, aber Data Marts sind nur auf ein Subjekt ausgerichtet, enthalten als nur einen Teilbereich der Daten und nicht alle Subjekte des Unternehmens
Subjekte: DWH hat mehrere, DM eines
Datenquellen: DWH hat viele verschiedene, DM hat dagegen nur wenige
Größe: DWH hat mehrere TB, DM ist wesentlich kleiner
Implementationsdauer: DWH dauert Monate-Jahre, DM weniger
Fokus: DWH unternehmensweise, DM begrenzter
Was ist Datenintegraton? Beispiel, welche Aufgaben im Bereich Datenintegration in BI Projekten spielen könnten.
Bei der Datenintegration sollen die Daten mehrerer betrieblicher Funktionsbereiche aus verteilten, unterschiedliche strukturierten Datenbeständen vereinheitlicht und in ein zentrales Datenlager integriert werden.
Das Ziel ist es, dieselben Daten unmittelbar für verschiedene Aufgaben nutzbar zu machen und eine globale Sicht auf die Quelldaten ermöglichen.
Beispiel: ETL-Prozesse
Welches sind die Front-End-Technologien der DWH Referenzarchitektur? Kurze Erklärung und nenne, welche Werkzeuge die jeweilige Nutzergruppenn typisch benutzen.
- Berichtswesen: Klassisches Instrument der Infoversorgung, lediglich Datenanalyse und -darstellung, z.B. Standardbericht, Abweichungsbericht, Bedardsbericht
- Dashboards: stark verdichtete Infos mit Fokus auf benutzerfreundliche Darstellung, hohe Spezifität
- Portale: zentraler Zugang zu ausgewählten Infos, Suchkosten des Anwenders werden reduziert, verschiedene Formen, z.B. als BI/Enterprise/Knowledge-Portal im Webbrowser oder als SW
- Data Mining: Neugewinnung von Informationen aus den vorhandenen Daten, Konzept zur (teil)automatisierten Analyse großer Datenmengen, Ursache-Wirkung-Probleme
- OLAP Frontend: interaktive, multidimensionale Analyse; Würfelstruktur
Benutzergruppen
Informationskonsumenten: Portale, Dashboards und Berichtssysteme
Analytiker: OLAP
Spezialisten: Data Mining
Was ist der Unterschied zwischen betrieblichem Berichtswesen, Data Mining und OLAP?
Für alle drei stellt das DWH die Datenbasis dar.
Das Berichtswesen und OLAP stellen beides Aufbereitungs/Auswertungs- und Darstellungsmöglichkeiten von Informationen dar
- Das betriebliche Berichtswesen ist ein klassisches Instrument der Informationsversorgung und umfasst Datenbeschaffung, Infoerzeugung, Infoübermittlung und Nutzung.
- Dagegen ist OLAP interaktiv und durch dieMultidimensionale Datenanalyse aus verschiedenen Perspektiven anwendbar und gilt als Ergänzung zum starren Berichtswesen.
DM dagegen stellt die Analyse und Neugewinnung von Informationen dar:
- Data Mining umfasst den Prozess der Gewinnung neuer, valider verständlicher und handlungsrelevanter Informationen aus großen DBs und der Nutzung dieser Infos für BWL-Entscheidungen. DM ist ein Konzept zur (Teilautomatisierten) Analyse großer Datenmengen mit formalen Algorithmen und klar spezifizierten Problemen.
Erläutern Sie die Würfelstruktur und die Operatoren von OLAP.
• Logische Datenrepräsentation
• Speichertechnologien siehe unten
Leicht verständliche Datenrepräsentation
Betrachtung betriebswirtschaftlichen Zahlenmaterials
• aus unterschiedlichen Perspektiven
• mit unterschiedlichem Detaillierungsgrad
Operatoren:
Rotation/Pivotisierung: Drehen des Würfels und dadurch Vertauschen der Dimensionen
Roll-Up: Verdichtung von Werten (z.B. Tag-Monat-Quartal-Jahr)
Drill-Down: Detaillierung, Gegensatz zu Roll-Up
Slice: Herausschneiden eine Scheibe des Würfels
Dice: Herausschneiden eines Teilwürfels
Vor und Nachteile von den OLAP-Umsetzungsformen ROLAP und MOLAP
ROLAP (=Relationales OLAP)
- Relationale Speicherung der Daten in Tabellen, Würfel wird dynamisch im Hauptspeicher aufgebaut
+ einfache Realisierung
+ gute Skalierbarkeit
+ Updateperformance
- Abfrageperformance
MOLAP (multidimensional)
- Speicherung in multidimensionalen Arraystrukturen
+ hohe Abfrageperformance
- Update Performance
- nicht ausgereifte Speichertechnologie
- Skalierbarkeit
-
- 1 / 64
-