Business Intelligence and Data Mining
Klausurfragen
Klausurfragen
Fichier Détails
Cartes-fiches | 64 |
---|---|
Utilisateurs | 15 |
Langue | Deutsch |
Catégorie | Informatique |
Niveau | Université |
Crée / Actualisé | 13.07.2014 / 05.07.2023 |
Lien de web |
https://card2brain.ch/box/business_intelligence_and_data_mining
|
Intégrer |
<iframe src="https://card2brain.ch/box/business_intelligence_and_data_mining/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Wie funktioniert das Prinzip der ROC Analyse? Achsenbeschriftung? Wie wird die Güte eines Verfahrens präsentiert?
Klassifikation vs Clustering, Beispiele nennen
Auf Cluster genauer eingehen
Klass: überwachtes Lernen, Modellierung einer vorgegebenen Zielvariable, Anzahl u Art der Klassen vorgegeben, Beispiel: Kündiger vs loyaler Kunde
Clustering: KEINE Klassenvariable, unüberwachtes Lernen, d.h. Aufdecken von Muster in Daten
Beispiel: Marktsegmentierung: Kunden nach Kaufverhalten o Produktpräferenz clustern
Daten in strukturierten Zusammenhang bringen (Ähnlichkeiten)
Daten, die oft gemeinsam auftreten --> Frequent itemsets, Warenkorbsanalyse
Clustering: Aufdecken natürlicher Gruppierungen, Ableiten Cluster aus Daten,
Was ist Homogenität und Heterogenität im Zusammenhang mit der Zielsetzung von Clustering?
Ziel
- Homogenität der Objekte innerhalb des Clusters
- Heterogenität zwischen den Clustern
- Bestimmung über Ähnlichkeitsmaße
für Algorithen
- Maximiere Intra-Cluster Homogenität
- Maximiere Inter-Cluster Heterogenität
Welche Arten von Cluster-verfahren gibt es? Unterschiede beschreiben.
hierarchisch:
anhäufend/iterativ oder teilend/ToDown, Güte wird pro Iteration ermittelt;
Dendrogramm, Distanzmatrix, Distanzmessing
Vorteile: einfach umzusetzen
Nachteile: Skalierung problematisch, lokale Optima
Partitionierend: Keine Hierarchiebildung, exklusives Clustering, CLuster vorgegeben
K-Means Clustering, Gausssche Mixture, EM Alg.
Was ist ein Dendogramm und wie erkennt man Ausreißer? Was ist der Ausgangspunkt für ein Dendrogramm?
- gehört zu den hierarischen Clusteringverfahren
- Bei einem Dendrogramm werden die Ähnlichkeiten von Objekte in einem Baum durch die Höhe des kleinsten gemeinsamen internen Knotens repräsentiert.
- Ausreißer werden durch einzelne Zweige erkannt
- Ausgangspunkt ist eine Distanzmatrix mit paarweisen Ähnlichkeiten
Distanzmaße
single linkage: ähnlichste Objekte von 2 Clustern
complete linkage: am weitesten entfernte Objekte von zwei Clustern
group average linkage: Gewichteter Mittelwert
ward linkage: Anstieg der Varianz bei Vereinigung von zwei Clustern
K-Means Clustering
ohne hierarchie, exklusives clusterung
- Anzahl von Clustern werden festgelegt, sowie Clusterzentren
- für jedes Objekt wird das nächstgelegene Zentrum festgelegt
- die Zentren werden solange aktualisiert, bis diese sich nicht mehr verändern
Beim Clustering verwendet man Distanzmaße, um Ähnlichkeiten zwischen Objekten und Objektgruppen zu messen. Distanzmaße müssen gewissen Anforderungen genügen. Erklären Sie kurz, was dabei unter der Eigenschaft Symmetrie, der Definitheit und der Dreiecksungleichung (Transitivität) verstanden wird. Erklären Sie außerdem jeweils kkurz, welche Konsequenz es hätte, wenn ein Distanzmaß nicht diese Eigenschaft hätte.
Symmetrie bedeutet, dass der Abstand von A zu B genauso groß ist vie von B zu A.
D(A,B) = D(B,A)
Falls die Eigenschaft nicht bestünde, würde die bedeuten dass Hinz aussieht wie Kuntz aber Kuntz nicht wie Hinz.
Definitheit bedeutet, dass wenn die Distanz zwichen a und B gleich null ist, A und B gleich (ähnlich) sind.
D(A,B) = 0 <--> A=B
Anderenfalls gäbe es verschiedene Objekte, die aber nicht unterscheidbar wären.
Dreiecksungleichung: D(A,B) <= D(A,C) + D(B,C)
Andernfalls: Hinz sieht aus wie Kuntz und Hinz sieht aus wie Hans, aber Kuntz und Hans sehen sich nicht ähnlich.
Erkläre die Begriffe Assoziationsregel, seine Struktur und Frequent Itemset und deren Zusammenhang.
- Assoziation ist ein Beschreibungsmodell
- Assotiationsregeln sollen Gemeinsamkeiten und Regelmäßigkeiten in einer Menge von Daten beschreiben und drücken aus wie Beobachtungen zueinander in Beziehung stehen
- Struktur: Regeln in der Form x--> y werden gesucht, wobei x und y teilmengen der Itemmenge I sind und x geschnitten y = durchgestrichen null gilt
- Frequent Itemset ist eine Gruppe von Elementen (Itemset), die in einem Datenstrom häufig gemeinsam vorkommen
- Zusammenhang: Aufbauend auf den ermittelten Frequent Itemsets werden die Assoziationsregeln abgeleitet.
Erklärung und Formeln für Support und Konfidenz!
Support gibt die Häufigkeit des Aufkommens von Items an, die eine Assoziationsregel erfüllen
Schnittmenge A und B / alle Transaktionen
(in den Formeln stehen die Buchstaben für Artikel)
Konfidenz gibt die Stärke des Zusammenhangs an
Schnittmenge A und B / A (Anteil der Transaktionen, die A und B enthalten an der Menge der Transaktionen, die den Regelrumpf erfüllen, also A enthalten --> wie oft trifft B ein, wenn A eingetreten ist?)
Es liegen 100.000 Transaktionsdatensätze von EInkäufen vor. Diese zeigen, dass 10.000 mal Strandmuschel und 4.000 mal Sandeiner-Schaufel-Set gekauft wurden, davon wurden 2.000 mal beide Produkte zusammen erworben. Berechnen Sie mit Rechenweg
1. die Confidence für "Wenn Strandmuschel dann wird auch SchaufelSand Set gekauft"
2. Confidence für die Regel "Wenn Sandeimerset gekauft, dann auch Strandmuschen"
Formel: Schnittmenge A und B / A
A: Strandmuschel=10000 B: Sandeimerset=4000 Schnitt= 2000
1. 2000 / 10000 = 1/5 = 20%
2. (2000 / 4000) = ½ = 50%
Was ist die Apriori Eigenschaft und wie wird sie genutzt?
- ist ein Verfahren für die Lösung von Assoziationsmodelle (Kategorie der Beschreibungsmodelle)
- Jede Teilmenge eines Frequent Itemsets ist ein Frequent Itemset.
- Beispiel: Wenn Milch und Müsli oft zusammen gekauft werden wird auach Milch oft gekauft bzw wird auch Müsli oft gekauft.
- Ausgenutzt werden kann diese Eigenschaft, da so aus kleinen Frequent Itemsets große gebaut werden können, solange der Schwellenwert für den Support erreicht ist
Apriori Algorithmus: Zweck, Idee, Vorgehen
Zweck: Effiziente Ermittlung aller relevanten Beziehungen in einer Datenbasis durch Berücksichtigung einfacher Mengenzusammenhänge (zB Ausdruck von Confidence durch Supportwerte)
Idee: Ein-Item-Sets werden benutzt, um Zwei-Item-Sets zu bilden, diese wiederum zum Bilden von Drei-Item-Sets bzw. Berechnung von k-Item-Set durch Zusammensetzung aus (K-1)Itemsets
2-Phasen-Vorgehen:
1. Phase Häufigkeitszählungen, Generieren von Frequent Itemsets
2. Phase Regelbildung aus Frequent Itemsets
Erläutere zwei Anwendungsgebiete von Assoziationsregeln
Warenkorbanalyse
- Erkenntnisse über Kundengrupen, Artikelgruppen, Kaufverhalten
- gut für Marketing, kundengruppenspezifische Angebote, Empfehlung von Artikeln, Sortimentsanordnung....
Surfverhalten
- Untersuchen des Surfverhaltens von Internetnutzern, Web Mining
Prinzip und Phasen der Sequenzanalyse und Beispiel
- klassische Assoziationsanalyse, die sich auf Transaktionen eines einzelnen Zeitpunkts beschränkt
- Itemmengen werden bestimmten Kunden zugeordnet durch Kartenzahlung, Kundenkarten etc.
- Bei Elementen eines Sequenzmusters kann es sich um Einzelartikel drehen als auch um Aritkelmengen, Quantität pro Transaktion nicht berücksichtigt
Phasen: Sortierung zb nach Kundennr, Generalisierung nach häufigen Itemmengen, Transformation, Sequenz zur Ermittlung häufiger Sequenzen, Maximalphase zur Bestimmung der maximalen Sequenzen
- Beispiel: Kundenverhalten in einer Videothek: Wenn sich ein Kunde 1. Teil einer Trilogie ausleiht, dann leiht er sich kurze Zeit später wahrschienlich Teil 2 und 3 aus. Egal ob direkt nacheinander oder ob andere Filme dazwischen ausgeliehen werden.
Grundidee und Motivation des Web Mining
- Web Mining zielt darauf ab, das WWW zu einem nützlichen Instrument umzuformen bzw. es nutzbar zu machen, so dass der Benutzer gewünschte Informationen schneller und einfacher finden kann. Es geht also um die Erkennung von Wissen aus einer Sammlung von Web-Daten, die so nicht auf einer einzelnen Seite vorliegen.
--> Kombi aus Data Mining und WWW als Datenquelle
Fragen zur Navigation im Web
Teilgebiete für Web Mining mit Beispielen und Erläuterungen
Web Content Mining
- Beispiel: Gruppieren von Webseiten mit ähnlichen Inhalten in verschiedenen Klassen
- Web Content Mining ist die Entdeckung nützlicher informationen aus dem Inhalt einer Webseite (Text Mining, Bild, Ton, Film). So kann man zB verschiedene Videoportale danach gruppieren, was für Filme sie anbieten ( Titel)
Web Structure Mining
- Bestimmung der Wichtigkeit einer Seite aufgrund von Hyperlinks
- beschäftigt sich mit der Analyse von Strukturen insbesondere der Verlinkung von Seiten. Crawler sammeln und durchsuchen Seiten im Web mit Breiten- bzw Tiefensuche. Bei der Breitensuche werden gut vernetzte Seiten bevorzugt.
Web Usage Mining
- Auffinden von Mustern, die Verhalten von Webnutzern beschreiben
- Ist die Analyse und Entdeckung von interessanten Mustern in den Nutzungsdaten eines Webnutzers. Nutzerdaten werden in einem Onlineshop gespeichert, beispielsweise um die Bedürfnisse des Nutzers besser zu verstehen. Mit diesen Informatonen können gezielt Werbebanner, basierend auf dem was sich der Kunde vorher angeschaut hat, eingeblendet werden.
Datenbeschaffungsmöglichkeiten und Probleme dabei im Web Mining
Serverlogs, Verhaltensstudien durch Fragebögen, (Eye)Tracking, Skripts (Clients)
Probleme des Datenschutzes, Privatsphäre, Zurückhaltung von Daten, Sicherheitsaspekte
Was ist Visualisierung, Vor und Nachteile
Ein Werkzeug, um bei Geschäfts- und Datenanalysen in den Geschäftsdaten neue Muster und Trends zu entdecken.
+ Bilder werden schneller wahrgenommen und verarbeitet als Text oder Zahlen, Darstellung dichter u ergiebiger Datensätze, Element moderner Kommunikation
- erfordert Interpretation, Gefahr der Fehlinterpretation, Emotionalität/Erwartungshaltung des Betrachters
Was bedeutet grafische Integrität?
Grafische Integrität ist dann erreicht, wenn die Schlussfolgerung eines Betrachters konsistent sind mit den wahren Gründen und den Beziehungen zwischen Effekten in dem System, das die Daten erzeugt hat.
- numerische Grundlage, visualisierte Daten und Wahrnehmung des Betrachters stimmen überein.
Matterhorneffekt
Effekt, wenn identisch geformte Objekte bei perspektivischen Zeichnungen umso größer wirken, je weiter sie sich im Hintegrund befinden.
Warum sollten zur Beobachtung von regelmäßig wiederkehrenden saisonalen Schwankungen keine zu groben oder feinen Filterstufen gewählt werden?
- zu grob, dann können saisonale Schwankungen überdeckt und
nur ein zufälliges, unbedeutendes Rauschen identifiziert werden
oder es sind lediglich Hinweise zu erkennen, die jedoch nicht deutlich sind!
- zu fein, dann werden Schwankungen ebenfalls überdeckt, jedoch durch das
Rauschen einer Vielzahl von Daten, sodass kein Muster entstehen kann.
Nenne drei Gründe für eine Datenvisualisierung
- Bildhafte Informationen werden ganzheitlich erfasst (zB Weltkarte)
- Bilder werden mit geringer gedanklicher Anstrengung aufgenommen und verarbeitet
- Grafische Darstellungen können Strukturen sichtbar machen