Klausurfragen

Monika Stromecki

Monika Stromecki

Set of flashcards Details

Flashcards 64
Students 15
Language Deutsch
Category Computer Science
Level University
Created / Updated 13.07.2014 / 05.07.2023
Weblink
https://card2brain.ch/box/business_intelligence_and_data_mining
Embed
<iframe src="https://card2brain.ch/box/business_intelligence_and_data_mining/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Wie funktioniert das Prinzip der ROC Analyse? Achsenbeschriftung? Wie wird die Güte eines Verfahrens präsentiert?

Die ROC Kurve visualisiert die Prognosegüte eines Klassfikators über alle möglichen Schwellenwerte.

X:achse False positive rate FP-Rate

Y:achse True positive rate TP-Rate

Auf Basis der Kontingenztabelle

TPR = TP / TP + FN

FPR = FP/ FP + TN

Die Kurve, die den besseren TP-Rate Wert hat ist besser

Klassifikation vs Clustering, Beispiele nennen

Auf Cluster genauer eingehen

Klass: überwachtes Lernen, Modellierung einer vorgegebenen Zielvariable, Anzahl u Art der Klassen vorgegeben, Beispiel: Kündiger vs loyaler Kunde

Clustering: KEINE Klassenvariable, unüberwachtes Lernen, d.h. Aufdecken von Muster in Daten

Beispiel: Marktsegmentierung: Kunden nach Kaufverhalten o Produktpräferenz clustern

Daten in strukturierten Zusammenhang bringen (Ähnlichkeiten)

Daten, die oft gemeinsam auftreten --> Frequent itemsets, Warenkorbsanalyse

Clustering: Aufdecken natürlicher Gruppierungen, Ableiten Cluster aus Daten,

Was ist Homogenität und Heterogenität im Zusammenhang mit der Zielsetzung von Clustering?

Ziel

  • Homogenität der Objekte innerhalb des Clusters
  • Heterogenität zwischen den Clustern
  • Bestimmung über Ähnlichkeitsmaße

für Algorithen

  • Maximiere Intra-Cluster Homogenität
  • Maximiere Inter-Cluster Heterogenität

Welche Arten von Cluster-verfahren gibt es? Unterschiede beschreiben.

hierarchisch:

anhäufend/iterativ oder teilend/ToDown, Güte wird pro Iteration ermittelt;

Dendrogramm, Distanzmatrix, Distanzmessing

Vorteile: einfach umzusetzen

Nachteile: Skalierung problematisch, lokale Optima

Partitionierend: Keine Hierarchiebildung, exklusives Clustering, CLuster vorgegeben

K-Means Clustering, Gausssche Mixture, EM Alg.

Was ist ein Dendogramm und wie erkennt man Ausreißer? Was ist der Ausgangspunkt für ein Dendrogramm?

  • gehört zu den hierarischen Clusteringverfahren
  • Bei einem Dendrogramm werden die Ähnlichkeiten von Objekte in einem Baum durch die Höhe des kleinsten gemeinsamen internen Knotens repräsentiert.
  • Ausreißer werden durch einzelne Zweige erkannt
  • Ausgangspunkt ist eine Distanzmatrix mit paarweisen Ähnlichkeiten

 

 

Distanzmaße

single linkage: ähnlichste Objekte von 2 Clustern

complete linkage: am weitesten entfernte Objekte von zwei Clustern

group average linkage: Gewichteter Mittelwert

ward linkage: Anstieg der Varianz bei Vereinigung von zwei Clustern

K-Means Clustering
 

ohne hierarchie, exklusives clusterung

- Anzahl von Clustern werden festgelegt, sowie Clusterzentren

- für jedes Objekt wird das nächstgelegene Zentrum festgelegt

- die Zentren werden solange aktualisiert, bis diese sich nicht mehr verändern

Beim Clustering verwendet man Distanzmaße, um Ähnlichkeiten zwischen Objekten und Objektgruppen zu messen. Distanzmaße müssen gewissen Anforderungen genügen. Erklären Sie kurz, was dabei unter der Eigenschaft Symmetrie, der Definitheit und der Dreiecksungleichung (Transitivität) verstanden wird. Erklären Sie außerdem jeweils kkurz, welche Konsequenz es hätte, wenn ein Distanzmaß nicht diese Eigenschaft hätte.

Symmetrie bedeutet, dass der Abstand von A zu B genauso groß ist vie von B zu A.

D(A,B) = D(B,A)

Falls die Eigenschaft nicht bestünde, würde die bedeuten dass Hinz aussieht wie Kuntz aber Kuntz nicht wie Hinz.

Definitheit bedeutet, dass wenn die Distanz zwichen a und B gleich null ist, A und B gleich (ähnlich) sind.

D(A,B) = 0 <--> A=B

Anderenfalls gäbe es verschiedene Objekte, die aber nicht unterscheidbar wären.

Dreiecksungleichung: D(A,B) <= D(A,C) + D(B,C)

Andernfalls: Hinz sieht aus wie Kuntz und Hinz sieht aus wie Hans, aber Kuntz und Hans sehen sich nicht ähnlich.

Erkläre die Begriffe Assoziationsregel, seine Struktur und Frequent Itemset und deren Zusammenhang. 

  • Assoziation ist ein Beschreibungsmodell
  • Assotiationsregeln sollen Gemeinsamkeiten und Regelmäßigkeiten in einer Menge von Daten beschreiben und drücken aus wie Beobachtungen zueinander in Beziehung stehen
    • Struktur: Regeln in der Form x--> y werden gesucht, wobei x und y teilmengen der Itemmenge I sind und x geschnitten y = durchgestrichen null gilt
  • Frequent Itemset ist eine Gruppe von Elementen (Itemset), die in einem Datenstrom häufig gemeinsam vorkommen
  • Zusammenhang: Aufbauend auf den ermittelten Frequent Itemsets werden die Assoziationsregeln abgeleitet.

Erklärung und Formeln für Support und Konfidenz!

Support gibt die Häufigkeit des Aufkommens von Items an, die eine Assoziationsregel erfüllen

Schnittmenge A und B / alle Transaktionen

(in den Formeln stehen die Buchstaben für Artikel)

Konfidenz gibt die Stärke des Zusammenhangs an

Schnittmenge A und B / A (Anteil der Transaktionen, die A und B enthalten an der Menge der Transaktionen, die den Regelrumpf erfüllen, also A enthalten --> wie oft trifft B ein, wenn A eingetreten ist?)

Es liegen 100.000 Transaktionsdatensätze von EInkäufen vor. Diese zeigen, dass 10.000 mal Strandmuschel und 4.000 mal Sandeiner-Schaufel-Set gekauft wurden, davon wurden 2.000 mal beide Produkte zusammen erworben. Berechnen Sie mit Rechenweg

1. die Confidence für "Wenn Strandmuschel dann wird auch SchaufelSand Set gekauft"

2. Confidence für die Regel "Wenn Sandeimerset gekauft, dann auch Strandmuschen"

Formel: Schnittmenge A und B / A

A: Strandmuschel=10000 B: Sandeimerset=4000 Schnitt= 2000

1. 2000 / 10000 = 1/5 = 20%

 

2. (2000 / 4000) = ½ = 50%

Was ist die Apriori Eigenschaft und wie wird sie genutzt?

  • ist ein Verfahren für die Lösung von Assoziationsmodelle (Kategorie der Beschreibungsmodelle)
  • Jede Teilmenge eines Frequent Itemsets ist ein Frequent Itemset.
  • Beispiel: Wenn Milch und Müsli oft zusammen gekauft werden wird auach Milch oft gekauft bzw wird auch Müsli oft gekauft.
  • Ausgenutzt werden kann diese Eigenschaft, da so aus kleinen Frequent Itemsets große gebaut werden können, solange der Schwellenwert für den Support erreicht ist

Apriori Algorithmus: Zweck, Idee, Vorgehen

Zweck: Effiziente Ermittlung aller relevanten Beziehungen in einer Datenbasis durch Berücksichtigung einfacher Mengenzusammenhänge (zB Ausdruck von Confidence durch Supportwerte)

Idee: Ein-Item-Sets werden benutzt, um Zwei-Item-Sets zu bilden, diese wiederum zum Bilden von Drei-Item-Sets bzw. Berechnung von k-Item-Set durch Zusammensetzung aus (K-1)Itemsets

2-Phasen-Vorgehen:

1. Phase Häufigkeitszählungen, Generieren von Frequent Itemsets

2. Phase Regelbildung aus Frequent Itemsets

Erläutere zwei Anwendungsgebiete von Assoziationsregeln

Warenkorbanalyse

  • Erkenntnisse über Kundengrupen, Artikelgruppen, Kaufverhalten 
  • gut für Marketing, kundengruppenspezifische Angebote, Empfehlung von Artikeln, Sortimentsanordnung....

 

Surfverhalten

  • Untersuchen des Surfverhaltens von Internetnutzern, Web Mining

Prinzip und Phasen der Sequenzanalyse und Beispiel

- klassische Assoziationsanalyse, die sich auf Transaktionen eines einzelnen Zeitpunkts beschränkt

- Itemmengen werden bestimmten Kunden zugeordnet durch Kartenzahlung, Kundenkarten etc.

- Bei Elementen eines Sequenzmusters kann es sich um Einzelartikel drehen als auch um Aritkelmengen, Quantität pro Transaktion nicht berücksichtigt

Phasen: Sortierung zb nach Kundennr, Generalisierung nach häufigen Itemmengen, Transformation, Sequenz zur Ermittlung häufiger Sequenzen, Maximalphase zur Bestimmung der maximalen Sequenzen

- Beispiel: Kundenverhalten in einer Videothek: Wenn sich ein Kunde 1. Teil einer Trilogie ausleiht, dann leiht er sich kurze Zeit später wahrschienlich Teil 2 und 3 aus. Egal ob direkt nacheinander oder ob andere Filme dazwischen ausgeliehen werden.

Grundidee und Motivation des Web Mining

- Web Mining zielt darauf ab, das WWW zu einem nützlichen Instrument umzuformen bzw. es nutzbar zu machen, so dass der Benutzer gewünschte Informationen schneller und einfacher finden kann. Es geht also um die Erkennung von Wissen aus einer Sammlung von Web-Daten, die so nicht auf einer einzelnen Seite vorliegen.
--> Kombi aus Data Mining und WWW als Datenquelle

Fragen zur Navigation im Web

Teilgebiete für Web Mining mit Beispielen und Erläuterungen

Web Content Mining

  • Beispiel: Gruppieren von Webseiten mit ähnlichen Inhalten in verschiedenen Klassen
  • Web Content Mining ist die Entdeckung nützlicher informationen aus dem Inhalt einer Webseite (Text Mining, Bild, Ton, Film). So kann man zB verschiedene Videoportale danach gruppieren, was für Filme sie anbieten ( Titel)

Web Structure Mining

  • Bestimmung der Wichtigkeit einer Seite aufgrund von Hyperlinks
  • beschäftigt sich mit der Analyse von Strukturen insbesondere der Verlinkung von Seiten. Crawler sammeln und durchsuchen Seiten im Web mit Breiten- bzw Tiefensuche. Bei der Breitensuche werden gut vernetzte Seiten bevorzugt.

Web Usage Mining

  • Auffinden von Mustern, die Verhalten von Webnutzern beschreiben
  • Ist die Analyse und Entdeckung von interessanten Mustern in den Nutzungsdaten eines Webnutzers. Nutzerdaten werden in einem Onlineshop gespeichert, beispielsweise um die Bedürfnisse des Nutzers besser zu verstehen. Mit diesen Informatonen können gezielt Werbebanner, basierend auf dem was sich der Kunde vorher angeschaut hat, eingeblendet werden.

Datenbeschaffungsmöglichkeiten und Probleme dabei im Web Mining

Serverlogs, Verhaltensstudien durch Fragebögen, (Eye)Tracking, Skripts (Clients)

Probleme des Datenschutzes, Privatsphäre, Zurückhaltung von Daten, Sicherheitsaspekte

Was ist Visualisierung, Vor und Nachteile

Ein Werkzeug, um bei Geschäfts- und Datenanalysen in den Geschäftsdaten neue Muster und Trends zu entdecken.

+ Bilder werden schneller wahrgenommen und verarbeitet als Text oder Zahlen, Darstellung dichter u ergiebiger Datensätze, Element moderner Kommunikation

- erfordert Interpretation, Gefahr der Fehlinterpretation, Emotionalität/Erwartungshaltung des Betrachters

Was bedeutet grafische Integrität?

Grafische Integrität ist dann erreicht, wenn die Schlussfolgerung eines Betrachters konsistent sind mit den wahren Gründen und den Beziehungen zwischen Effekten in dem System, das die Daten erzeugt hat.

  • numerische Grundlage, visualisierte Daten und Wahrnehmung des Betrachters stimmen überein.

Was ist der Lügenfaktor?

Die grafische Darstellung von Zahlen soll direkt proportional zu den Zahlen sein.

Lügenfaktor definiert das Verhältnis von graphisch dargestelltem Größenverhältnis (in%) und dem tatsächlichen Zahlenmaterial

Formel: Größe des Effekts in Grafik / Größe des Effekts in Daten

Matterhorneffekt

Effekt, wenn identisch geformte Objekte bei perspektivischen Zeichnungen umso größer wirken, je weiter sie sich im Hintegrund befinden.

Warum sollten zur Beobachtung von regelmäßig wiederkehrenden saisonalen Schwankungen keine zu groben oder feinen Filterstufen gewählt werden?

  • zu grob, dann können saisonale Schwankungen überdeckt und

nur ein zufälliges, unbedeutendes Rauschen identifiziert werden

oder es sind lediglich Hinweise zu erkennen, die jedoch nicht deutlich sind!

  • zu fein, dann werden Schwankungen ebenfalls überdeckt, jedoch durch das

Rauschen einer Vielzahl von Daten, sodass kein Muster entstehen kann.

Nenne drei Gründe für eine Datenvisualisierung

  • Bildhafte Informationen werden ganzheitlich erfasst (zB Weltkarte)
  • Bilder werden mit geringer gedanklicher Anstrengung aufgenommen und verarbeitet
  • Grafische Darstellungen können Strukturen sichtbar machen