Klausurfragen

Monika Stromecki

Monika Stromecki

Set of flashcards Details

Flashcards 64
Students 15
Language Deutsch
Category Computer Science
Level University
Created / Updated 13.07.2014 / 05.07.2023
Weblink
https://card2brain.ch/box/business_intelligence_and_data_mining
Embed
<iframe src="https://card2brain.ch/box/business_intelligence_and_data_mining/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Erkläre, worin sich operative, taktische bzw. strategische Führungsaufgaben unterscheiden und geben Sie für jede Führungsaufgabe die unterstützenden BI-Systeme an!

Aufgaben:

  • Strategisch: Definition von Unternehmenszielen, außergewöhnliche Strukturentscheidungen und langfristige Unternehmensentwcklung
    • Unterstützung durch Führungsinformationssysteme (FIS) für interne und externe verdichtete Daten, ausgeprägte Kommunikationselemente und intuitive Benutzerschnittstellen
  • Taktisch: Umsetzung der Unternehmensziele, Effektivität und Effizienz des Ressourceneinsatzes auf mittelfristige Sicht
    • Entscheidungsunterstützungs-Systeme (EUS) für z.B. Optimierung und Simulation, Fokus auf Teilprobleme z.B.  Maschinenbelegungen
  • Operativ: Laufende Koordinationsaufgaben auf Kurzfristperspektive
    • Management-Informations-Systeme (MIS) mit z.B. standardisierten Berichten aus Basis operativer Datenbestände

Welche BI-Technologien gibt es?

  • DB's (MIS, operativ)
    • große Datenmengen, relationale Datenbanken und NoSQL
  • Tabellenkalkuation (EUS, taktisch)
    • Auswertung und Darstellung von kleinen/mittleren Datenmengen
    • What-if Rechnung, Pivottabellen
  • Kommunikations- und Kooperationssysteme (FIS,strategisch)
    • Rechnersysteme, (A)synchrone kommunikation), Workgroup Mgmt Systeme für Teamarbeit

Geben Sie für zwei Phasen aus dem Managementprozess (Situationsanalyse, Steuerung, Planung, Kontrolle) ein Beispiel für eine konkrete Managementaufgabe. Beispiel, wie eine Unterstützung durch BI (Technologie) aussehen könnte.

- Organisation & Steuerung: laufende Koordinationsaufgaben, MIS können dabei mit standardisierten Berichten helfen, als BI Technologie kann je nach Umfang der Daten entweder eine Datenbank bei großer Datenmenge oder bei kleinen Datenmengen Tabellenkalkulation eingesetzt werden.

- Situationsanalyse: Definition von Unternehmenszielen, unterstützt durch FIS und BI Technologie mit Kommunikations- und Kooperationssystemen

Weche sind die drei BI Nutzergruppen und welche Werkzeuge nutzen sie?

  • Informationskonsumenten
    • standardisierte Ansichten auf definierte Datenbestände
    • periodische Aktualisierung
    • Endgerätnutzung, Vergleichsdarstellungen mit Zeitreihen
    • -> z.B. betriebliches Berichtswesen
  • Analytiker
    • Lösung (semi)unstrukturierter Probleme
    • Freie Navigation durch den Datenraum, selbstständige Auswahl/Kombination verfügbarer Daten, flexible Darstellungsmöglichkeiten
    • Einfache Analysemethoden
    • -> z.B. OLAP
  • Spezialisten
    • komplizierte Aufgabenstellungen (Ursache-Wirkungszusammenhänge)
    • Anspruchsvolle Methoden
    • ggf eigene Lösungsentwicklung (z.B. SQL)
    • -> z.B. Data Mining

Was sind Data Warehouse (DWH) und Operatives Datensystem (ODS) und wofür werden sie genutzt?

DWH

  • soll themenorientierte, vereinheitlichte Daten dauerhaft und mit Zeitbezug zur Entscheidungsunterstützung aus unterschiedlichen Datenquellen (nämlich den ODS) periodisch zu sammeln, nutzungsbezogen aufzubereiten und bedarfsgerecht zur Verfügung zu stellen.
  • Es wird genutzt, um integrierte und konsistente Unternehmensdaten getrennt von operativen Systemen bereitzustellen und große Datenmengen für Analyse zur Verfügung zu stellen 
  • Die Datenbestände stehen für Analysen und Entscheidungshilfen (z.B. OLAP, DM,..) langfristig zu Verfügung

ODS

  • Operative Systeme sind Administrations- und Dispositionssysteme mit dem Ziel zur Rationalisierung und Effizienz von Arbeitsabläufen beizutragen

  • Sie werden genutzt um das Tagesgeschäft abzuwickeln (z.B. Warenverkauf, Auftragseingang,...)

  • Operative Daten resultieren aus Geschäftstransaktionen

Kurz die DWH Referenzarchitektur skizzieren.

Siehe Bild

Erkläre die Bausteine OLAP-Server und Metadatenbanksystem der DWH Referenzarchitektur!

OLAP-Server

  • Ansatz zur interaktiven, multi-dimensionalen analyse von Unternehmensdaten
  • Ergänzung eines starren Berichtswesens
  • Operationen zur definition und Manipuation von Dimensionen und Konsolidierungshierarchien

Metadatenbanksystem

  • Technische Angaben (Datenmodell, Datenursprung)
  • Fachliche Angaben (Hilfe zum Auffinden von Daten, Dokumentation vordefinierter ANFRAGEN und Erläuterung von Fachbegriffen

 

Was ist ETL?

Das ETL System ist zuständig für die Integration von Daten aus verschiedenen (heterogenen) Quellen ins DWH

  • Extraktion
    • Datenbank und Dateispeicherung
    • Dokumentation v. datenstrukturen und Schnittstellen in Quellsystemen
    • Datenauswahl (Identifikation geändeter Daten; Zeitstempel, trigger DB-Logfiles)
  • Transformation
    • Harmonisieren (Verknüpfen Schlüssel/Attribute & Vereinheitlichung Währung, Maßeinheiten..)
    • Bereinigen ( Fehler)
    • Zuordnen (Mapping von Ausgangsstruktur zu Zielstruktur
  • Laden
    • physischer Datentransport
    • Anreicherung (kennzahlen)

Was ist subjektorientiert und vereinheitlich im Zusammenhang mit DWH?

subjektorientiert (oder auch themenorientiert)

  • die Daten sind fokussiert auf inhaltliche Kernbereiche im Unternehmen und es wird eine nutzenorientierte Vorselektion zu Themenschwerpunkten vorgenommen
  • z.B. können die Daten auf die verschiedenen Subjekte Kunden, Produkte, Lieferanten,... fokussiert sein

Vereinheitlicht

  • Die Daten aus den operativen Systemen werden übernommen und die vorhandenen heterogenen Daten vereinheitlicht bzw. harmonisiert z.B. Namensgebung und Kodierung, damit sich ein konsistenter Datenbestand ergibt

Was ist der Unterschied zwischen einem DWH und Data Mart (DM)?

Bei einem Data Mart ist der Datenspeicher nach der selben Philosophie wie bei einem DWH aufgebaut, aber Data Marts sind nur auf ein Subjekt ausgerichtet, enthalten als nur einen Teilbereich der Daten und nicht alle Subjekte des Unternehmens

Subjekte: DWH hat mehrere, DM eines

Datenquellen: DWH hat viele verschiedene, DM hat dagegen nur wenige

Größe: DWH hat mehrere TB, DM ist wesentlich kleiner

Implementationsdauer: DWH dauert Monate-Jahre, DM weniger

Fokus: DWH unternehmensweise, DM begrenzter

Was ist Datenintegraton? Beispiel, welche Aufgaben im Bereich Datenintegration in BI Projekten spielen könnten.

Bei der Datenintegration sollen die Daten mehrerer betrieblicher Funktionsbereiche aus verteilten, unterschiedliche strukturierten Datenbeständen vereinheitlicht und in ein zentrales Datenlager integriert werden.
Das Ziel ist es, dieselben Daten unmittelbar für verschiedene Aufgaben nutzbar zu machen und eine globale Sicht auf die Quelldaten ermöglichen.

Beispiel: ETL-Prozesse

Welches sind die Front-End-Technologien der DWH Referenzarchitektur? Kurze Erklärung und nenne, welche Werkzeuge die jeweilige Nutzergruppenn typisch benutzen.

- Berichtswesen: Klassisches Instrument der Infoversorgung, lediglich Datenanalyse und -darstellung, z.B. Standardbericht, Abweichungsbericht, Bedardsbericht

- Dashboards: stark verdichtete Infos mit Fokus auf benutzerfreundliche Darstellung, hohe Spezifität

- Portale: zentraler Zugang zu ausgewählten Infos, Suchkosten des Anwenders werden reduziert, verschiedene Formen, z.B. als BI/Enterprise/Knowledge-Portal im Webbrowser oder als SW

- Data Mining: Neugewinnung von Informationen aus den vorhandenen Daten, Konzept zur (teil)automatisierten Analyse großer Datenmengen, Ursache-Wirkung-Probleme

- OLAP Frontend: interaktive, multidimensionale Analyse; Würfelstruktur

Benutzergruppen

Informationskonsumenten: Portale, Dashboards und Berichtssysteme

Analytiker: OLAP

Spezialisten: Data Mining

Was ist der Unterschied zwischen betrieblichem Berichtswesen, Data Mining und OLAP?

Für alle drei stellt das DWH die Datenbasis dar.

Das Berichtswesen und OLAP stellen beides Aufbereitungs/Auswertungs- und Darstellungsmöglichkeiten von Informationen dar

  • Das betriebliche Berichtswesen ist ein klassisches Instrument der Informationsversorgung und umfasst Datenbeschaffung, Infoerzeugung, Infoübermittlung und Nutzung.
  • Dagegen ist OLAP interaktiv und durch dieMultidimensionale Datenanalyse aus verschiedenen Perspektiven anwendbar und gilt als Ergänzung zum starren Berichtswesen.

DM dagegen stellt die Analyse und Neugewinnung von Informationen dar:

  • Data Mining umfasst den Prozess der Gewinnung neuer, valider verständlicher und handlungsrelevanter Informationen aus großen DBs und der Nutzung dieser Infos für BWL-Entscheidungen. DM ist ein Konzept zur (Teilautomatisierten) Analyse großer Datenmengen mit formalen Algorithmen und klar spezifizierten Problemen.

Erläutern Sie die Würfelstruktur und die Operatoren von OLAP.

• Logische Datenrepräsentation
• Speichertechnologien siehe unten

Leicht verständliche Datenrepräsentation
Betrachtung betriebswirtschaftlichen Zahlenmaterials
• aus unterschiedlichen Perspektiven
• mit unterschiedlichem Detaillierungsgrad

Operatoren:

Rotation/Pivotisierung: Drehen des Würfels und dadurch Vertauschen der Dimensionen

Roll-Up: Verdichtung von Werten (z.B. Tag-Monat-Quartal-Jahr)

Drill-Down: Detaillierung, Gegensatz zu Roll-Up

Slice: Herausschneiden eine Scheibe des Würfels

Dice: Herausschneiden eines Teilwürfels

 

Vor und Nachteile von den OLAP-Umsetzungsformen ROLAP und MOLAP

ROLAP (=Relationales OLAP)

  • Relationale Speicherung der Daten in Tabellen, Würfel wird dynamisch im Hauptspeicher aufgebaut

+ einfache Realisierung

+ gute Skalierbarkeit

+ Updateperformance

- Abfrageperformance

 

MOLAP (multidimensional)

  • Speicherung in multidimensionalen Arraystrukturen

+ hohe Abfrageperformance

- Update Performance

- nicht ausgereifte Speichertechnologie

- Skalierbarkeit

Eigenschaften von den OLAP-Umsetzungsformen DOLAP und HOLAP

Desktop OLAP (DOLAP)
- Import von Basisdaten auf dem Client
- Lokale Analyse

Hybrides OLAP (HOLAP)
- Mischform aus ROLAP und MOLAP

Es stehen verschiedene Architekturvarianten von OLAP zur Verfügung (R, M, D, H). Den verschiedenen Szenarien soll die jeweils beste Variante zugeordnet werden. Begründen.

1. OLAP fürs Controlling genutzt, Produkmanager fragen in hoher Frequenz Vertriebsdaten ab und analysieren verschiedene Dimensionen. Es finden Soll/Ist-Vergleiche mit Daten vergangener Perioden statt, z.B. letzter Monat. Aktuelle Daten selten.

2. Inhaberin regionaler Coffeeshopkette analysiert Entwicklung ihres Umsatzes und die Nachfrage nach verschiedenen Angeboten. Für die PLanung des Wareneinkaufs und Personaleinsatzes, untersucht sie Einfluss zeitlicher und räumlicher Faktoren auf den Filialumsatz bzw Warenbedarf. Rohdaten werden periodisch aus den Kassensystemen der Filialen ausgelsen und in ein DWH gespielt.

3. OLAP zur Steuerung von Marketingmaßnahmen in Onlineshop. Mit verschiedenen Marketinginstrumenten sollen Besucher zum Kauf bewegt werden (Coupons, TopSellerListen,...). Effektivität der Maßnahmen werden regelmäßig untersucht und nach verschiedenen Dim untersucht. Daten sollen in Echtzeit analysiert werden. Direktzugriff auf operatives Shopsystem ist nicht vorgesehen, um die Performanz des Shops nicht zu beeinflussen.

Bei 4 und 5 muss sich lediglich zwischen MOLAP u ROLAP entschieden werden:

4. Im Beschwerdemanagement bearbeiten MA Kundenanfragen zu Produkmängeln. Während des Dialogs müssen Historie zum Kunden und Produkt vorhanden sein.

5. Für die Planung einer Neuprodukteinführung analysieren MA im Marketing verschiedene Vertriebsregionen gemäß Kaufkraft, Kundenvorlieben etc.

1. MOLAP, wegen hoher Performance die bei hoher Abfragefrequenz wichtig ist. Einbußen in der Update-Performance eher weniger wichtig, da Vergangenheitsdaten im Fokus stehen. Lokal nicht möglich, weil verschiedene Leute Zugriff haben wollen.

2. DOLAP weil nur die Inhaberin lokal bei sich Analysen tätigt.

3. ROLAP weil geringe Geschwindigkeit beim Einspielen neuer Daten und einfache Realisierbarkeit.

4. MOLAP wegen der Abfrageperformance

5. ROLAP weil geringe Geschwindigkeit beim Einspielen neuer Daten

 

Unterschied zwischen Prognose- und Beschreibungsmodell

Prognosemodelle

  • erstellen auf der Basis von Daten und einer gegebenen Zielvariablen eine Entscheidungsregel, die auf neue unbeannte Daten angewendet wird. Die Art und Anzahl der Klassen, in die neue Objekte zugeordnet werden, ist hier vorgegeben. Die Strukturierung ist unabhängig von den verwendeten Daten.

Beschreibungsmodell

  • dient zur Strukturierung von Daten. Eine Zielvariable ist nicht vorhanden, sondern durch das Beschreibungsmodell wird Zielvariable ermittelt. Die Strukturierung ist hier von den verwendeten Daten abhängig.

Nenne jeweils ein Prognose und Beschreibungsmodell inklusive der methodischen Zielsetzung, Anwendung in BWL, Algorithmus und einem Data Mining Verfahren

Prognosemodell

  • Methodische Zielsetzung: Vorhersagen der Klassenzugehörigkeit eines neuen Objektes wenn bei einer Menge von Beobachtungen die Klassenzugehörigkeit bekannt ist.
  • Anwendung in BWL: zB die Überprüfung von der Kreditwürdigkeit einer Person

  • Data Mining Verfahren: Klassifikation

  • Dazu passende Methode: Entscheidungsbäume, CART Algoritmus?

Beschreibungsmodell

  • Methodische Zielsetzung: Assoziationsregeln finden, die Gemeinsamkeiten und Regelmäßigkeiten in einer Menge von Daten beschreiben.
  • Anwendung in BWL: Warenkorbanalyse
  • Data Mining Verfahren: Assoziation
  • Dazu passende Methode (Algorithmus): Apriori Algorithmus

Eine DM-Aufgabe ist die Wallet-Estimation für die Schätzung des Anteils für IT-Ausgaben eines Kunden, der auf das eigene Unternehmen fällt. z.B. Dell betrachtet det Kunden Uni HH. Gesamtausgaben der UHH sind X EUR. Share-of-wallet von Dell ist derjenige Anteil von X, den die UHH bei Dell ausgibt. Beträgt der Wert bereits 90% hat Dell kaum noch Möglichkeiten den Wert zu erhöhen. Beträgt der Wert allerdings nur 5 % sieht Dell das Potential die Kundenbeziehung auszubauen.

In welchen Bereich fällt die SoW, Prognose- oder Beschreibungsmodelle? Welche DM Methode würden Sie dafür empfehlen und warum. Welche Daten könnte Dell benutzen, um ein DM Modell zu Schätzung des SOW zu erstellen?

- fällt in den Bereich der Prognosemodelle und in die Unterkategorie Regressionen. Es kann eine lineare Regression durchgeführt werden. Daten hierfür wäre der Preis und Absatz.

Sowohl für Prognose- als auch für Beschreibungsverfahren existieren untergeordnete Modelle. Nennen Sie jeweils ein Modell und eine konkrete Methode (Algorithmus) zur Erstellung eines solchen Modells.

Beschreibungsmodelle:

Assoziation: Apriori Alg.

 

Prognosemodell:

Klassifikation: Entscheidungsbäume, CART Alg.

Wie kann Data Mining im Bereich Kundenbeziehung eingesetzt werden?

  • potentielle Kunden: Warenkorbanalysen: Identifikation von Verknüpfung von Waren, dadurch können potentielle Kunden durch gute Produktplatzierung besser erreicht werden
  •  
  • aktive Kunden: Clustering Verfahren: Kundengruppensegmentierung z.B. nach Kaufkraft und Produktpräferenzen. Dadurch können diese speziell behandelt werden und eine Umsatzsteigerung erreicht werden
  •  
  • verlorene bzw. reaktivierte Kunden: Klassifikation durch Entscheidungsbäume profitable vs unprofitable Kunden. Diese können u.a. mit  Sonderangebote und Extraleistungen zurückgewonnen werden. Bei den unprofitablen Kunden würden sich Extraangebote nicht rechnen.

 

Wie ist der Ablauf zur Erstellung eines Klassifikationsmodells mit einem Entscheidungsbaum?

Was sind Vor und Nachteile der Methode?

Das Modell wird auf Basis der Trainingsdaten abgeleitet

  • Wurzelknoten des Baumes enthält alle Instanzen, anschließend Teilung anhand Kriterien (zb für Klassifikation Gini/ Entropy Impurity oder wähle das Merkmal mit dem höchsten Information Gain=Reduktion der Mischung von Klassen)
    Beispiel des Simpsons Entschiedungsbaum. Es soll das Geschlecht eines neuen Objekts entschieden werden. Kriterien sind Alter>40, Gewicht>80 und Haarlänge>5. Gewicht hat den höchsten Information Gain, danach Haarlänge , danach wird der Entscheidugsbaum aufgebaut.
  • Es droht die Gefahr des Überlernens, dh es werden unsinnige Regeln abgeleitet. Besonders bei kleinen Datensätzen ist die Gefahrt groß. z.B. trägt grüne Hose oder blaue Schuhe ist keine Trennung für das Geschlecht, sondern Zufall
  • Dann Pruning: Zurückschneiden von Zweigen zur Vermeidung von Überlernen

+ übersichtlich, verständlich, in der Praxis akzeptiert, flexibel weil numerische und kategoriale Merkmale

- Anfällig für Überlernen, leichte Änderungen in den Daten führen zu sehr unterschiedlichen Entscheidungsbäumen

Wie wird der GINI Index berechnet?

1 - (Anzahl Elemente Klasse A/ Alle Elemente zum quadrat + Anzahl Elemente Klasse B / alle Elemente zum quadrat)

 

Gini Index besser je näher an 0 oder 1 dran, da das die Homogenität  einer Klasse darstellt

Welche Pruning-Arten gibt es?

Pruning allgemein vermeidet das Überlernen, also das Ableiten unsinniger Regeln

Pre-Pruning
• Vorzeitiges Beenden der Teilung
– Schwellenwert: Minimale Anzahl von Instanzen pro Blatt
– Schwellenwert: Maximale Anzahl von Ebenen
– Signifikanztest: Ist die Entropie-Reduktion signifikant?
• Nachteile
– Berücksichtigt nur den aktuellen Knoten (horizon effect)
– Bestimmung der Parameter?


Post-Pruning
• Zweige werden rekursiv wieder entfernt bzw. zusammengeführt
• Gegenteil von Teilung
– Überwachung der Prognosegüte auf separater (hold-out) Datenmenge
– Zurückschneiden von Zweigen, so dass die Unreinheit möglichst wenig ansteigt
– Zusammenfassung von Zweigen, die immer nur eine Klasse prognostizieren

Gehören Ensembles zu den Prognose- oder Beschreibungsmodellen?

Ensembleklassifikatoren gehören zu den Prognosemodellen, da diese nur eine Aggregation aus Einzelprognosen aus einzelnen Klassifikationsmodellen sind.

Worin besteht der Vorteil eines Ensembleklassfikators gegenüber dem gewöhnlichen Klassifikator?

  • Vorgehen: Erstellung mehrere Klassifikationsmodelle und anschließende Aggregation der Einzelprognosen
     
  • Die Prognosegüte wird gesteigert, da Einzelprognosen aggregiert sind und Synergien ausgenutzt werden
  • Zufallsschwankungen (Varianz) wird durch Kombinationen ausgeglichen

  • Kombination verschiedener einzelner Modelle ermöglicht die Approximation komplexer Zusammenhänge

Ist ein Ensembleklassifikator einem gewöhnlichen Klassifikator grundsätzlich - also immer- vorzuziehen? Begründen Sie.

Nein!

Weil: wenn die Prognosegüte nur minimal besser ist, dann lohnt sich evtl. der größere Aufwand bei der Erstellung eines Ensembleklassifikators nicht.

Warum ist es im Rahmen eines Ensembles wichtig, dass die einzelnen Klassifikatoren verschiedenartig (diversifiziert) sind?

Diversifikation ist bei Ensembles wichtig, da sonst ihre Prognose nur genauso gut

wäre, wie eins der verwendeten Modelle! Alle Modelle würden bei Gleichartigkeit

den selben Output prognostizieren und somit die Prognosegüte nicht verbessern!

Kurz Unterschied zwischen homogenen und heterogenen Ensembles erklären.

Welches sind die in der VL genannten homogenen und hetereogenen Ensembles? Mit 1-2 Sätzen beschreiben.

Homogen: Es wird nur ein Klassifikationsverfahren verwendet.

Bagging: Aus verschiedenen Stichproben werden verschiedene Bäume erstellt und diese aggregiert.

Boosting: Das Gewicht der Fälle, die sich schlecht klassifizieren lassen, wird erhöht

Random Forrest: Es werden zufällig Splitvariablen aus einer Teilmenge der Variablen ausgewählt und eine Mehrheitsentscheidung getroffen.

Hetereogen: Kombination aus verschiedenen Klassifikationsverfahren, Einsatz verschiedener Klassifikatoren

Stacking: Es werden mehrere unterschiedliche Learningalgorithmen mit verschiedenen Stärken und Schwächen auf das selbe Problem angesetzt. Deren Ergebnis wird mit einem weiteren learning algothm, dessen Aufgabe es ist, zu lernen, welcher Algorithmus in welchen Fällen gute Entscheidungen trifft, zu einem Ergebnis zusammengefasst. Es werden zwei Klassifikatoren eingesetzt: Base-Level und Level-0

Ensemble Selektion: Hier wird mit dem besten Basismodell begonnen und weitere Basismodelle zum Ensemble hinzugefügt, solange sich dabei die Prognosegüte verbessert.

Die Prognosegüte eines E-Baums kann oft verbessert werden, wenn mehrere E-Bäume in einem Ensemble kombiniert werden.

1. Kurz erklären, welche Voraussetzungen erfüllt sein muss, damit ein Ensemble tatsächlich genauer prognistizieren kann als ein einzelner EBaum.

2. Beschreiben sie einen möglichen Ansatz, um ein Ensemble von EBäumen zu erstellen.

1. Stichwort Diversifikation, verschiedene Klassifikatoren

2. zB Bagging, Boosting, Random Forrest

Ensemble-Modelle erlauben oft genauere Prognosen als einzelne Klassifikatoren. Eine wichtige Voraussetzung für den Erfolg von Ensembles ist, dass sich die Basismodelle voneinander unterscheiden (Diversifikation). Erläutern Sie, mit welcher Strategie beim Bagging-Verfahren versucht wird, diversifizierte Basismodelle zu erstellen.

Diversifizierte Basismodelle = verschiedenartige Einzelmodelle, instabile Basis-Klassifikatoren --> Klassifikatoren müssen sich ergänzen

Beim Bagging wird aus aus N Beobachtungen eine Stichprobe MIT zurücklegen gezogen, dabei werden Daten teilweise mehrfach oder gar nicht gezogen und auf diese Stichproben wird der Klassifikator trainiert. Es wird versucht eine unendliche Menge von Datensätzen zu simulieren. Es werden viele Bäume aus verschiedenen Bootstrap Stichproben erstellt und diese aggregiert.

Welche Eigenschaft müssen Klassifikationsalgorithmen besitzen, damit Bagging besonders gut funktioniert?

Klassifikatoren müssen sich ergänzen, z.B. unkorrelierte Fehler

Was ist Random Forest?

- Erweiterung von Bagging: transponierte Verfahren zu Bagging

- Mehrheitsentscheidung

Stichprobe der Merkmale: In jedem Baum wird an jedem Knoten eine bestimmte Anzahl an Merkmalen zufällig ausgewählt und der beste Split unter diesen Merkmalen bestimmt. Die Ergebnisse aus allen Bäumen werden aggregiert.

 

Erläutere einen Ansatz, mit dem auf Basis der gegebenen Menge an Basismodellen ein Ensemble erstellt werden kann, das in der Lage ist, die Basismodelle gemäß Ihrer Prognosegüte zu gewichten.

Eselsbrücke: Simpsons Koordinatensystem mit Alter/Gewicht. Das Geschlecht soll klassifiziert werden.

Boosting mit dem AdaBoost Algorithmus:

Hier wird das Gewicht der Fälle erhöht, die sich schlecht klassifizieren lassen.

  • Jede Iteration verwendet unterschiedliche Gewichte für die Trainingsinstanzen
  • Nach jeder Iteration werden die Gewichte aktualisiert , indem das Gewicht von falsch klassifiierten Instanzen erhöht wird, um auf diese zu fokussieren
  • Aggregation der Ergebnisse aller Iterationen und Gewichtung der Klassifikatoren anhand ihrer Fehler

 

Nehmen Sie an, Sie haben in einem ersten Modellierungsschritt eine Menge alternativer Basismodelle mit verschiedenen Klassifikationsverfahren erstellt. Erläutern Sie einen Ansatz, mit dem Sie auf der Basis der gegebenen Menge an Basismodellen ein Ensemble erstellen können. Beachten Sie, dass der von Ihnen gewählte Ansatz in der Lage sein soll, Basismodelle gemäß ihrer Qualität (Prognosegüte) zu gewichten.

es handelt sich hierbei um einen heterogenen ansatz, da verschiedenen klassifikationsverfahren zum einsatz kommen.
es wird die ensemble selektion empfohlen. hier wird zunächst das beste basismodell ausgewählt und weitere hinzugefügt solange die prognosegüte steigt.

Bias und Varianz Effekte bei Boosting und Bagging

Befund: Bagging reduziert nur die Varainz, Boosting dagegen Viranz u Bias??

Varianz = Zufallsschwankungen

Bias = statistische Verzerrung

Man möchte sowohl Bias als auch Varianz minimieren, jedoch existiert ein Trade-off zwischen beiden. Es kann nie Bias und Varianz gleichzeitig reduziert werden.

Bagging Effekt

  • Bei gut angenäherten Bootstrap Stichproben kann Bagging die Varianz reduzieren ohne den Bias zu verändern
  • in der Praxis kann je nach Klassifikator entweder Bias oder Varianz reduziert werden

Boosting

  • In frühen Iterationen wird Bias reduziert
  • in späteren Iterationen wird die Varianz reduziert

Gütekriterien zur Bewertung von Prognosemodellen

- Geschwindigkeit in Bezug auf die Erstellung eines Klassifikators (Training)

- Geschwindigkeit in Bezug auf die Anwendung eines Klassifikators

- Robustheit: Datenrauschen, Irrelevante Merkmale, Fehlende Werte, Aktualisierung

- Interpretierbarkeit: nur Prognose oder auch neue Erkenntnisse?

- Einfachheit: z.B. Anzahl Ebenen in EBaum o Anzahl Parameter in Modell

Was ist das allgemeine Prinzip und Ziel der Kreuzvalidierung und und welche Probleme sollen bei dem Vorgehen vermieden werden? Wie ist das Vorgehen?

Das Prinzip: die Modelldaten werden in zwei sich gegenseitig ausschließende Mengen aufgeteilt, in eine größere (die Trainingsmenge) und eine kleinere (die Testmenge) --> Split-Sample-Setup

Ziel: Realistische Abschätzung der Prognosegüte.

  • Problem: Überanpassung an die Trainingsdaten
  • Bewertung anhand der Trainingsdaten zu optimistisch!
  • Alle Verfahren sind optimal an die Trainingsdaten angepasst!
  • Wenn das Verfahren entsprechend „mächtig“ ist (z.B. Entscheidungs-baum ohne Pruning), können Trainingsdaten immer mit 100% Genauig-keit klassifiziert werden. Überlernen („Auswendiglernen“)

Daher wurde das folgende Vorgehen entwickelt: Die größere Datenmenge wird dazu verwendet, ein Modell aufzustellen, während die kleinere Datenmenge dazu dient, das Modell zu bestätigen, indem man das Modell auf die kleinere Datenmenge anwendet und die Ergebnisse mit den tatsächlichen Werten vergleicht. Dieser Prozess wird mit verschiedenen Untermengen so lange wiederholt, bis jedes Objekt der Datenmenge einmal für die Testmenge verwendet wurde.

Beschreibe den ABlauf der Kreuzvalidierung bei 1000 fällen und K = 10

- Daten werden in 10 Mengen a 100 Fälle aufgeteilt

- Ein Klassifikationsmodell wird auf den ersten 900 Fällen erstellt (Trainingsmengen)

- Das Modell wird auf den letzten 100 Fällen bewertet (Testmenge)

- Das wird 10 mal wiederholt, sodass jede der 10 Mengen einmal Validierungsmenge war

- Die 10 Prognosegüten werden gemittelt.