Statistik
Statistik, DATA
Statistik, DATA
Kartei Details
Karten | 106 |
---|---|
Sprache | Deutsch |
Kategorie | BWL |
Stufe | Universität |
Erstellt / Aktualisiert | 27.12.2021 / 06.07.2023 |
Weblink |
https://card2brain.ch/box/20211227_statistik
|
Einbinden |
<iframe src="https://card2brain.ch/box/20211227_statistik/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Wann wird eine Korrelation nach Pearson ermittelt? Was sind die Voraussetzungen?
Stärke und Richtung der linearen Beziehung zwischen zwei stetigen Variablen zu untersuchen.
Voraussetzungen:
- Metrisches Skalenniveau
- Normalverteilung der Daten
- Linearer Zusammenhang zwischen den Variablen
Erkläre:
p-Wert ≤ α
p-Wert > α
p-Wert ≤ α: Die Korrelation ist statistisch signifikant
Wenn der p-Wert kleiner oder gleich dem Signifikanzniveau ist, können Sie folgern, dass die Korrelation von 0 abweicht.
p-Wert > α: Die Korrelation ist statistisch nicht signifikant
Wenn der p-Wert größer als das Signifikanzniveau ist, können Sie nicht folgern, dass die Korrelation von 0 abweicht.
Was sind typische Fragestellungen bei Gruppenvergleichen?
Kauft das Kundensegment X mehr bei uns ein als das Kundensegment Y?
Produziert Anlage A Schrauben mit dem gleichen Gewicht wie die Anlage B?
Sind Kunden zufriedener mit dem alten oder dem neuen App Design?
Welche zwei Varianten des T-Tests gibt es?
Vergleich von einer bestimmten Gruppe mit einer anderen
→ T-Test für unabhängige Stichproben (Welch-Test)
Vergleich derselben Gruppe vor und nach einer Intervention, um zu prüfen ob diese einen Effekt hatte
→ T-test für abhängige Stichproben
1. Welche Voraussetzungen gibt es für den T-Test?
2. Wie wird das überprüft?
3. Was kann alternativ gemacht werden?
Variable sollte normalverteilt sein
Großes N -> zentraler Grenzwertsatz
Überprüfung mittels Kolmogorov-Smirnov Test
Alternativ:
Nicht parametrischer Test zum Vergleich von Mittelwerten
Kruskal-Wallis-Test für unabhängige Stichproben
Friedman-Test für abhängige Stichproben
Wie werden Gruppenvergleiche zwischen mehreren Gruppen gemacht?
Varianzanalyse (ANOVA) ermöglicht mehr als zwei Mittelwerte zu vergleichen. = F-Wert
Einfache Varianzanalyse:
Existieren signifikante Unterschiede des Mittelwerts einer Variable zwischen mehreren Gruppen?
1. Was ist die Voraussetzung?
2. Interpretiere den F-Test$
3. Wann wird der Post-Hoc-Test gemacht?
Voraussetzung:
Abhängige Variable ist metrisch
Normalverteilung der abhängigen Variable
F-Test
H0: Gruppenmittelwerte alle gleich
H1: mind. 2 Gruppenmittelwerte sind ungleich
Post-Hoc-Test
Falls F-Test signifikantes Ergebnis liefert
Gibt Auskunft darüber welche Gruppenmittelwerte sich unterscheiden
1. Wie wird die Varianz grafisch dargestellt?
2. Was macht man, wenn bei der Varianzanalyse Ausreisser vorhanden sind?
Grafische Darstellung und Kontrolle mittels Boxplot
Falls Ausreißer vorhanden:
ANOVA verzerrt
Lösung: Kruskal-Wallis-Test
Was ist die mehrfaktorielle Varianzanalyse?
Gruppeneinteilung erfolgt mittels mindestens 2 Variablen
Untersuchung der Interaktion (Wechselwirkung)
Die gemeinsame Untersuchung der abhängigen Variable mit allen unabhängigen Variablen führt zu signifikanten Unterschieden der Mittelwerte
Es kann der Fall auftreten, dass keine Variable für sich einen signifikanten Einfluss besitzt aber alle Variablen zusammen schon
Nenne typische Fragestellungen der linearen Regression.
Welche Eigenschaften eines Kunden wirken sich auf seine Einkaufshöhe aus?
Wie wirken sich Werbeausgaben auf unseren Umsatz aus?
Wie wirkt sich der Wochentag und das Wetter auf den Tagesumsatz meiner Eisdiele aus?
Wofür wird die lineare Regressionsanalyse verwendet?
• Die Regressionsanalyse erlaubt die Untersuchung von Zusammenhängen zwischen Variablen
• Untersucht wird dabei der Effekt einer oder mehrerer (unabhängiger) Variablen auf eine andere (abhängige) Variable
• Die Regressionsgleichung kann auch zur Vorhersage von Werten der abhängigen Variable genutzt werden
Was ist das Ziel einer linearen (einfachen) Regression?
Ziel ist es, die Veränderung der abhängigen Variable (Y) durch Veränderung der unabhängigen Variable (X) zu erklären.
Erkläre das Bestimmtheitsmass R2.
Das Bestimmtheitsmaß R2 gibt an, wie viel der Varianz der abhängigen Variable vom Model erklärt wird. R2 kann Werte zwischen 0 und 1 annehmen. R2= 1 wäre ein perfektes Model, bei dem alle Beobachtungen auf der Regressionsgrade liegen würden.
Zu niedrige R2 deuten auf unzuverlässige Modelle hin
Zu hohe R2 könnten overfitting implizieren
Welcher Test wird bei der einfachen linearen Regression verwendet?
Statistische Tests:
F-Test (ANOVA)
H0: Das Modell verfügt über keinen Erklärungshalt (oder auch: Es existiert kein linearer Zusammenhang)
H1: Das Modell verfügt über einen signifikanten Erklärungsgehalt (oder auch: Es existiert ein linearer Zusammenhang)
t-Test (für jeden Koeffizienten)
H0: βj = 0
H1: βj <> 0
Wie lautet die Interpretation der Koeffizienten bei der linearen Regression?
B0 gibt an in welcher Höhe die Gerade die Y-Achse kreuzt
Nur in Ausnahmefällen von Interesse (z.B. Zuckergehalt der Weintrauben bei Gärungsbeginn)
B1 gibt an um wie viel die abhängige Variable steigt, wenn die unabhängige Variable um eine Einheit steigt
Welcher SPSS-Output wird bei der einfachen Linearen Regression generiert?
1. Modellzusammenfassung: R2
2. ANOVA: F-Test/Wert und Signifikanz
3. Koeffizienten: T-Wert und Signifikanz
Wann wird die multiple lineare Regression verwendet?
- bei mehreren unabhängigen Variablen
Modell um die Veränderung der abhängigen Variable (Y) durch Veränderung der mehreren unabhängien Variablen (X) zu erklären
Welche statistischen Tests werden bei der multiplen linearen Regression generiert?
F-Test (ANOVA)
H0: Das Modell verfügt über keinen Erklärungshalt (oder auch: Es existiert kein linearer Zusammenhang im gesamten Modell)
H1: Das Modell verfügt über einen signifikanten Erklärungsgehalt (oder auch: Es existiert ein linearer Zusammenhang im gesamten Modell)
t-Test (für jeden Koeffizienten)
H0: βj = 0
H1: βj <> 0
Welche Variablentransformation wird für die lineare Regression verwendet?
Dummy-Codierung für Nominalskalierte Daten
Z.B. Variable: Augenfarbe
Keine Rangfolge (e.g. Blau nicht besser als Grün)
Dummy-Variablen für jede Ausprägung
Welches sind die Voraussetzungen für die lineare Regression?
Abhängige Variable sollte metrisch und stetig sein
N sollte groß genug für zentralen Grenzwertsatz sein (N > 100 mind.)
Kein oder schwacher Zusammenhang zwischen unabhängigen Variablen
Multikollinearität
Endogenität
Homoskedastizität der Residuen
Heteroskedastizität
Überprüfung durch Streudiagramm und P-P-Plot
Weiterführende Methoden wie Matching, Instrumentalvariablen, …
Wofür wird die Regressionsgleichung genutzt?
Für die Prädiktion neuer Werte (Wahrscheinlichkeit).
Einkommen = -38433.314 + Alter*890.841 + Akademiker*17615.084 + Arbeitsjahre*295,878 + IT_Kenntnisse*1569.575 + Fahrerlaubnis_PKW*1871.015 = Prädiktion/Einkommen
Was ist das Ziel der logistischen Regression?
Ziel ist es, die Wahrscheinlichkeit eines Ereignisses (codiert in der abhängigen Variable (Y)) durch Veränderung der unabhängigen Variable (X) zu erklären.
Nenne typische Fragestellungen für die logistische Regression.
E-Commerce:
Wie wahrscheinlich ist es, dass ein Kunde ein bestimmtes Produkt kauft?
Finanzsektor:
Wie wahrscheinlich ist es, dass es sich bei einer bestimmten Kreditkartenzahlung um Betrug handelt?
Medizin:
Welche Faktoren haben einen Einfluss darauf, dass eine bestimmte Erkrankung auftritt?
Was ist die logistische Regression?
• Die logistische Regression (auch: Logit-Modell) ist in der Lage, eine binäre Variable zu erklären und eine entsprechende Vorhersage der Wahrscheinlichkeit zu treffen, mit der ein Ereignis eintritt oder nicht.
• Bei der logistischen Regression handelt es sich um ein Klassifikationsverfahren.
• Als unabhängige Variablen können eine oder mehrere Variablen zum Einsatz kommen, die entweder metrisch oder kategorial sind (letztere i.d.R. dummy-codiert).
Welche Werte werden von der Logistischen Funktion angenommen?
Werte zwischen 0 und 1
1. Was ist der SPSS-Output bei einer logistischen Regression?
2. Interpretiere Exp(B):
Alter = 0.957
Geschlecht weiblich = 13.977
1. Modellzusammenfassung: R2
2. Klassifizierungstabelle: Beobachtungen
3. Variablen in der Gleichung: Exp(B) - Wahrscheinlichkeiten
Je älter ein Passagier, desto weniger wahrscheinlich ist das Überleben. Mit jedem zusätzlichem Jahr verändert sich die Überlebenswahrscheinlichkeit um den Faktor 0.957. Mit anderen Worten: Mit jedem zusätzlichem Jahr sinkt die relative Wahrscheinlichkeit des Überlebens um 4,3%.
Weiblich zu sein steigert die Überlebenswahrscheinlichkeit. Der Veränderungsfaktor ist 13.977, d.h. die Wahrscheinlichkeit, dass weibliche Passagiere überleben ist fast 14 mal höher als davon, dass männliche Passagiere überleben.
Was bedeutet Data Mining?
Ist die Anwendung von Methoden und Algorithmen zur möglichst automatischen Extraktion empirischer Zusammenhänge zwischen Planungsobjekten, deren Daten in einer hierfür aufgebauten Datenbasis bereitgestellt werden.
Was bedeutet Text Mining?
Eine Methode des Data Mining zur Analyse der unstrukturierter Daten
Nenne mögliche Fälle wo Text Mining angwendet wird.
1. Brand Monitoring in sozialen Medien
2. Erkennung neuer Produkttrends in Diskussionsforen
3. Filterung von Spam-Mails
4. Analyse von Kundenbeschwerden zur Messung der Produktqualität
5. Intelligentes Antragsmanagement in Behörden
6. Auswerten von News für die Vorhersage von Aktienkursbewegungen
7. Analyse von Lebensläufen zur Erstellung von Kompetenzprofilen (HR)
Nenne die zwei populären Herangehensweisen für die Analyse von Textdaten. Beispielsatz: “Lebron James hit a tough shot.”
Syntactic Parsing:
1. Sachverhalt in Nomen und Verben unterteilen.
2. Nomen = Lebron James
3. Verben unterteilen = hit (Verb) a (Artikel) tough (Adjektiv) shot (Substantiv)
Bag of Words:
- Alle wörter in einen Topf werfen.
Nenne 3 Methoden des Text Minings.
1. Automatisierte Inhaltsanalyse (Custom dictionaries)
2. Sentimentanalyse
3. Wordclouds
Erkläre die Automatisierte Inhaltsanalyse auf Basis von Wörterbüchern.
Erkläre es auch am Beispiel:
Mary loves movies, cinema and art
John is a sports fan and plays soccer
Sylvia is a movie producer and part of the basketball team
Vorab festgelegte Wörter und Phrasen (=Dictionary) werden pro Dokument ausgezählt
Textstruktur wird ignoriert (Bag of Words)
Sehr flexibel einsetzbar & gut nachvollziehbar (keine Blackbox)
Mary loves movies, cinema and art = (Kultur)
John is a sports fan and plays soccer = (Sport)
Sylvia is a movie producer and part of the basketball team = (Kultur/Sport)
Text Mining: Welche Methode wird am Anwendungsbeispiel aus der Marketingforschung angewendet?
Methode:
Automatisierte Inhaltsanalyse mit selbst entwickelten Wörterbüchern (--> Media frames)
Was ist das Ziel der Sentimentanalyse?
Ziel: Emotionsmessung in Texten (z.B. positive/negative Polarität oder auch spezifische Emotionen wie Freude und Angst)
Auch wörterbuchbasiert, jedoch mit bereits validierten Wörterbüchern (vielfältige zur Auswahl)
Was ist die Gefahr bei der Sentimentsanalyse?
– Grundsätzlich robuste Ergebnisse, aber keine Erfassung sprachlicher Feinheiten (z.B. Ironie in Texten)
– Manchmal aber auch fehlgeleitet (manuelle Inspektion & Validierung empfehlenswert)
– Sentiment Analysis häufig in Kombination mit inhaltlicher Analyse von Textdaten (sonst Interpretation schwierig)
Wie wird in der Marktforschung bei der Sentimentanalyse vorgegangen?
- den Wörtern eine Polarität zwischen -1 (negativ) und 1 (positiv) zuweisen
= somit können Emotionen gemessen werden
Bei der Frage:
Haben die Medien einen Einfluss auf den Erfolg von CEOs (Arbeitsplatzsicherheit, Gehalt)?
wird die Polarität aus allen Artikeln gemessen.
Was sind Wordclouds? Was sind die Vor- und Nachteile?
Explorative Methode (gut für den Start)
Intuitiv interpretierbar (je größer das Wort desto häufiger das Vorkommen im Textmaterial)
Vor- und Nachteile:
Umsetzung mit diversen Webstools möglich (z.B. www.wordclouds.com)
Nicht immer präzise Aussage (Einsatzgebiet beachten)
Textvorverarbeitung sinnvoll (z.B. Stopwords entfernen)
Aussagekräftiger mit Subsamples und im Vergleich
Nenne verschiedene Ansätze um die Lesbarkeit von Grafiken zu erhöhen.
- Achsenbeschriftung vereinfachen und drehen
- Legende direkt an die Daten schreiben
- Legende einfärben
- Daten in sinnvolle Reihenfolgen bringen (Balkendiagramm z. B. absteigend)
- Datentinte-Verhältnis maximieren
- “Chartjunk“ vermeiden
- „Timing ist alles (Die beliebtesten Trennungszeiten laut Facebook)“
- Visuelle Hierarchie kreieren (wichtiges fett oder zuerst im Text)
Mit welchem Test kann ich die Daten auf Normalverteilung überprüfen und welche Grafik wird verwendet?
Kolmogorov-Smirnov-Test
Die Nullhypothese besagt, dass die Daten normalverteilt sind.
= Wenn der p-Wert < 0.05 ist, wird die H0 nicht angenommen, also besteht eine signifikante Abweichung und die Daten sind nicht normalverteilt.
= Wenn der p-Wert > 0.05 ist, wird die H0 angenommen, also sind die Daten normalverteilt. Man kann nicht zwangsläufig sagen, dass Normalverteilung besteht. Man kann eben nur nicht die Nullhypothese wiederlegen.