Methoden der Unterschiedsprüfung
Statistik MUP
Statistik MUP
Kartei Details
Karten | 125 |
---|---|
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 27.05.2021 / 03.07.2024 |
Weblink |
https://card2brain.ch/box/20210527_methoden_der_unterschiedspruefung
|
Einbinden |
<iframe src="https://card2brain.ch/box/20210527_methoden_der_unterschiedspruefung/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Bei der DKA hat die Klassifikantionsfunktion die theoretische Aufgabe der Interpretation, während die Diskriminanzfunktionen die praktische Aufgabe der Klassifikation besitzt. richtig oder falsch?
falsch
Der Vorteil der Klassifikationsfunktion besteht darin, daß Sie durch Eingabe der Meßwerte, ohne Standardisierung etc., eine Klassifikationsentscheidung bekommen. Deshalb wurden sie früher mal entwickelt. Sie dienen also – ähnlich wie die Rohwert-Regressionsgleichung der praktischen Aufgabe der Klassifikation, während die Diskriminanzfunktionen für theoretische Zwecke (Interpretation, welche Merkmale diskriminieren zwischen Gruppen) besser geeignet sind.
„In der Diskriminanzanalyse betrachtet man metrische/ordinale/kategoriale unabhängige
Variablen, die Merkmale/Prädiktoren/Kriterien genannt werden und eine/mehrere metrische/ordinale/kategoriale abhängige Variable/n.
„In der Diskriminanzanalyse betrachtet man metrische/ordinale/kategoriale unabhängige Variablen, die Merkmale/Prädiktoren/Kriterien genannt werden und eine/mehrere metrische/ordinale/kategoriale abhängige Variable/n.
Zweck der Diskriminanzanalyse ist die Vorhersage der Gruppenzugehörigkeit einer Person.
Dazu benutzt man Diskriminanzfunktionen/Klassifikationsfunktionen.
Klassifikationsfunktionen.
Werden in der Eichstichprobe 4 Gruppen untersucht, kann es maximal …. Diskriminanzfunktionen und … Klassifikationsfunktionen geben.“
maximal 3 Diskriminanzfunktionen
Was versteht man unter einer Profilanalyse und was unter Split-Splot?
- Profilanalyse ist die multivariate Auswertung (MANOVA) von Messwiederholungs-Designs (within) - kann aber muss kein between Faktor enthalten
- Split-Plot (Verlaufskurven) ist eine multifaktorielle (uni/multivariate) Anova, die sowohl within-Faktor als auch einen between-Faktor enthält
Was besagt der P-Wert ?
- Prozentrang des F-Bruchs --> Wahrscheinlichkeit, ein Varianzverhältnis so groß wie den F-Wert oder größer zu erhalten, wenn man vom Zufall ausgeht
- Je mehr Varianz das Modell erklärt, desto höher fällt der F-Wert aus > größere F-Brüche sind besser
- Vergleich F-Wert mit kritischem Wert
- Ist der F-Wert höher als der kritische Wert, ist der Test signifkant
„Die Analyse ergab einen signifikanten Effekt für die Konfiguration, F(2,80) = 55.69, p < .001: VS-Konfigurationen wurden besser erinnert als sowohl HS als auch NS-Konfigurationen, und HS-Konfigurationen wurden besser erinnert als NS-Konfigurationen ([7] für multiple Vergleiche angewandt).“ Was steht bei [7]?
Bonferoni oder Bonferoni-Holm-Adjustierung
In den aktuellen „Richtlinien zur Manuskriptgestaltung“ der DGPs von 2007 findet sich der Rat, auf Varianzanalysen zu verzichten und stattdessen „sich der sehr flexiblen, aber der weniger bekannten und zur ANOVA alternativen Methode der geplanten Kontraste (engl. method of planned comparisons/contrasts)“ zu bedienen.
Warum ist das besonders bei mehrstufigen Faktoren ein guter Rat?
Omnibus-Tests sagen wenig aus, da hier noch untersucht werden kann, ob es einen Unterschied gibt und nicht zwischen welchen Gruppen und in welche Richtung
sinnvoller sofort Kontraste berechnen, dadurch kann die Richtung und Ort des Unterschieds festgestellt werden und wenn man gleich Konstraste rechnet, rechnet man nicht so viele Tests am gleichen Datenmaterial und muss nicht so stark alpha korrigieren > weniger Alpha-Inflation bei Kontraste im Vergleich zur Anova mit anschließend Kontraste
Warum ist bei ANOVAs mit mehrstufiger Messwiederholung über die Zeit eine multivariate Auswertung (sog. Profilanalyse) sinnvoll?
Bei der Profilanalyse wird die Spherizitätsannahme nicht gebraucht im Vergleich zur Anova mit Messwiederholung
Bei der Anova mit Messwiederholung mit mehr als 2 Stufen die Spherizität meist verletzt ist, da die Zeitabstände oft nicht gleich sind und die Messwerte unterschiedlich stark miteinander korrelieren
Was kann ich tun, wenn bei meinem Anova Messwiederholungsdesign die Spherizität verletzt ist?
- wird die Spherizität verletzt, dann df adjustieren (Greenhouse Geisser/Huynh-Feld)
- Lösungen
- Ignorieren/Annahmen machen
- statistisch prüfen/ggf. df adjustieren (Greenhouse Geisser, Huyn-Feldt)
- Greenhouse-Geiser: Schätzer, der den Grad der Abweichung der Kovarianzmatrix von der Sphärizitätsbedinung anzeigt, immer angeben!
- Verfahren verwenden, das diese Annahme nicht braucht > Profilanalyse
- Verfahren verwenden, das andere Annahmen macht > Linear Mixed Models
- Lösungen
- oder Stufen "wegnehmen", sodass es nicht mehr als 2 Stufen gibt
Es wird angenommen, dass sich die Maximierung der Primärvarianz und die Minimierung der Fehlervarianz auf die Teststärke auswirken. Erklären Sie die Begriffe.
Primärvarianz = Variabilität, die von der UV verursacht wurde - inwieweit geht die Veränderung der AV auf die UV zurück? d.h. > Primärvarianz maximieren
Sekundärvarianz = systematische Fehler/Störvariablen der UV zu erklärenist - inwieweit geht die Veränderung der AV auf Störfaktoren zurück? > Sekundärvarianz minimieren
Fehlervarianz = unsystematische Fehler > Messfehler, Fehler bei der Versuchsplanung etc
Welche Informationen müssen bekannt sein bzw. liegen häufig nicht vor, um die notwendige
Stichprobengröße für eine empirische Untersuchung zu schätzen?
- Signifikanzniveau (alpha = 0.05)
- Effektgröße/Populationseffektgröße
- Studiendesign
Nennen Sie 3 Faktoren, die die „Teststärke“ beeinflussen und skizzieren Sie kurz, wie dieser Einfluss aussieht.
- Stichprobenumfang
- Größe des Effekts/Populationseffekt
- Signifikanzniveau
Was ist in der Inferenzstatistik der Unterschied zwischen der „Teststärke“ und der
„Effektstärke“? Definieren Sie diese Begriffe kurz.
Effektstärke ist eine statistische Größe eines Effekts, also der Anteil der Varianzunterschiede der durch Treatment erklärbar ist; dient zur Beurteilung von wissenschaftlichen Ergebnissen herangezogen wird, es gibt unterschiedliche Effektstärkemaße z.B. partial eta^2 oder Cohens d > wird beeinflusst durch die Stichprobengröße, dem Signifikanzniveau und der Power des Tests
Teststärke (Power)= Wkeit die Nullhypothese (H0) zu verwerfen, wenn diese tatsächlich falch ist bzw. die Alternativhypothese (H1) anzunehmen, wenn diese tatsächlich richtig ist
- Wahrscheinlichkeit, einen tatsächlich existierenden Mittelwertsunterschied mit dem Test auch zu entdecken= ein signifikantes Ergebnis zu erhalten
- Power= Gegenteil des beta-Fehlers
- Größere Stichprobe= mehr Power=kleinerer beta-Fehler
Wann ist anstelle einer Split-Plot Varianzanalyse eine multivariate Varianzanalyse vorzuziehen? Was ist das Grundprinzip des Prüfens bei diesem Verfahren?
- bei Verletzung der Spherizität
- bei mehrerne AVs
In der Diskriminanzanalyse betrachtet man ... unabhängige Variablen die ... genannt werden und eine ... abhängige Variable. Was kommt in die Lücke?
In der Diskriminanzanalyse betrachtet man metrische unabhängige Variablen, die Merkmale genannt werden und eine kategoriale abhängige Variable
z.B. metrische UV = Note in Prüfung
AV = MS, Psych oder MCS
Zweck der Diskriminanzfunktion ist die Vorhersage von Gruppenzugehörigkeit eienr Person. Dazu benutzt man die....
Welcher Nutzen hat die Klassifikationsfunktion und die Diskriminanzanalyse?
Diskriminanzfunktion > Interpretation welche Merkmale definieren zwischen Gruppen
Klassifikationsfunktion > ohne Standardisierung Merkmale klassifizieren
Welches alternative Verfahren zur DKA wäre ebenfalls zur Vorhersage der Gruppenzugehörigkeit einer
Person geeignet und auf welcher Art von Daten operiert dieses Verfahren üblicherweise?
Faktorenanalyse > FA erfasst Gruppen von intervallskalierten Variablen zu möglichst unabhängigen Faktoren zusammen
logistische Regression > UVs sind intervallskaliert, AV= dichotom z.B. Krankheit ja/nein
Was muss bekannt sein, damit eine Diskriminanzanalyse durchführbar ist?
Diskriminanzanalyse ist geeignet, wenn
- es um die Klassifikation von Personen geht
- und von jeder Person ein Meßwertprofil/vektor (metrische Merkmale) bekannt ist
- sowie Gruppenzugehörigkeit
Wie können Sie eine Kreuzvalidierung einer Diskriminanzanalyse durchführen, ohne eine zweite
Stichprobe erheben zu müssen? Geben Sie den Namen des Verfahrens und eine kurze
Beschreibung an.
Kreuzvalidierung ohne weitere Stichprobe erheben zu müssen
- (vorhandene) Stichprobe teilen
- Jackknife-Verfahren (Fallauslassung)
- einen Fall aus der Stichprobe rausnehmen
- aus den n-1 Fälle die DKFs berechnen
- dann den einen rausgenommenen Fall klassifizieren
- und das für alle n Fälle machen
Ziel der multiplen Regressionsanalyse ist die Identifikation eines Modells, das mit möglichst wenig Variablen die Daten möglichst gut beschreibt und inhaltlich interpretierbar ist. Bei der Suche nach diesem Modell gibt es drei verschiedene Ansätze. Nenne diese und erkläre kurz das Vorgehen
(1) Das sog. Einschlussverfahren, bei dem alle Prädiktoren gleichzeitig ins Modell kommen
(2) die sog. sequentielle oder hierarchische Regression, bei der der Forscher festlegt, in welcher Reihenfolge die Prädiktoren eingebaut werden und
(3) die statistische oder schrittweise (stepwise) Regression, bei der die Prädiktoren nach statistischen Kriterien (größe Einzelkorrelation) aufgenommen und ggf. wieder ausgeschlossen werden = NICHT GUT!!!
Wie erkennt man lineare/nichtlineare Trends bei der Multiplen Regression?
lineare/nichtlineare Trends sieht man im Streudiagramm = Diagramm der Residuen >nichtlinearer Trend wenn man keinerlei Struktur in der Punktewolke sieht
Wo in der Tabelle der Multiplen Regression kann man ablesen, wie viel Varianz durch 2 Prädiktoren aufgeklärt wird und wo die dazugehörige F-Wert?
- Modellzusammenfassung > korrigiertes R^2 > Varianz ablesen dass die 2 Prädiktoren aufklären
- Anova Tabelle > F-Wert ablesen
Wie werden die Dummyvariablen bei der multiplen Regression benannt und wie berechnet sich die Anzahl der Dummyvariablen?
Anova mit Regression:
- Anzahl Dummyvariablen (Spalten) = Variablenstufen – 1
- bei zwei Variablenstufen Kodierung -1/1 (z.B. männlich/weiblich)
- bei drei Variablenstufen (z.B. jung, mittel, alt) 0/1/-1 > höchste/letzte Stufe ist immer -1
- Interaktion als Produkt der beiden Dummys
- Name der Dummyvariable ist Anfangsbuchstaben der Originalvariable und einer Nummer z.B. Geschlecht G1 (m/w), Handynutzung (gering, mittel, hoch) H1 und H2
Multiple Regresion: Welche Kontrastvektoren brauchen Sie, um die Vergleiche im ersten Satz (die in p<.001
resultierten) nachzubauen, und sind diese Tests unabhängig (prüfen!) (3 P)
„Genauer hatte die Hochnutzungsgruppe einen GPA von 2.84, der signifikant kleiner (p <.001) war als sowohl der GPA der mittleren Nutzungsgruppe (M = 3.06) als auch der Geringnutzergruppe (M=3.15).
- da hier 2 t-tests gemacht werden > 2 Kontrastvektoren
- 1. Vergleich hoch vs. mittel > 1/-1/0
- 2 Vergleich hoch vs. gering > 1/0/-1
- unabhängigkeit prüfen: Kontrastvektoren multiplizieren und aufsummieren > Summe ist 0 dann unabhängig, wenn ungleich 0 dann nicht unabhängig
- (1*1)+(-1*0)+(0*-1)=1 > nicht unahängig
MR: Genaueres Lesen der Legende zeigt, dass „multivariable-adjusted“ wurde, für Alter, Geschlecht etc. Wie sind die Autoren bei der Berechnung der Regressionsmodelle also vorgegangen? Geben Sie eine kurze Beschreibung mit entsprechenden Fachbegriffen
Man berechnet eine sequentielle Regression, bei der zuerst die Kovariaten ins Modell gesteckt werden, dann der BMI, und prüft, ob der Zuwachs in R² signifikant ist
Bei der mulitplen Regression sollten die Prädiktoren nicht korrelieren. richtig oder falsch?
richtig. Prädiktoren sollten nicht korrelieren, aber in der Praxis korrelieren sie IMMER > jedoch ab ca. .7 ist Korrelation zu groß
> siehe Toleranzwert möglichst groß >kritisch ab <.1/.2
Wie wird bei der multiplen Regression die Voraussetzungen geprüft und wie sollte der Ideal-Plot aussehen?
Prüfung Voraussetzung (Residuenplots)
symmetrische Verteilung um die 0-Linie, höhere Dichte um 0, wenig Punkte weiter weg: Voraussetzungen erfüllt
Welches Verfahren bei der Regression sollte man wählen, wenn die Frage ist, welcher Prädiktor einen einzigartigen Beitrag liefert?
Einschlussverfahren
Welches Verfahren muss bei der Multiplen Regression gewählt werden, wenn die frage ist, welcher Prädiktor über die Prädiktoren, die bereits im Modell sind, hinaus einen weiteren Beitrag liefert?
- sequentiell/stepwise
- Sequentiell: Frage vor Datenerhebung, die geprüft wird (1 und 2 sind billig, 3 ist teuer/schmerzhaft. Können wir uns 3 sparen?)
- Stepwise: Keine Hypothese, Schrotschuss-Statistik
Erkläre die 3 Möglichkeiten der Stepwise Regression.
- Rückwärts: Alle Variablen sind am Anfang in der Gleichung, so lange nicht-signifikante Prädiktoren streichen, bis die Vorhersage deutlich schlechter wird (wer drin bleibt, bleibt drin)
- Vorwärts: Variable eine nach der anderen einbauen (hochsignifikant zuerst), bis sich die Vorhersage nicht mehr deutlich verbessert (wer drin bleibt, bleibt drin)
- Schrittweise: rein statistische Suche nach der besten Variablenmenge durch ausprobieren (im Gegensatz zu den zwei Verfahren drüber, kann eine Variable eingeschlossen werden und später wieder rausfliegen)
bei Stepwise dringend Kreuzvalidierung nötig!!!!
Was versteht man unter dem Einschlussverfahren bei der mulitplen Regression?
Einschluß: Entspricht dem Standardvorgehen, alle Variablen werden gleichzeitig in die Gleichung gesteckt
> Berechnung des uniquen Beitrag der Prädiktoren
Die UVs/Prädiktoren bei der Mulitplen Regression sind...
Welche Aussagen treffen auf beta-Gewichte zu?
Was gibt es bei der Interpretation der Koeffizienten bei der mulitplen Regression zu beachten?
Die Werte sind nur dann eindeutig interpretierbar, wenn die Prädiktoren untereinander nicht korrelierern (Was sie zumindest schwach in der Realität immer tun) und beim Schätzen wird auch immer ein Teil der Fehlervarianz mit betrachtet (=overfitting)
unkorrelierte Prädiktoren = das ist aus mathematischer Sicht wünschenswert, aber gerade keine Voraussetzung für die Berechnung der Regressionsanalyse
nur Problem: multikollinearität
Bei der Multiplen Regression sollten so wenig Prädiktoren wie möglich verwendet werden. richtig oder falsch?
Allerdings sollten auch so wenig Variablen wie möglich enthalten sein.
dies hat mehrere Gründe: statistische (Gefahr der Multikollinearität), wissen-schaftstheoretische (Ockhams Skalpell) und praktische (Variablen kosten Zeit und Geld).
Welche Begriffe sind bei der stepwise Regression zu nenne?
Was muss bekannt sein, um eine Multiple Regression rechnen zu können?
- die standardisierten Koeffizienten
- die Einzelkorrelationen der Prädiktoren mit dem Kriterium
- und das gewählte Selektionsverfahren
Wie kann man bei der DKA die Anzahl der Klassifikationsfunktion bestimmen?
Anzahl Klassifikationsfunktion = Anzahl der Gruppen