WS 16/17
Zusammengesammelt
Zusammengesammelt
Kartei Details
Karten | 345 |
---|---|
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 29.10.2016 / 28.08.2021 |
Weblink |
https://card2brain.ch/box/testkonstruktion_m6a
|
Einbinden |
<iframe src="https://card2brain.ch/box/testkonstruktion_m6a/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Welches Problem gab es bei mehr als der Hälfte bei der Formulierung von Items (empirisch bestätigt)?
A mangelnde Verständlichkeit
B Verallgemeinerung
C Suggestivfrage
D Gemeinplatz
E Mehrdeutigkeit
A
Bei offenem Antwortformat ist besonders welches Gütekriterium unmittelbar beeinträchtigt?
A Retest-Reliabilität
B Akzeptanz
C diskriminante Validität
D Unverfälschbarkeit
E Auswertungsobjektivität
E
Empirische Befunde zu Ratingskalen zeigen…
A dass eine gerade Zahl von Antwortalternativen einer ungeraden Zahl generell vorzuziehen ist
B dass eine ungerade Zahl von Antwortalternativen einer geraden Zahl generell vorzuziehen ist
C dass die verbale Verankerung jeder einzelnen Stufe die Reliabilität verbessert
D dass die Reliabilität mit der Anzahl der Stufen generell ansteigt
E dass das Angebot einer Ausweichkategorie die Zahl nicht auswertbarer Antworten vermindert
C
Was impliziert die sog. ipsative Messung?
A die Enden der Skala sind asymmetrisch gedehnt
B die Ratewahrscheinlichkeit wird durch den Zufallswert vermindert.
C die Aufgabe muss schrittweise gelöst werden, so dass die letzte Lösung redundant ist
D die Antwortalternativen sind nicht stochastisch unabhängig voneinander
E die Reihenfolge der Alternativen verhindert die Akquieszenz.
D
Welche Form hat der Zusammenhang zwischen Itemschwierigkeit und Informationshaltigkeit?
A U-förmig
B umgekehrt u-förmig
C linear positiv
D linear negativ
E keine der Aussagen ist zutreffend
B
Skript: „Der Zusammenhang zwischen Itemschwierigkeit und Informationshaltigkeit
eines Items ist also umgekehrt u-förmig mit dem Maximum in der Mitte. Deshalb werden Items mit mittlerer Schwierigkeit bei der Testkonstruktion allgemein bevorzugt und Items mit extremen Schwierigkeiten manchmal von vornherein ausgeschlossen (sehr einfache und sehr schwierige Items sind im Prinzip gleich schlecht).“
Fragebogenkonstruktion von Emil Einfach. Eliminiere alle Items mit Trennschärfen unter .20 (?) und Schwierigkeiten zwischen .20 und .80. Welche Folgen kann das haben?
A Der Test eignet sich nicht zur Diagnose von Hochbegabung
B ?
C der Test zeigt kein homogenes Konstrukt mehr
D Die Fremdtrennschärfen übersteigen die Eigentrennschärfen
E Die Varianz der Testwerte wird artifiziell erweitert
A
Welches Modell der PTT hat lediglich Item- und Personenparameter?
A Rasch-Modell
B Zwei-Parameter-Modell
C Birnbaum-Modell
D Mixed-Rasch-Modell
E ordinales Rasch-Modell
A
Welche Bedeutung hat in der Probalistischen Testtheorie die Steigung der Item
Characteristic Curve bei einer Lösungswahrscheinlichkeit von .50 und wie sollte sie im
Idealfall ausgeprägt sein?
A Itemschwierigkeit, die möglichst mittelhoch sein sollte
B Itemschwierigkeit, die möglichst hoch sein sollte
C Trennschärfe, die möglichst über alle Items gleich sein sollte
D Trennschärfe, die möglichst mittelhoch sein sollte
E Trennschärfe, die möglichst hoch sein sollte
C
Im Rahmen der PTT ist definiert, dass ein Test ein eindimensionales Konstrukt misst, wenn die Konstrukte nicht mehr miteinander korrelieren. Das ist…
A erschöpfende Statistik
B lokale Unabhängigkeit
C spezifische Objektivität
D Logit-Skalierung
E Trennschärfeparameter
B
Skript: „Formal ist Eindimensionalität dann gegeben, wenn die Korrelation zwischen den Items eines Tests nach Auspartialisierung der latenten Eigenschaft (d.h. bei deren konstanter Ausprägung) verschwindet (lokale Unabhängigkeit)“
Welche Variante der Faktorenanalyse ist zugeschnitten auf die Datenreduktion?
A PCA
B PAF
C SEM
D EFA
E PAC
A
Streng genommen zählt die PCA nicht zu den faktorenanalytischen
Methoden, da sie lediglich dem Zweck der Datenreduktion und Beschreibung
dient, und die latenten Variablen heißen hier auch nicht Faktoren, sondern
Komponenten. Dessen ungeachtet wird die PCA sehr häufig angewendet (in SPSS
ist sie die Voreinstellung) und die Unterschiede zur PAF in den Berechnungen
und häufig auch in den Ergebnissen sind auch nur gering (zu Ausnahmen siehe
Fabrigar, Wegener, MacCallum & Strahan, 1999).
Der durch einen Faktor aufgeklärte Anteil der Gesamtvarianz heisst...
A Fremdtrennschärfe
B Reliabilität
C Eigenwert
D Hauptdiagonale
E Faktorwert
C
Skript: „Wenn man den Eigenwert durch die Gesamtzahl der Items teilt, ergibt sich außerdem der Anteil der durch den Faktor aufgeklärten Varianz des gesamten Tests.“
Der K-M-O-Koeffizient beträgt 0.9. ... Was kann daraus geschlossen werden?
A der K-M-O-Koeffizient ist inkompatibel mit der Durchführung
B die Items besitzen einen hohen spezifischen Varianzanteil, den sie mit keinem der anderen Items teilen
C Wir haben Anhaltspunkt dafür, dass die Itemauswahl für die Faktorenanalyse sehr gut geeignet ist
D die quadrierte Partialkorrelation nimmt große Werte an
E alle Aussagen sind richtig
C
Skript: „Kein Signifikanztest, jedoch ein ebenfalls in SPSS implementiertes Verfahren mit inhaltlich ähnlicher Funktion ist der Kaiser-Meyer-Olkin-Koeffizient (KMO-Koeffizient), der, vereinfacht gesagt, den gemeinsamen Varianzanteil der Items relativ zu deren spezifischen Varianzanteilen misst. Der KMO-Koeffizient sollte möglichst hoch sein (keinesfalls unter .50). Anhaltspunkte zur Beurteilung der Höhe gibt Bühner (2011):
.50-.59- schlecht
.60-.69- mäßig
.70-.79- mittel
.80-.89- gut
>.90 sehr gut“
Was ist Kommunalität?
A Die durch alle möglichen Faktoren aufgeklärte Varianz
B Ist ein Maß dafür wie gut die Faktoren zusammen passen
C Ist ein Maß dafür wie gut die Items zusammen passen
D die durch alle extrahierten Faktoren aufgeklärte Varianz
E die Schätzung der Reliabilität
D
Aus dem Bühner: „Die Kommunalität eines Items ist die durch alle extrahierten Faktoren augeklärte Varianz (quadrierte Ladungen a²) eines Items (Summe der quadrieten Ladungen in der Zeile).
Sie gibt an, wie gut ein Item durch alle Faktoren repräsentiert wird.
Die Kommunalität eines Items lässt sich in der Regel (aber nicht immer beliebig) dadurch steigern, dass man mehr Faktoren extrahiert, da so die Anzahl an zu summierenden quadrierten Ladungen ansteigt.“
KG-Kriterium: Worin liegen mögliche Probleme zur Bestimmung der Faktorenzahl, d.h. Dass zu viele Faktoren extrahiert werden?
A kleine Stichproben
B wenig Items
C viele Items
D geringe Interkorrelation
E hohe Interkorrelation
C
Je mehr Variablen in die Analyse eingehen,
desto wahrscheinlicher ist es jedoch, dass bei strikter Anwendung des KGKriteriums
zu viele Komponenten extrahiert werden, die teilweise schwer zu interpretieren
sind und eher methodische Artefakte als inhaltliche Konstrukte abbilden.
In der Regel empfiehlt es sich, die Entscheidung über die Anzahl der Faktoren
nach anderen Kriterien zu treffen und vor dem nächsten Schritt der EFA die
entsprechende Voreinstellung im Programm zu ändern.
Was bedeutet Einfachstruktur?
A keine Faktorenanalyse 2. Ordnung
B Rotation, danach teils hohe teils niedrige Ladung
C Faktoren erklären z.T. viel, z.T. wenig Varianz
D wenige Faktoren klären die Varianz auf
E Eigenwert ist größer als 1
B
Meist wird mit der Rotation aber das Kriterium der Einfachstruktur angestrebt.
Wenn in der ursprünglichen Faktoren- oder Komponentenmatrix überwiegend
Ladungen in mittlerer Höhe vorkommen, wenn sich also die Ladungen je Item auf
mehrere Faktoren relativ gleichmäßig verteilen und auch je Faktor viele Ladungen
mittlerer Höhe dominieren, wird dieses Kriterium verfehlt. Es ist dann nämlich
kaum möglich, die Items eindeutig einem bestimmten Faktor zuzuordnen und die
Faktoren inhaltlich eindeutig zu interpretieren. Dafür wäre es wünschenswert,
wenn möglichst jedes Item auf einen bestimmten Faktor hoch und auf die anderen
niedrig oder gar nicht laden würde. Ein solches Ladungsmuster entspricht der Einfachstruktur,
die i.d.R. mittels Rotation nur angenähert werden kann. Durch die
Rotation wird die Lage der Faktoren im Faktorraum verändert, nicht deren Anzahl
oder die Lage der Items. Einfach gesagt werden die Achsen (Faktoren, Komponenten)
so gedreht, dass sie sich einigen Punkten (Items, beobachtete Variablen)
im Raum annähern und von anderen entfernen, so dass am Ende die Punkte den
Achsen möglichst eindeutig zugeordnet werden können (Einfachstruktur). Nach
der Rotation bleibt die Gesamtvarianz der extrahierten Faktoren erhalten, es ändert
sich aber die Verteilung der Varianz auf die extrahierten Faktoren bzw.
Komponenten (d.h. deren Eigenwerte, die allgemein gleichmäßiger werden).
Oblique Rotation
A die neu entstehenden Ladungsmatrizen heißen Mustermatrix und Strukturmatrix
B Bessere Interpretierbarkeit
C Höhere Redundanz
D Ladungen sind nicht mehr einfach zeilenweise summierbar
E Alle richtig
E
Der
zweite Fall heißt oblique (schiefwinklige) Rotation, weil auch der Winkel zwischen
den Achsen verändert wird, was inhaltlich bedeutet, dass eine Korrelation
zwischen den Achsen zugelassen wird. Die Korreliertheit führt u.a. dazu, dass die
quadrierten Ladungen nicht mehr einfach zeilenweise summiert werden können,
um die Kommunalität zu erhalten, und dass sich die neuen Eigenwerte nicht mehr
zu einem Maß für die aufgeklärte Gesamtvarianz addieren. Die Entscheidung zwischen
orthogonaler und obliquer Rotation sollte aber im Wesentlichen aufgrund
inhaltlicher Überlegungen getroffen werden. Einerseits maximiert Orthogonalität
die theoretische Sparsamkeit der Faktorenlösung, weil Korreliertheit immer auch
Redundanz bedeutet. Andererseits sind korrelierte Faktoren oft einfacher interpretierbar,
weil sich so Mehrfachladungen der Items besser verteilen lassen. Außerdem
stellt postulierte Unabhängigkeit zwischen Konstrukten eine Restriktion dar,
die gerade bei einem explorativen Vorgehen ohne a priori Definitionen begründungspflichtig
ist.
Berechnung von individuellen Faktorwerten: Was ist zu beachten?
A Faktorenwerte besitzen kein metrisches Skalenniveau
B Faktorenwerte sind so skaliert wie die ursprünglichen Items
C Die Lösungen sind wegen der Faktoreninkorrelationen verzerrt
D sind in hohem Maß stichprobenabhängig
E keine der Antworten ist richtig
D
Diese Faktorwerte ergeben sich, nach entsprechender Umstellung
der faktorenanalytischen Grundgleichung, als eine gewichtete Kombination
der Items, die zu dem jeweiligen Faktor beitragen.
Faktorwerte werden also
nicht direkt beobachtet, sondern indirekt aus den Daten berechnet und sind deshalb
auch extrem stichprobenabhängig. Dies ist einer der Gründe, warum häufiger
mit den gegenüber Stichprobencharakteristika robusteren Rohwertsummen gerechnet
wird. In manchen Fällen möchte man jedoch „reine“ Ausprägungen auf
Faktoren ermitteln oder benötigt Faktorwerte für weitere Berechnungen.
Aufgrund der Standardisierung
lassen sich mit den Faktorwerten keine Mittelwertsvergleiche zwischen den Faktoren
durchführen (dieser ist immer Null; vgl. jedoch Thompson, 2004, zu einer
Methode, die sich für diesen Zweck eignet)
Durch oblique Rotation wird in der Faktorenanalyse festgelegt, dass…
a) die Faktoren unabhängig voneinander bestimmt werden.
b) die Messfehler der Indikatoren miteinander korrelieren dürfen.
c) ein Faktor höherer Ordnung existiert.
d) Keine der Lösungen a), b) und c) ist richtig.
D
Welchem Begriff entspricht SEM?
A Kausalanalyse
B Kovarianzstrukturanalyse
C Pfadanalyse
D LISREL
E Keine
B
Welchem Schätzalgorithmus für lineare Strukturgleichungsmodelle fehlt gerade das Merkmal der Skaleninvarianz?
A Asymtotically Distribution Free
B Generalized Least Square
C Unweighted Least Square
D Maximum Liklihood
E Keine Antwort trifft zu
C
Skript:“Dafür ist ULS weder skaleneinvariant noch skalenfrei und sollte deshalb, wenn überhaupt, nur auf die Korrelationsmatrix bzw. bei Varibalen mit einheitlicher Skalierung angewandt werden.“
Welches Problem schränkt die Aussagekraft linearer Strukturgleichungsmodelle unter Umständen ein?
A Modifikationsindizes können zum Herumprobieren verführen.
B Einige Identifizierbarkeitsprobleme sind mathematisch noch nicht abschließend gelöst.
C Für den Modell-Fit existiert kein allgemein akzeptiertes Kriterium.
D Die Modellspezifikation allein auf Grundlage der Pfaddiagramme kann zu unqualifizierten
Anwendungen führen.
E Die Antworten sind alle zutreffend.
E
Welcher der folgenden Normskalen liegt keine z-Standardisierung zugrunde?
A T-Werte
B Prozentrangnormen
C IQ-Skala
D Stanine-Werte
E Die in den Antworten a-d genannten Normskalen beruhen alle auf der z-Standardisierung.
B
In einem Paartest wird das Selbsturteil der Frau verglichen mit dem Fremdurteil des Mannes – Welche Art von Gütekriterium wird dadurch erfasst?
A Auswertungsobjektivität
B Interpretationsobjektivität
C Interrater-Reliabilität
D konvergente Validität
E Inhaltsvalidität
D
Aus welchem Grund könnte die Testwiederholung zur Schätzung der Reliabilität ungeeignet
sein bzw. zu verzerrten Schätzungen führen?
A Es handelt sich um einen Test zur Messung heterogener Merkmale.
B Es geht um einen Test zur Messung eines instabilen Merkmals.
C Reliabilität wird unterschätzt, weil das Messintervall zu kurz gemessen wurde
D Die Reliabilität wird überschätzt, weil sich das Merkmal zwischen den Messzeitpunkten
verändert
E A-D sind alle zutreffend
B
Skript:
„Konzeptionell sinnlos ist die Interpretation der Retest-Reliabilität etwa bei der Veränderungsmessung bzw. generell, wenn die Instabilität des erfassten Merkmals theoretisch zu erwarten ist.
Ein großes Problem bei der Retest-Reliabilität ist die Wahl des geeigneten zeitlichen Intervalls zwischen beiden Messzeitpunkten. Dabei sind zwei gegenläufige Tendenzen in Einklang zu bringen. Einerseits kann durch Übungs- und Erinnerungseffekte die Korrelation zwischen beiden Messzeitpunkten künstlich überhöht sein. Dies ist umso eher zu erwarten, je kürzer das Messintervall ausfällt. Andererseits kann sich das zugrunde liegende Merkmal (also die wahren Werte) zwischen beiden Messzeitpunkten verändern, was zu Unterschätzung der Reliabilität führt. Dies tritt in begrenztem Umfang auch bei theoretisch stabilen Merkmalen wie Intelligenz und Persönlichkeitseigenschaften auf und verstärkt sich mit zunehmendem Zeitintervall. „
Worin unterscheidet sich der Aspekt der Inhaltsvalidität grundsätzlich von anderen Aspekten der Konstruktvalidität?
A IV lässt sich nicht quantitativ abschätzen
B IV bezieht sich auf das Aufgabenuniversum u. ist daher nur für kriterienorientierte Leistungstest
relevant
C IV bezieht sich begriffslogisch auf einen vorgelagerten Schritt im Prozess der Testkonstruktion
D IV bezieht sich zwar auf die Konvergenz, aber nicht auf die Divergenz von Testinhalt u.
Konstrukt im nomologischen Netz
E V tritt bei external konstruierten Tests häufig hinter den Aspekt der kriterienbezogenen Validität
zurück
C
Skript: „(1) Inhaltsvalidität. Der inhaltliche Aspekt der Validität bezieht sich auf die Übereinstimmung
der Testinhalte (d.h. der Items inkl. Stamm und Antwortvorgabe) mit dem zugrunde liegenden Merkmal des Tests. Die Inhaltsvalidität betrifft also einen frühen Schritt der Testentwicklung, nämlich die Ableitung der Items aus dem definierten Merkmalsbereich (Abschn. 2.3), und setzt folglich voraus, dass ein solcher Merkmalsbereich existiert.
In Beispiel 5.1 wird exemplarisch ein systematischeres Vorgehen dargestellt, welches u.a. zeigt, dass Maße der Beurteilerübereinstimmung (vgl. Abschn. 5.2.1 oben) auch zur quantitativen Abschätzung der Inhaltsvalidität herangezogen werden können.“
Worin zeit sich bei der korrelativen Auswertung einer Multi-Trait-Multi-Method Matrix konvergente Validität?
A hohe Monotrait-Monomethod-Koeffizienten
B hohe Heterotrait-Monomethod-Koeffizienten
C hohe Heterotrait-Heteromethod-Koeffizienten
D hohe Monotrait-Heteromethod-Koeffizienten
E Keine Antwort ist zutreffend
D
Skript: “In deren jeweiligen Diagonalen (Validitätsdiagonalen) stehen fettgedruckt die Monotrait-Heteromethod-Koeffizienten, die Hauptindikatoren der konvergenten Validität. Sie sollten möglichst
hoch ausfallen (auf jeden Fall statistisch von Null verschieden), um konvergente Validität anzuzeigen, sowie höher als die Heterotrait-Monomethod-Koeffizienten als ein Hinweis auf diskriminante Validität im Sinne der Unabhängigkeit von den Messmethoden.“
Warum wurde die Entlassung von Frau Meiorin wegen eines nicht bestandenen Leistungstest aufgrund kanadischer Antidiskriminierungsgesetze für rechtlich unwirksam befunden?
A Frau Meiorin hatte zuvor gute Leistungsbeurteilungen
B Für den Test war empirisch nicht hinreichend geprüft worden, ob für Männer und Frauen die
gleichen leistungsstandards gelten müssen.
C Der Test war nicht ausreichend validiert worden.
D Nach Ansicht des Gerichts enthielt der Test diskriminierende Fragen.
E Der Test war nicht ausreichend anforderungsanalytisch fundiert.
B
Warum wurde die Entlassung von Frau Meiorin wegen eines nicht bestandenen Leistungstest aufgrund kanadischer Antidiskriminierungsgesetze für rechtlich unwirksam befunden?
A Frau Meiorin hatte zuvor gute Leistungsbeurteilungen
B Für den Test war empirisch nicht hinreichend geprüft worden, ob für Männer und Frauen die
gleichen leistungsstandards gelten müssen.
C Der Test war nicht ausreichend validiert worden.
D Nach Ansicht des Gerichts enthielt der Test diskriminierende Fragen.
E Der Test war nicht ausreichend anforderungsanalytisch fundiert.
B
Entscheidend war das Versäumnis, bei
der Testentwicklung hinreichend zu etablieren, dass für Männer und Frauen die
gleichen „aerobischen Standards“ auch mit gleicher beruflicher Leistung verbunden
sind. Dies war lediglich aufgrund einer nach Geschlechtern nicht getrennten
Gesamtauswertung der Daten unterstellt worden, die zudem für eine zuverlässige
getrennte Auswertung eine zu kleine Teilstichprobe von Frauen enthielt. Tatsächlich
bestanden Frauen aufgrund ihrer physischen Konstitution den Fitness-Test
sehr viel seltener als Männer, ohne dass sich dieser Unterschied in entsprechenden
Leistungsunterschieden niederschlug (nur insofern spielte die Leistungsbeurteilung
eine Rolle). Die Behörde hatte nach Ansicht des Supreme Court versäumt,
die Gültigkeit der gleichen Fitness-Standards für beide Geschlechter empirisch
nachzuweisen (Quelle: Catano, Wiesner, Hackett & Methot, 2005).
Welche Forderung ergibt sich aufgrund des sogenannten Flynn-Effekts für die Normierung von Testverfahren?
A Die Normstichprobe sollte ausreichend groß sein.
B Die Normstichprobe sollte für die Population repräsentativ sein.
C Die Normen sollten in einem der Fragestellung entsprechenden Kontext erhoben worden sein.
D Die Normen sollten regelmäßig aktualisiert werden.
E Die Normen sollten für relevante Untergruppen differenziert berichtet werden.
D
Sie möchten die Testwerte zweier Personen in dem gleichen Test vergleichen. Wie groß ist
die kritische Differenz in diesem Fall, wenn der Test perfekt reliabel wäre? Gehen Sie von
einem zwei-steitigen Test mit 5% Irrtumswahrscheinlichkeit ( z=1,96) und von einem nach
Stanine-Werten genormten Test aus. Die Formel für die kritische Differenz lautet..
A ca.2,48
B ca.1,75
C ca.1,24
D ca. 0,55
E Bei perfekter Reliabilität beträgt die kritische Differenz immer exakt Null.
E
(1) Äquivalenzhypothese, gleicher Test: Dkrit = z ⋅ Sx ⋅ √(2 ⋅ (1− rtt))
(2) Äquivalenzhypothese, verschiedene Tests: Dkrit = z ⋅ Sx ⋅ √(2 − (rtt1 + rtt 2))
(3) Regressionshypothese, verschiedene Tests: Dkrit = z ⋅ Sx ⋅ √(1− r²12)
Skript:“Die Werte der kritischen Differenzen vermitteln zudem einen Eindruck
davon, wie hoch reliabel ein Test sein muss, damit z.B. eine beobachtete
Testwertdifferenz von 5 IQ-Punkten zwischen zwei Probanden (Fall (1)) interpretiert
werden kann. Mit der angenommen Sicherheitswahrscheinlichkeit erforderte
dies einen Test mit einer unglaublichen Reliabilität von rtt = .9855! (Versuchen
Sie ruhig einmal, dies durch Umstellung der obigen Formel nachzurechnen.)
Meine Meinung: Bei perfekter Reliabilität gibt es also keinen Grund eine kritische Differenz zu berechnen und es fehlen alle nötigen Werte „
Welche Begriffpaarlinge sind nicht in den formalen Gesichtspunkten enthalten?
A qualitativ & quantitativ
B verbal vs. non-verbal
C ein & Mehrdimensional
D Einzel und Gruppentest
E mit vs. ohne Zeitbegrenzung
A
Welche Kriterien zieht man für die Bestimmung der Kriteriumsvalidität hinzu? x aus 5
A Binnenkriterien
B Zwischenkriterien
C Extrakriterien
D Außenkriterien
E Schultest
A D
Kriteriumsvalidität = Korrelation des Tests mit einer anderen Variablen z.B. einem Verhaltensindikator oder einem anderen Test.
Zwei Arten von Kriterien:
1) Außenkriterium – Schulnoten bei einem Schuleignungstest
2) Binnenkriterium – Ein anderer Schuleignungstest
Welches der folgenden Merkmale kennzeichnet einen psychologischen Test als
Routineverfahren?
A Vorhandensein eines Testmanuals
B Standardisierung
C Normierung
D quantitative Messung
E Validierung
B
Welcher der folgenden Schätzalgorithmen für Lineare Strukturgleichungsmodelle stellt unter sonst gleichen Bedingungen die höchsten Anforderungen an die Stichprobengröße?
A ULS
B GLS
C ADF
D Maximum Likelihood
E Two-Stage Least Squares
C
Anders als bei ML oder GLS kann das bei etwas komplexeren
Modellen leicht Stichproben in einer vierstelligen Größenordnung
erfordern.
C
Anders als bei ML oder GLS kann das bei etwas komplexeren
Modellen leicht Stichproben in einer vierstelligen Größenordnung
erfordern.
Welches psychometrische Gütekriterium geht unmittelbar in monetäre Nutzanalysen von Tests ein?
A konvergente Validität
B Interne Konsistenz
C Faktorielle Validität
D Interrater Reliabilität
E Kriterienbezogene Validität
E
Erheblich schwieriger zu quantifizieren als die Kosten ist i.d.R. der Nutzen von
Testverfahren. Nichtsdestotrotz reichen die Versuche, den Nutzen der Diagnostik
objektiv zu erfassen, weit in die Geschichte der Psychologie zurück. Eine besondere
Rolle haben in dieser Hinsicht eignungsdiagnostische Entscheidungen gespielt.
Die entsprechenden Entwicklungen seien deshalb hier nur kurz angesprochen
und in Modul 8 vertieft dargestellt. Ein Versuch, den Nutzen von Auswahlinstrumenten
als Verbesserung des Anteils richtiger Entscheidungen (insbes. der
Trefferquote, vgl. Abschn. 4.3) im Vergleich zur Zufallsauswahl zu bestimmen,
stammt aus der Zeit vor dem zweiten Weltkrieg (Taylor & Russell, 1939). Unter
anderem hängt der Nutzen hier vom Anteil geeigneter Personen an der Bewerberpopulation
(Basisrate) und dem Anteil der am Ende Ausgewählten (Selektionsquote)
ab. Später ist diese ausschließlich an der Akkuratheit der Klassifikation
orientierte Nutzenanalyse um Elemente der betriebswirtschaftlichen Kosten- und
Leistungsrechnung zu einer echten monetären Nutzenanalyse erweitert worden
(z.B. Brogden, 1949; Cronbach & Gleser, 1965). In allen Fällen ist der Nutzen
jedoch keineswegs unabhängig von der psychometrischen Validität zu bestimmen,
sondern im Gegenteil deren direkte Funktion. Dies gilt fast noch mehr für qualitative
Nutzendefinitionen (z.B. in einem Entwurf zur DIN 33430 als relativer Wert
der testbasierten Entscheidung im Vergleich zu anderen möglichen Entscheidungen),
die im Grunde Validitätsfacetten (hier: inkrementelle Validität) umschreiben.
Als Minimalstandard für praktische Zwecke lässt sich festhalten, dass der
von einem Test gestiftete Nutzen den möglichen Schaden (z.B. durch Fehlentscheidungen)
und die Kosten in der Summe übersteigen sollte. Bei Betrachtung
alternativer Verfahren kann sich dieser Standard relativieren, weil vorliegende
Verfahren größeren Nutzen versprechen oder weil sich der „neue“ Test als vollständig
redundant erweist. Es sollte jedoch auch noch einmal erwähnt werden,
dass Tests i.d.R schon bei erheblich geringeren (kriterienbezogenen) Validitätskoeffizienten
als den manchmal als Untergrenze geforderten .30 bis .40 nachweislich
Nutzen versprechen und insofern der Schaden ihrer Nicht-Anwendung
den Nutzen derselben häufig übersteigt.
Welche Aussage trifft auf den Standardmessfehler zu?
A Der Standardmessfehler sollte bei der Regressionshypothese angewandt werden.
B Die Anwendung des Standardmessfehlers führt bei gleicher Reliabilität zu einem breiteren Konfidenzintervall als die Anwendung des Standardschätzfehlers.
C Bei Anwendung des Standardmessfehlers muss stets auch der wahre Wert geschätzt werden.
D Bei gleicher Reliabilität ist der Standardmessfehler stets kleiner als der Standardschätzfehler.
E Bei Anwendung des Standardmessfehlers schließt, bei gleicher Reliabilität, das Konfidenzintervall mit höherer Wahrscheinlichkeit den Mittelwert der Normskala ein als bei Anwendung des Standardschätzfehlers
B
Der durchschnittliche Fehler kann auf zwei unterschiedlichen Wegen geschätzt
werden (eigentlich auf drei Wegen, wobei wir auf die Darstellung des Vorhersagefehlers
verzichten; vgl. Lord & Novick, 1968). Im ersten Fall wird davon ausgegangen,
dass der beobachtete Testwert den wahren Wert befriedigend annähert
(Äquivalenzhypothese). Bei der Beurteilung eines einzelnen individuellen Testwerts
ist dies der übliche Fall. In diesem Fall berechnet sich die Schätzung für den
durchschnittlichen Betrag der Abweichung des beobachteten Werts vom wahren
Wert als Standardmessfehler.
Bessere Erklärung muss noch gefunden werden!
Welcher der folgenden Normskalen liegt keine z-Standardisierung vor?
a) Stanine-Werte
b) PISA-Skala
c)T-Werte
d)IQ-Skala
e) alle beruhen auf z-Standardisierung
E
Nur Prozentrangnorm nicht was leicht zu erkennen ist in Abbilung 4.24 "Darstellung einiger gebräuchlicher Normskalen"
anhand der nicht gleichgroßen Abstände zwischen den einzelnen Rängen.
Paralleltest von Horn, wann werden Faktoren extrahiert?
A wenn der Eigenwert > 1 ist (KG - Kriterium)
B bei einem charakteristischen Eigenwertabfall
C bis 5 Faktoren sich herausgeformt haben
D wenn der Faktor der zuvor extrahiert wurde, signifikant mehr Varianz aufklärt als ein zufällig extrahierter Faktor (überzufälliger Eigenwert)
E wenn bei einer parallelen Testung die gleichen Faktoren extrahiert würden
D
Dafür wird eine Matrix bzw. eigentlich viele Matrizen produziert,
die den gleichen Rang (gleiches p) wie die empirische Matrix besitzen, aber
auf Zufallswerten beruhen. Aus diesen Zufallskorrelationen werden dann Faktoren
bzw. Komponenten extrahiert und wieder nach ihren Eigenwerten geordnet.
Da die Korrelationsmatrix von Zufallsvariablen in unendlich großen Stichproben
der Identitätsmatrix entspricht, sind Abweichungen der Eigenwerte von Eins (bei
der PCA) definitionsgemäß rein zufällig bedingt. Die Zufallseigenwerte werden
nun mit den empirischen Eigenwerten verglichen. Die aus der empirischen Matrix
extrahierten Faktoren bzw. Komponenten werden beibehalten, sofern und so lange
ihre Eigenwerte die Eigenwerte der Faktoren aus der Zufallsmatrix mit dem gleichen
Rangplatz übersteigen. Da man mit dem Computer problemlos viele Zufallswerte
generieren und faktorisieren kann, lässt sich auch eine Verteilung der
zufallsgenerierten Eigenwerte erstellen. Dann kann man die empirischen Faktoren
z.B. dann beibehalten, wenn ihre Eigenwerte größer sind als 95 % der zufallsgenerierten
Eigenwerte mit dem gleichen Rangplatz. Dies lässt sich als überzufällige
(bedeutsame) Abweichung des empirischen Eigenwerts nach oben interpretieren,
obwohl es formal kein Signifikanztest ist. Allerdings neigt auch die Parallelanalyse
bei sehr großen Stichproben zur Überschätzung der Faktorenzahl. Je größer die
Stichprobe ist, desto flacher ist der Verlauf der zufälligen Eigenwerte, da für N →
∞ jede Zufallsmatrix der Identitätsmatrix entspricht und damit die Eigenwerte den
Elementen in der Hauptdiagonalen der Matrix (bei der PCA also Einsen). Im
hypothetischen Extrem entspricht das Ergebnis der Parallelanalyse also dem KGKriterium.
Welche dieser Aussagen sind Axiome der KTT? (x aus 5)
A) X = T + E Der beobachtete Wert X setzt sich zusammen aus dem wahren Wert T und einem Messfehler E
B) M (E) = 0 Der Mittelwert M des Messfehlers E ist 0
C) r (E, T) = 0 Es besteht kein Zusammenhang zwischen dem Messfehler und dem wahren Wert
D) r (E, E‘) = 0 Die Messfehler verschiedener Tests sind unkorreliert
E) r (E, T‘) = 0 Die Messfehler eines Tests A weisen keinen Zusammenhang mit dem wahren Wert eines Tests B auf
ABCDE
Welche Konstruktionsprinzipien sind so richtig aufgeführt? (x aus 5)
A External (empirisch) Konstruktdefinition: Theoretische Ableitung von Items Ziel: konstruktvalide, gut interpretierbare Messung
B External (empirisch) Ziel: Kriteriumsvalidität
C Internal (induktiv) Grober Merkmalsbereich: Empirische Zuordnung von Items
Ziel: interpretierbare Binnenstruktur, homogene Subskalen
D Typologisierend (nicht Prototypen) Grober Merkmalsbereich: Empirische Zuordnung von Items
Ziel: interpretierbare Binnenstruktur, homogene Subskalen
E Rational (deduktiv) Konstruktdefinition: Theoretische Ableitung von Items
Ziel: konstruktvalide, gut interpretierbare Messung
B C E
Rational (deduktiv)
Konstruktdefinition: Theoretische Ableitung von Items
Ziel: konstruktvalide, gut interpretierbare Messung
External (empirisch)
Kriteriumsdefinition: Empirische Selektion von Items
Ziel: Kriteriumsvalidität
Internal (induktiv)
Grober Merkmalsbereich: Empirische Zuordnung von Items
Ziel: interpretierbare Binnenstruktur, homogene Subskalen
Typologisierend (nicht Prototypen)
Mehrere Merkmale: Zuordnung von Personen
Ziel: Klassifikation von Personen