WS 16/17

Zusammengesammelt

Zusammengesammelt


Fichier Détails

Cartes-fiches 345
Langue Deutsch
Catégorie Psychologie
Niveau Université
Crée / Actualisé 29.10.2016 / 28.08.2021
Lien de web
https://card2brain.ch/box/testkonstruktion_m6a
Intégrer
<iframe src="https://card2brain.ch/box/testkonstruktion_m6a/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Welches Problem gab es bei mehr als der Hälfte bei der Formulierung von Items (empirisch bestätigt)?

A mangelnde Verständlichkeit

B Verallgemeinerung

C Suggestivfrage

D Gemeinplatz

E Mehrdeutigkeit

A

Bei offenem Antwortformat ist besonders welches Gütekriterium unmittelbar beeinträchtigt?

A Retest-Reliabilität

B Akzeptanz

C diskriminante Validität

D Unverfälschbarkeit

E Auswertungsobjektivität

 

E

Empirische Befunde zu Ratingskalen zeigen…

A dass eine gerade Zahl von Antwortalternativen einer ungeraden Zahl generell vorzuziehen ist

B dass eine ungerade Zahl von Antwortalternativen einer geraden Zahl generell vorzuziehen ist

C dass die verbale Verankerung jeder einzelnen Stufe die Reliabilität verbessert

D dass die Reliabilität mit der Anzahl der Stufen generell ansteigt

E dass das Angebot einer Ausweichkategorie die Zahl nicht auswertbarer Antworten vermindert

 

C

  1. Was impliziert die sog. ipsative Messung?

    A die Enden der Skala sind asymmetrisch gedehnt

    B die Ratewahrscheinlichkeit wird durch den Zufallswert vermindert.

    C die Aufgabe muss schrittweise gelöst werden, so dass die letzte Lösung redundant ist

    D die Antwortalternativen sind nicht stochastisch unabhängig voneinander

    E die Reihenfolge der Alternativen verhindert die Akquieszenz.

D

Welche Form hat der Zusammenhang zwischen Itemschwierigkeit und Informationshaltigkeit?

A U-förmig

B umgekehrt u-förmig

C linear positiv

D linear negativ

E keine der Aussagen ist zutreffend

B

Skript: „Der Zusammenhang zwischen Itemschwierigkeit und Informationshaltigkeit

eines Items ist also umgekehrt u-förmig mit dem Maximum in der Mitte. Deshalb werden Items mit mittlerer Schwierigkeit bei der Testkonstruktion allgemein bevorzugt und Items mit extremen Schwierigkeiten manchmal von vornherein ausgeschlossen (sehr einfache und sehr schwierige Items sind im Prinzip gleich schlecht).“

    Fragebogenkonstruktion von Emil Einfach. Eliminiere alle Items mit Trennschärfen unter .20 (?) und Schwierigkeiten zwischen .20 und .80. Welche Folgen kann das haben? 

    A Der Test eignet sich nicht zur Diagnose von Hochbegabung

    B ?

    C der Test zeigt kein homogenes Konstrukt mehr

    D Die Fremdtrennschärfen übersteigen die Eigentrennschärfen

    E Die Varianz der Testwerte wird artifiziell erweitert

    A

    Welches Modell der PTT hat lediglich Item- und Personenparameter?

    A Rasch-Modell

    B Zwei-Parameter-Modell

    C Birnbaum-Modell

    D Mixed-Rasch-Modell

    E ordinales Rasch-Modell

    A

    Welche Bedeutung hat in der Probalistischen Testtheorie die Steigung der Item

    Characteristic Curve bei einer Lösungswahrscheinlichkeit von .50 und wie sollte sie im

    Idealfall ausgeprägt sein? 

    A Itemschwierigkeit, die möglichst mittelhoch sein sollte

    B Itemschwierigkeit, die möglichst hoch sein sollte

    C Trennschärfe, die möglichst über alle Items gleich sein sollte

    D Trennschärfe, die möglichst mittelhoch sein sollte

    E Trennschärfe, die möglichst hoch sein sollte

    C

    Im Rahmen der PTT ist definiert, dass ein Test ein eindimensionales Konstrukt misst, wenn die Konstrukte nicht mehr miteinander korrelieren. Das ist… 

    A erschöpfende Statistik

    B lokale Unabhängigkeit

    C spezifische Objektivität

    D Logit-Skalierung

    E Trennschärfeparameter

    B

    Skript: „Formal ist Eindimensionalität dann gegeben, wenn die Korrelation zwischen den Items eines Tests nach Auspartialisierung der latenten Eigenschaft (d.h. bei deren konstanter Ausprägung) verschwindet (lokale Unabhängigkeit)“

    Welche Variante der Faktorenanalyse ist zugeschnitten auf die Datenreduktion? 

    A PCA
    B PAF
    C SEM
    D EFA
    E PAC

    A

    Streng genommen zählt die PCA nicht zu den faktorenanalytischen
    Methoden, da sie lediglich dem Zweck der Datenreduktion und Beschreibung
    dient, und die latenten Variablen heißen hier auch nicht Faktoren, sondern
    Komponenten. Dessen ungeachtet wird die PCA sehr häufig angewendet (in SPSS
    ist sie die Voreinstellung) und die Unterschiede zur PAF in den Berechnungen
    und häufig auch in den Ergebnissen sind auch nur gering (zu Ausnahmen siehe
    Fabrigar, Wegener, MacCallum & Strahan, 1999).

     

    Der durch einen Faktor aufgeklärte Anteil der Gesamtvarianz heisst...

    A Fremdtrennschärfe
    B Reliabilität
    C Eigenwert 
    D Hauptdiagonale
    E Faktorwert


    Skript: „Wenn man den Eigenwert durch die Gesamtzahl der Items teilt, ergibt sich außerdem der Anteil der durch den Faktor aufgeklärten Varianz des gesamten Tests.“

    Der K-M-O-Koeffizient beträgt 0.9. ... Was kann daraus geschlossen werden? 
    A der K-M-O-Koeffizient ist inkompatibel mit der Durchführung
    B die Items besitzen einen hohen spezifischen Varianzanteil, den sie mit keinem der anderen Items teilen
    C Wir haben Anhaltspunkt dafür, dass die Itemauswahl für die Faktorenanalyse sehr gut geeignet ist
    D die quadrierte Partialkorrelation nimmt große Werte an
    E alle Aussagen sind richtig

    C

    Skript: „Kein Signifikanztest, jedoch ein ebenfalls in SPSS implementiertes Verfahren mit inhaltlich ähnlicher Funktion ist der Kaiser-Meyer-Olkin-Koeffizient (KMO-Koeffizient), der, vereinfacht gesagt, den gemeinsamen Varianzanteil der Items relativ zu deren spezifischen Varianzanteilen misst. Der KMO-Koeffizient sollte möglichst hoch sein (keinesfalls unter .50). Anhaltspunkte zur Beurteilung der Höhe gibt Bühner (2011):
    .50-.59- schlecht
    .60-.69- mäßig
    .70-.79- mittel
    .80-.89- gut
    >.90 sehr gut“

    Was ist Kommunalität? 
    A Die durch alle möglichen Faktoren aufgeklärte Varianz 
    B Ist ein Maß dafür wie gut die Faktoren zusammen passen
    C Ist ein Maß dafür wie gut die Items zusammen passen
    D die durch alle extrahierten Faktoren aufgeklärte Varianz
    E die Schätzung der Reliabilität

    D

    Aus dem Bühner: „Die Kommunalität eines Items ist die durch alle extrahierten Faktoren augeklärte Varianz (quadrierte Ladungen a²) eines Items (Summe der quadrieten Ladungen in der Zeile). 
    Sie gibt an, wie gut ein Item durch alle Faktoren repräsentiert wird. 

    Die Kommunalität eines Items lässt sich in der Regel (aber nicht immer beliebig) dadurch steigern, dass man mehr Faktoren extrahiert, da so die Anzahl an zu summierenden quadrierten Ladungen ansteigt.“

      KG-Kriterium: Worin liegen mögliche Probleme zur Bestimmung der Faktorenzahl, d.h. Dass zu viele Faktoren extrahiert werden?

      A kleine Stichproben

      B wenig Items

      C viele Items

      D geringe Interkorrelation

      E hohe Interkorrelation

      C
      Je mehr Variablen in die Analyse eingehen,
      desto wahrscheinlicher ist es jedoch, dass bei strikter Anwendung des KGKriteriums
      zu viele Komponenten extrahiert werden, die teilweise schwer zu interpretieren
      sind und eher methodische Artefakte als inhaltliche Konstrukte abbilden.
      In der Regel empfiehlt es sich, die Entscheidung über die Anzahl der Faktoren
      nach anderen Kriterien zu treffen und vor dem nächsten Schritt der EFA die
      entsprechende Voreinstellung im Programm zu ändern.

      Was bedeutet Einfachstruktur?

      A keine Faktorenanalyse 2. Ordnung

      B Rotation, danach teils hohe teils niedrige Ladung

      C Faktoren erklären z.T. viel, z.T. wenig Varianz

      D wenige Faktoren klären die Varianz auf

      E Eigenwert ist größer als 1

      B

      Meist wird mit der Rotation aber das Kriterium der Einfachstruktur angestrebt.
      Wenn in der ursprünglichen Faktoren- oder Komponentenmatrix überwiegend
      Ladungen in mittlerer Höhe vorkommen, wenn sich also die Ladungen je Item auf
      mehrere Faktoren relativ gleichmäßig verteilen und auch je Faktor viele Ladungen
      mittlerer Höhe dominieren, wird dieses Kriterium verfehlt. Es ist dann nämlich
      kaum möglich, die Items eindeutig einem bestimmten Faktor zuzuordnen und die
      Faktoren inhaltlich eindeutig zu interpretieren. Dafür wäre es wünschenswert,
      wenn möglichst jedes Item auf einen bestimmten Faktor hoch und auf die anderen
      niedrig oder gar nicht laden würde. Ein solches Ladungsmuster entspricht der Einfachstruktur,
      die i.d.R. mittels Rotation nur angenähert werden kann. Durch die
      Rotation wird die Lage der Faktoren im Faktorraum verändert, nicht deren Anzahl
      oder die Lage der Items. Einfach gesagt werden die Achsen (Faktoren, Komponenten)
      so gedreht, dass sie sich einigen Punkten (Items, beobachtete Variablen)
      im Raum annähern und von anderen entfernen, so dass am Ende die Punkte den
      Achsen möglichst eindeutig zugeordnet werden können (Einfachstruktur). Nach
      der Rotation bleibt die Gesamtvarianz der extrahierten Faktoren erhalten, es ändert
      sich aber die Verteilung der Varianz auf die extrahierten Faktoren bzw.
      Komponenten (d.h. deren Eigenwerte, die allgemein gleichmäßiger werden).

      Oblique Rotation 

      A die neu entstehenden Ladungsmatrizen heißen Mustermatrix und Strukturmatrix

      B Bessere Interpretierbarkeit

      C Höhere Redundanz

      D Ladungen sind nicht mehr einfach zeilenweise summierbar

      E Alle richtig

       

      E

      Der
      zweite Fall heißt oblique (schiefwinklige) Rotation, weil auch der Winkel zwischen
      den Achsen verändert wird, was inhaltlich bedeutet, dass eine Korrelation
      zwischen den Achsen zugelassen wird. Die Korreliertheit führt u.a. dazu, dass die
      quadrierten Ladungen nicht mehr einfach zeilenweise summiert werden können,
      um die Kommunalität zu erhalten, und dass sich die neuen Eigenwerte nicht mehr
      zu einem Maß für die aufgeklärte Gesamtvarianz addieren. Die Entscheidung zwischen
      orthogonaler und obliquer Rotation sollte aber im Wesentlichen aufgrund
      inhaltlicher Überlegungen getroffen werden. Einerseits maximiert Orthogonalität
      die theoretische Sparsamkeit der Faktorenlösung, weil Korreliertheit immer auch
      Redundanz bedeutet. Andererseits sind korrelierte Faktoren oft einfacher interpretierbar,
      weil sich so Mehrfachladungen der Items besser verteilen lassen. Außerdem
      stellt postulierte Unabhängigkeit zwischen Konstrukten eine Restriktion dar,
      die gerade bei einem explorativen Vorgehen ohne a priori Definitionen begründungspflichtig
      ist.

       

      Berechnung von individuellen Faktorwerten: Was ist zu beachten?

      A Faktorenwerte besitzen kein metrisches Skalenniveau

      B Faktorenwerte sind so skaliert wie die ursprünglichen Items

      C Die Lösungen sind wegen der Faktoreninkorrelationen verzerrt

      D sind in hohem Maß stichprobenabhängig

      E keine der Antworten ist richtig

      D

      Diese Faktorwerte ergeben sich, nach entsprechender Umstellung
      der faktorenanalytischen Grundgleichung, als eine gewichtete Kombination
      der Items, die zu dem jeweiligen Faktor beitragen.

      Faktorwerte werden also
      nicht direkt beobachtet, sondern indirekt aus den Daten berechnet und sind deshalb
      auch extrem stichprobenabhängig. Dies ist einer der Gründe, warum häufiger
      mit den gegenüber Stichprobencharakteristika robusteren Rohwertsummen gerechnet
      wird. In manchen Fällen möchte man jedoch „reine“ Ausprägungen auf
      Faktoren ermitteln oder benötigt Faktorwerte für weitere Berechnungen.

      Aufgrund der Standardisierung
      lassen sich mit den Faktorwerten keine Mittelwertsvergleiche zwischen den Faktoren
      durchführen (dieser ist immer Null; vgl. jedoch Thompson, 2004, zu einer
      Methode, die sich für diesen Zweck eignet)

      Durch oblique Rotation wird in der Faktorenanalyse festgelegt, dass…
      a) die Faktoren unabhängig voneinander bestimmt werden.
      b) die Messfehler der Indikatoren miteinander korrelieren dürfen.
      c) ein Faktor höherer Ordnung existiert.
      d) Keine der Lösungen a), b) und c) ist richtig.

       

      D

      Welchem Begriff entspricht SEM?

      A Kausalanalyse

      B Kovarianzstrukturanalyse

      C Pfadanalyse

      D LISREL

      E Keine

      B

      Welchem Schätzalgorithmus für lineare Strukturgleichungsmodelle fehlt gerade das Merkmal der Skaleninvarianz?

      A Asymtotically Distribution Free
      B Generalized Least Square

      C Unweighted Least Square

      D Maximum Liklihood

      E Keine Antwort trifft zu

      C

      Skript:“Dafür ist ULS weder skaleneinvariant noch skalenfrei und sollte deshalb, wenn überhaupt, nur auf die Korrelationsmatrix bzw. bei Varibalen mit einheitlicher Skalierung angewandt werden.“

      Welches Problem schränkt die Aussagekraft linearer Strukturgleichungsmodelle unter Umständen ein?

      A Modifikationsindizes können zum Herumprobieren verführen.

      B Einige Identifizierbarkeitsprobleme sind mathematisch noch nicht abschließend gelöst.

      C Für den Modell-Fit existiert kein allgemein akzeptiertes Kriterium.

      D Die Modellspezifikation allein auf Grundlage der Pfaddiagramme kann zu unqualifizierten

      Anwendungen führen.

      E Die Antworten sind alle zutreffend.

      E

      Welcher der folgenden Normskalen liegt keine z-Standardisierung zugrunde?

      A T-Werte

      B Prozentrangnormen

      C IQ-Skala

      D Stanine-Werte

      E Die in den Antworten a-d genannten Normskalen beruhen alle auf der z-Standardisierung.

      B

      In einem Paartest wird das Selbsturteil der Frau verglichen mit dem Fremdurteil des Mannes – Welche Art von Gütekriterium wird dadurch erfasst?

      A Auswertungsobjektivität

      B Interpretationsobjektivität

      C Interrater-Reliabilität

      D konvergente Validität

      E Inhaltsvalidität

      D

      Aus welchem Grund könnte die Testwiederholung zur Schätzung der Reliabilität ungeeignet

      sein bzw. zu verzerrten Schätzungen führen?

      A Es handelt sich um einen Test zur Messung heterogener Merkmale.

      B Es geht um einen Test zur Messung eines instabilen Merkmals.

      C Reliabilität wird unterschätzt, weil das Messintervall zu kurz gemessen wurde

      D Die Reliabilität wird überschätzt, weil sich das Merkmal zwischen den Messzeitpunkten

      verändert

      E A-D sind alle zutreffend

      B

      Skript: 
      „Konzeptionell sinnlos ist die Interpretation der Retest-Reliabilität etwa bei der Veränderungsmessung bzw. generell, wenn die Instabilität des erfassten Merkmals theoretisch zu erwarten ist.

      Ein großes Problem bei der Retest-Reliabilität ist die Wahl des geeigneten zeitlichen Intervalls zwischen beiden Messzeitpunkten. Dabei sind zwei gegenläufige Tendenzen in Einklang zu bringen. Einerseits kann durch Übungs- und Erinnerungseffekte die Korrelation zwischen beiden Messzeitpunkten künstlich überhöht sein. Dies ist umso eher zu erwarten, je kürzer das Messintervall ausfällt. Andererseits kann sich das zugrunde liegende Merkmal (also die wahren Werte) zwischen beiden Messzeitpunkten verändern, was zu Unterschätzung der Reliabilität führt. Dies tritt in begrenztem Umfang auch bei theoretisch stabilen Merkmalen wie Intelligenz und Persönlichkeitseigenschaften auf und verstärkt sich mit zunehmendem Zeitintervall. „

      1. Worin unterscheidet sich der Aspekt der Inhaltsvalidität grundsätzlich von anderen Aspekten der Konstruktvalidität?

        A IV lässt sich nicht quantitativ abschätzen

        B IV bezieht sich auf das Aufgabenuniversum u. ist daher nur für kriterienorientierte Leistungstest

        relevant

        C IV bezieht sich begriffslogisch auf einen vorgelagerten Schritt im Prozess der Testkonstruktion

        D IV bezieht sich zwar auf die Konvergenz, aber nicht auf die Divergenz von Testinhalt u.

        Konstrukt im nomologischen Netz

        E V tritt bei external konstruierten Tests häufig hinter den Aspekt der kriterienbezogenen Validität

        zurück

      C

      Skript: „(1) Inhaltsvalidität. Der inhaltliche Aspekt der Validität bezieht sich auf die Übereinstimmung

      der Testinhalte (d.h. der Items inkl. Stamm und Antwortvorgabe) mit dem zugrunde liegenden Merkmal des Tests. Die Inhaltsvalidität betrifft also einen frühen Schritt der Testentwicklung, nämlich die Ableitung der Items aus dem definierten Merkmalsbereich (Abschn. 2.3), und setzt folglich voraus, dass ein solcher Merkmalsbereich existiert.

      In Beispiel 5.1 wird exemplarisch ein systematischeres Vorgehen dargestellt, welches u.a. zeigt, dass Maße der Beurteilerübereinstimmung (vgl. Abschn. 5.2.1 oben) auch zur quantitativen Abschätzung der Inhaltsvalidität herangezogen werden können.“

        Worin zeit sich bei der korrelativen Auswertung einer Multi-Trait-Multi-Method Matrix konvergente Validität? 

        A hohe Monotrait-Monomethod-Koeffizienten

        B hohe Heterotrait-Monomethod-Koeffizienten

        C hohe Heterotrait-Heteromethod-Koeffizienten

        D hohe Monotrait-Heteromethod-Koeffizienten

        E Keine Antwort ist zutreffend

        D

        Skript: “In deren jeweiligen Diagonalen (Validitätsdiagonalen) stehen fettgedruckt die Monotrait-Heteromethod-Koeffizienten, die Hauptindikatoren der konvergenten Validität. Sie sollten möglichst

        hoch ausfallen (auf jeden Fall statistisch von Null verschieden), um konvergente Validität anzuzeigen, sowie höher als die Heterotrait-Monomethod-Koeffizienten als ein Hinweis auf diskriminante Validität im Sinne der Unabhängigkeit von den Messmethoden.“

         

        1. Warum wurde die Entlassung von Frau Meiorin wegen eines nicht bestandenen Leistungstest aufgrund kanadischer Antidiskriminierungsgesetze für rechtlich unwirksam befunden? 

          A Frau Meiorin hatte zuvor gute Leistungsbeurteilungen

          B Für den Test war empirisch nicht hinreichend geprüft worden, ob für Männer und Frauen die

          gleichen leistungsstandards gelten müssen.

          C Der Test war nicht ausreichend validiert worden.

          D Nach Ansicht des Gerichts enthielt der Test diskriminierende Fragen.

          E Der Test war nicht ausreichend anforderungsanalytisch fundiert.

           

        B

        Warum wurde die Entlassung von Frau Meiorin wegen eines nicht bestandenen Leistungstest aufgrund kanadischer Antidiskriminierungsgesetze für rechtlich unwirksam befunden?

        A Frau Meiorin hatte zuvor gute Leistungsbeurteilungen

        B Für den Test war empirisch nicht hinreichend geprüft worden, ob für Männer und Frauen die

        gleichen leistungsstandards gelten müssen.

        C Der Test war nicht ausreichend validiert worden.

        D Nach Ansicht des Gerichts enthielt der Test diskriminierende Fragen.

        E Der Test war nicht ausreichend anforderungsanalytisch fundiert.

         

        B

        Entscheidend war das Versäumnis, bei
        der Testentwicklung hinreichend zu etablieren, dass für Männer und Frauen die
        gleichen „aerobischen Standards“ auch mit gleicher beruflicher Leistung verbunden
        sind. Dies war lediglich aufgrund einer nach Geschlechtern nicht getrennten
        Gesamtauswertung der Daten unterstellt worden, die zudem für eine zuverlässige
        getrennte Auswertung eine zu kleine Teilstichprobe von Frauen enthielt. Tatsächlich
        bestanden Frauen aufgrund ihrer physischen Konstitution den Fitness-Test
        sehr viel seltener als Männer, ohne dass sich dieser Unterschied in entsprechenden
        Leistungsunterschieden niederschlug (nur insofern spielte die Leistungsbeurteilung
        eine Rolle). Die Behörde hatte nach Ansicht des Supreme Court versäumt,
        die Gültigkeit der gleichen Fitness-Standards für beide Geschlechter empirisch
        nachzuweisen (Quelle: Catano, Wiesner, Hackett & Methot, 2005).

         

        1. Welche Forderung ergibt sich aufgrund des sogenannten Flynn-Effekts für die Normierung von Testverfahren?

          A Die Normstichprobe sollte ausreichend groß sein.

          B Die Normstichprobe sollte für die Population repräsentativ sein.

          C Die Normen sollten in einem der Fragestellung entsprechenden Kontext erhoben worden sein.

          D Die Normen sollten regelmäßig aktualisiert werden.

          E Die Normen sollten für relevante Untergruppen differenziert berichtet werden.

           

        D

        Sie möchten die Testwerte zweier Personen in dem gleichen Test vergleichen. Wie groß ist

        die kritische Differenz in diesem Fall, wenn der Test perfekt reliabel wäre? Gehen Sie von

        einem zwei-steitigen Test mit 5% Irrtumswahrscheinlichkeit ( z=1,96) und von einem nach

        Stanine-Werten genormten Test aus. Die Formel für die kritische Differenz lautet..

        A ca.2,48

        B ca.1,75

        C ca.1,24

        D ca. 0,55

        E Bei perfekter Reliabilität beträgt die kritische Differenz immer exakt Null.

         

        E

        (1) Äquivalenzhypothese, gleicher Test: Dkrit = z ⋅ Sx ⋅ √(2 ⋅ (1− rtt))
        (2) Äquivalenzhypothese, verschiedene Tests: Dkrit = z ⋅ Sx ⋅ √(2 − (rtt1 + rtt 2))
        (3) Regressionshypothese, verschiedene Tests: Dkrit = z ⋅ Sx ⋅ √(1− r²12)

        Skript:“Die Werte der kritischen Differenzen vermitteln zudem einen Eindruck

        davon, wie hoch reliabel ein Test sein muss, damit z.B. eine beobachtete

        Testwertdifferenz von 5 IQ-Punkten zwischen zwei Probanden (Fall (1)) interpretiert

        werden kann. Mit der angenommen Sicherheitswahrscheinlichkeit erforderte

        dies einen Test mit einer unglaublichen Reliabilität von rtt = .9855! (Versuchen

        Sie ruhig einmal, dies durch Umstellung der obigen Formel nachzurechnen.)


        Meine Meinung: Bei perfekter Reliabilität gibt es also keinen Grund eine kritische Differenz zu berechnen und es fehlen alle nötigen Werte „

          Welche Begriffpaarlinge sind nicht in den formalen Gesichtspunkten enthalten? 

          A qualitativ & quantitativ

          B verbal vs. non-verbal

          C ein & Mehrdimensional

          D Einzel und Gruppentest

          E mit vs. ohne Zeitbegrenzung

          A

          Welche Kriterien zieht man für die Bestimmung der Kriteriumsvalidität hinzu? x aus 5

          A Binnenkriterien

          B Zwischenkriterien

          C Extrakriterien

          D Außenkriterien

          E Schultest

           

          A D

          Kriteriumsvalidität = Korrelation des Tests mit einer anderen Variablen z.B. einem Verhaltensindikator oder einem anderen Test. 
          Zwei Arten von Kriterien: 
          1) Außenkriterium – Schulnoten bei einem Schuleignungstest
          2) Binnenkriterium – Ein anderer Schuleignungstest 

           

          Welches der folgenden Merkmale kennzeichnet einen psychologischen Test als
          Routineverfahren?
          A Vorhandensein eines Testmanuals
          B Standardisierung
          C Normierung
          D quantitative Messung
          E Validierung

           

          B

          Welcher der folgenden Schätzalgorithmen für Lineare Strukturgleichungsmodelle stellt unter sonst gleichen Bedingungen die höchsten Anforderungen an die Stichprobengröße?

          A  ULS
          B  GLS
          C  ADF
          D  Maximum Likelihood
          E  Two-Stage Least Squares

          C

          Anders als bei ML oder GLS kann das bei etwas komplexeren
          Modellen leicht Stichproben in einer vierstelligen Größenordnung
          erfordern.

          C

          Anders als bei ML oder GLS kann das bei etwas komplexeren
          Modellen leicht Stichproben in einer vierstelligen Größenordnung
          erfordern.

          Welches psychometrische Gütekriterium geht unmittelbar in monetäre Nutzanalysen von Tests ein?

          A konvergente Validität
          B Interne Konsistenz
          C Faktorielle Validität
          D Interrater Reliabilität
          E Kriterienbezogene Validität

           

          E

           

          Erheblich schwieriger zu quantifizieren als die Kosten ist i.d.R. der Nutzen von
          Testverfahren. Nichtsdestotrotz reichen die Versuche, den Nutzen der Diagnostik
          objektiv zu erfassen, weit in die Geschichte der Psychologie zurück. Eine besondere
          Rolle haben in dieser Hinsicht eignungsdiagnostische Entscheidungen gespielt.
          Die entsprechenden Entwicklungen seien deshalb hier nur kurz angesprochen
          und in Modul 8 vertieft dargestellt. Ein Versuch, den Nutzen von Auswahlinstrumenten
          als Verbesserung des Anteils richtiger Entscheidungen (insbes. der
          Trefferquote, vgl. Abschn. 4.3) im Vergleich zur Zufallsauswahl zu bestimmen,
          stammt aus der Zeit vor dem zweiten Weltkrieg (Taylor & Russell, 1939). Unter
          anderem hängt der Nutzen hier vom Anteil geeigneter Personen an der Bewerberpopulation
          (Basisrate) und dem Anteil der am Ende Ausgewählten (Selektionsquote)
          ab. Später ist diese ausschließlich an der Akkuratheit der Klassifikation
          orientierte Nutzenanalyse um Elemente der betriebswirtschaftlichen Kosten- und
          Leistungsrechnung zu einer echten monetären Nutzenanalyse erweitert worden
          (z.B. Brogden, 1949; Cronbach & Gleser, 1965). In allen Fällen ist der Nutzen
          jedoch keineswegs unabhängig von der psychometrischen Validität zu bestimmen,
          sondern im Gegenteil deren direkte Funktion. Dies gilt fast noch mehr für qualitative
          Nutzendefinitionen (z.B. in einem Entwurf zur DIN 33430 als relativer Wert
          der testbasierten Entscheidung im Vergleich zu anderen möglichen Entscheidungen),
          die im Grunde Validitätsfacetten (hier: inkrementelle Validität) umschreiben.
          Als Minimalstandard für praktische Zwecke lässt sich festhalten, dass der
          von einem Test gestiftete Nutzen den möglichen Schaden (z.B. durch Fehlentscheidungen)
          und die Kosten in der Summe übersteigen sollte. Bei Betrachtung
          alternativer Verfahren kann sich dieser Standard relativieren, weil vorliegende
          Verfahren größeren Nutzen versprechen oder weil sich der „neue“ Test als vollständig
          redundant erweist. Es sollte jedoch auch noch einmal erwähnt werden,
          dass Tests i.d.R schon bei erheblich geringeren (kriterienbezogenen) Validitätskoeffizienten
          als den manchmal als Untergrenze geforderten .30 bis .40 nachweislich
          Nutzen versprechen und insofern der Schaden ihrer Nicht-Anwendung
          den Nutzen derselben häufig übersteigt.

           

          Welche Aussage trifft auf den Standardmessfehler zu?

          A Der Standardmessfehler sollte bei der Regressionshypothese angewandt werden.
          B Die Anwendung des Standardmessfehlers führt bei gleicher Reliabilität zu einem breiteren Konfidenzintervall als die Anwendung des Standardschätzfehlers. 
          C Bei Anwendung des Standardmessfehlers muss stets auch der wahre Wert geschätzt werden. 
          D Bei gleicher Reliabilität ist der Standardmessfehler stets kleiner als der Standardschätzfehler. 
          E Bei Anwendung des Standardmessfehlers schließt, bei gleicher Reliabilität, das Konfidenzintervall mit höherer Wahrscheinlichkeit den Mittelwert der Normskala ein als bei Anwendung des Standardschätzfehlers

          B

          Der durchschnittliche Fehler kann auf zwei unterschiedlichen Wegen geschätzt
          werden (eigentlich auf drei Wegen, wobei wir auf die Darstellung des Vorhersagefehlers
          verzichten; vgl. Lord & Novick, 1968). Im ersten Fall wird davon ausgegangen,
          dass der beobachtete Testwert den wahren Wert befriedigend annähert
          (Äquivalenzhypothese). Bei der Beurteilung eines einzelnen individuellen Testwerts
          ist dies der übliche Fall. In diesem Fall berechnet sich die Schätzung für den
          durchschnittlichen Betrag der Abweichung des beobachteten Werts vom wahren
          Wert als Standardmessfehler.

           

          Bessere Erklärung muss noch gefunden werden!

          Welcher der folgenden Normskalen liegt keine z-Standardisierung vor?

          a) Stanine-Werte 
          b) PISA-Skala 
          c)T-Werte 
          d)IQ-Skala
          e) alle beruhen auf z-Standardisierung

          E

          Nur Prozentrangnorm nicht was leicht zu erkennen ist in Abbilung 4.24 "Darstellung einiger gebräuchlicher Normskalen"

          anhand der nicht gleichgroßen Abstände zwischen den einzelnen Rängen.

          Paralleltest von Horn, wann werden Faktoren extrahiert?

          A wenn der Eigenwert > 1 ist (KG - Kriterium)

          B bei einem charakteristischen Eigenwertabfall

          C bis 5 Faktoren sich herausgeformt haben

          D wenn der Faktor der zuvor extrahiert wurde, signifikant mehr Varianz aufklärt als ein zufällig extrahierter Faktor (überzufälliger Eigenwert)

          E wenn bei einer parallelen Testung die gleichen Faktoren extrahiert würden

          D

           

          Dafür wird eine Matrix bzw. eigentlich viele Matrizen produziert,
          die den gleichen Rang (gleiches p) wie die empirische Matrix besitzen, aber
          auf Zufallswerten beruhen. Aus diesen Zufallskorrelationen werden dann Faktoren
          bzw. Komponenten extrahiert und wieder nach ihren Eigenwerten geordnet.
          Da die Korrelationsmatrix von Zufallsvariablen in unendlich großen Stichproben
          der Identitätsmatrix entspricht, sind Abweichungen der Eigenwerte von Eins (bei
          der PCA) definitionsgemäß rein zufällig bedingt. Die Zufallseigenwerte werden
          nun mit den empirischen Eigenwerten verglichen. Die aus der empirischen Matrix
          extrahierten Faktoren bzw. Komponenten werden beibehalten, sofern und so lange
          ihre Eigenwerte die Eigenwerte der Faktoren aus der Zufallsmatrix mit dem gleichen
          Rangplatz übersteigen. Da man mit dem Computer problemlos viele Zufallswerte
          generieren und faktorisieren kann, lässt sich auch eine Verteilung der
          zufallsgenerierten Eigenwerte erstellen. Dann kann man die empirischen Faktoren
          z.B. dann beibehalten, wenn ihre Eigenwerte größer sind als 95 % der zufallsgenerierten
          Eigenwerte mit dem gleichen Rangplatz. Dies lässt sich als überzufällige
          (bedeutsame) Abweichung des empirischen Eigenwerts nach oben interpretieren,
          obwohl es formal kein Signifikanztest ist. Allerdings neigt auch die Parallelanalyse
          bei sehr großen Stichproben zur Überschätzung der Faktorenzahl. Je größer die
          Stichprobe ist, desto flacher ist der Verlauf der zufälligen Eigenwerte, da für N →
          ∞ jede Zufallsmatrix der Identitätsmatrix entspricht und damit die Eigenwerte den
          Elementen in der Hauptdiagonalen der Matrix (bei der PCA also Einsen). Im
          hypothetischen Extrem entspricht das Ergebnis der Parallelanalyse also dem KGKriterium.

           

          Welche dieser Aussagen sind Axiome der KTT? (x aus 5)
          A)  X = T + E   Der beobachtete Wert X setzt sich zusammen aus dem wahren Wert T und einem Messfehler E
          B)  M (E) = 0   Der Mittelwert M des Messfehlers E ist 0
          C)  r (E, T) = 0  Es besteht kein Zusammenhang zwischen dem Messfehler und dem wahren Wert
          D)  r (E, E‘) = 0  Die Messfehler verschiedener Tests sind unkorreliert
          E)  r (E, T‘) = 0   Die Messfehler eines Tests A weisen keinen Zusammenhang mit dem wahren Wert eines Tests B auf

          ABCDE

          Welche Konstruktionsprinzipien sind so richtig aufgeführt? (x aus 5)
          A External (empirisch) Konstruktdefinition: Theoretische Ableitung von Items Ziel: konstruktvalide, gut interpretierbare Messung

          B External (empirisch) Ziel:  Kriteriumsvalidität

          C Internal (induktiv) Grober Merkmalsbereich:  Empirische Zuordnung von Items
          Ziel:  interpretierbare Binnenstruktur, homogene Subskalen

          D Typologisierend (nicht Prototypen) Grober Merkmalsbereich:  Empirische Zuordnung von Items
          Ziel:  interpretierbare Binnenstruktur, homogene Subskalen

          E Rational (deduktiv) Konstruktdefinition: Theoretische Ableitung von Items
          Ziel: konstruktvalide, gut interpretierbare Messung

          B C E

          Rational (deduktiv)
          Konstruktdefinition: Theoretische Ableitung von Items
          Ziel: konstruktvalide, gut interpretierbare Messung

          External (empirisch)
          Kriteriumsdefinition: Empirische Selektion von Items
          Ziel:  Kriteriumsvalidität

          Internal (induktiv)
          Grober Merkmalsbereich:  Empirische Zuordnung von Items
          Ziel:  interpretierbare Binnenstruktur, homogene Subskalen

          Typologisierend (nicht Prototypen)
          Mehrere Merkmale:  Zuordnung von Personen
          Ziel:  Klassifikation von Personen