Gütekriterien

=Warum Gütekriterien?=


 * Unterscheidung zwischen Tests, die von Laien und Wissenschaftlern entwickelt und geprüft wurden.
 * Von Laien entwickelte Tests (z.B. Klassenarbeiten) könnten den Gütekriterien entsprechen, wurden aber nie dahingehend wissenschaftlich untersucht (Informell).
 * Bei wissenschaftlichen Tests wurde die Güte untersucht (anhand wissenschaftlicher Standards), eingeschätzt und veröffentlicht (Formell).
 * Geben uns Hinweise darauf, was die Testergebnisse widerspiegeln und wie sehr wir auf sie vertrauen können.
 * Es geht um das Ausmaß, zu dem ein Gütekriterium gegeben ist, nicht um eine einfache ja/nein Entscheidung
 * Für jede Einschätzung werden mehrere Informationsquellen hinzugezogen
 * Einen Test, zu dem keine Informationen zu Gütekriterien vorliegen, sollte man nur mit großer Vorsicht verwenden und nur, wenn es keine Alternativen gibt!



= Hauptgütekriterien = -

Validität:  Der Test misst das, was er messen soll und nichts anderes. Reliabilität:  Der Test misst das, was er misst, ohne Fehler. Objektivität: Das Testergebnis und die Interpretation davon sind unabhängig von dem- oder derjenigen, der/die den Test durchführt.

ABER: Die Kriterien sind nicht genau trennbar. Objektivität kann als Teil der Reliabilität gesehen werden und Reliabilität als Voraussetzung für Validität. (vgl. Fisseni, 1997)



Validität

 * Zentrales Gütemerkmal: Ohne Validität nutzt kein Test etwas
 * Meistens ist bei Validität die Konstruktvalidität gemeint
 * Aspekte von Validität:
 * Konstruktvalidität – Kann von dem Ergebnis auf das Merkmal rückgeschlossen werden?
 * Konvergent – Geht das genauso gut wie bei Tests, die das gleiche messen sollen?
 * Diskriminant – Misst es nichts, was nicht gemessen werden soll?
 * Inhaltsvalidität – Wird das ganze Konstrukt abgebildet?
 * Augenscheinvalidität – Wirkt der Test valide auf einen Laien?
 * Kriteriumsvalidität – Lässt sich vom Testverhalten auf Verhalten außerhalb der Situation schließen?

Konstruktvalidität
- = Bildung eines nomologischen Netzwerks
 * Bezieht sich insbesondere auf theoretische Fundierung des Tests
 * Welches theoretische Modell liegt dem Konstrukt zugrunde?
 * Mit welchen anderen Konstrukten sollte ein Testergebnis in Beziehung stehen (konvergent), mit welchen nur ein geringer Zusammenhang bestehen (diskriminant)?
 * Gibt es verschiedene Aspekte eines Konstrukts?



Konstruktvalidität sicherstellen
-
 * Erheben von verwandten Konstrukten aus dem nomologischen Netzwerk
 * Erwartete Beziehungen sollten aufzufinden sein, aber nicht zu hoch
 * Korrelationen über .70 deuten darauf hin, dass zwei Fragebögen fast genau dasselbe erfassen
 * Erheben von Konstrukten, die ebenfalls durch den Test erfasst werden könnten, aber nicht erfasst werden sollten.
 * Beziehungen sollten niedrig sein
 * Erfassen der Struktur des Konstruktes durch Faktorenanalysen
 * Erwartete Unterkategorien sollten gefunden werden

Inhaltsvalidität
-
 * Abbildung des gesamten Konstruktes
 * Bestimmung weniger anhand von Zahlenwerten, sondern ausgehend von einer Definition und fachlichen Überlegungen
 * Zum Beispiel Fragebogen zur selbstzugeschriebenen Femininität
 * Sollte Items zu verschiedenen Aspekten beinhalten, z.B. Wärme, Zurückhaltung, Emotionalität,…
 * Zum Beispiel Rechenfähigkeiten in der zweiten Klasse
 * Nicht nur Addition, sondern auch Subtraktion sollte abgefragt werden

Augenscheinvalidität

 * Wahrnehmung eines Laien (möglicherweise Testeilnehmers) von dem, was der Test misst
 * Relevant für Validität und Akzeptanz der Testergebnisse
 * Eine Person, die den Test als nicht valide wahrnimmt, könnte sich weniger anstrengen oder abbrechen
 * Nicht alle Tests, die augenscheinlich valide sind, sind es auch tatsächlich, zum Beispiel der Myers-Briggs Persönlichkeitstest
 * z.B. sind Persönlichkeitseigenschaften kontinuierlich, vor „Persönlichkeitstypen“ sollte man vorsichtig sein
 * Ob der Test valide ist oder nicht, wird noch stark diskutiert

Kriteriumsvalidität
-
 * Wichtig für die Anwendung des Tests außerhalb des wissenschaftlichen Kontexts (z.B. Ausleseverfahren)
 * Wichtig für die Relevanz von Wissenschaft, die mit diesem Test durchgeführt wird
 * Beschreibt, inwiefern Testergebnisse mit vergleichbarem Verhalten im Feld zusammenhängen
 * Gehen extrovertierte Personen tatsächlich mehr auf Partys?
 * Hängen Kompetenztests und Schulnoten zusammen?
 * Erfasst durch Studien, in denen Personen sowohl im Labor als auch im Feld erhoben werden

Reliabilität




Problem: Wie erkennt man, welcher Teil einer Antwort das wahre Konstrukt abbildet und welcher Teil Messfehler ist?

--> Verwenden mehrerer Items

'''Wenn der Messfehler nicht systematisch ist, ist er im Durchschnitt 0. '''


 * Das, was die Items gemeinsam haben, bildet das wahre Konstrukt ab.
 * Das, was jedes Item nur selbst abbildet, wird als Messfehler interpretiert. Verwenden mehrerer Items

Achtung: Basiert auf der Annahme, dass die Messfehler der Items unabhängig voneinander sind!


 * Reliabilität über die Zeit (= Stabilität)
 * Kann erfassen, wie stark die Testergebnisse zusammenhängen, wenn sie unter gleichen Bedingungen noch einmal durchgeführt werden (Test Retest)
 * Sinnvoll bei Merkmalen, die zeitlich überdauernd sein sollten, z.B. Persönlichkeit, Intelligenz statt Emotionen oder Aktivierung von Stereotypen


 * Reliabilität zu einem Zeitpunkt
 * Misst, wie stark die einzelnen Items miteinander zusammenhängen (Paralleltest)
 * Jedes Item ist ein „Test“
 * Keine Probleme mit Erinnerungs-, Konsistenz- oder Übungseffekten

Reliabilität sicherstellen: Zwei Zeitpunkte
Test-Retest-Reliabilität r(Index)tt
 * Durchführung des gleichen Tests zu zwei Zeitpunkten und Korrelationen der Ergebnisse
 * Je größer der Zusammenhang der Ergebnisse, desto höher die Reliabilität
 * Achtung: Beachten eines sinnvollen Zeitintervalls

Annahmen: Das Merkmal ist stabil über den Zeitraum, der zwischen zwei Testungen liegt. Die Messfehler beeinflussen die Erhebung des Merkmals zu beiden Zeitpunkten gleich stark.

Paralleltests r(Index)t1t2:
 * Erstellen von zwei vergleichbaren Tests
 * Möglich bei Leistungstests (z.B. gleiche Rechenoperation, andere Zahlen)
 * Schwierig bei Persönlichkeitstest, da große Anzahl Items erforderlich
 * Reliabilität ermittelt, in dem Teilnehmende beide Tests machen (Lern- und Erinnerungseffekte verringert/umgangen)

Annahmen:  Das Merkmal ist stabil über den Zeitraum, der zwischen zwei Testungen liegt. Die Messfehler beeinflussen die Erhebung des Merkmals zu beiden Zeitpunkten gleich stark. Beide Versionen messen das Merkmal gleich gut.

Objektivität

 * Durchführung: Testergebnis ist unabhängig von der Testleitung (Art der Durchführung, aber auch Eigenschaften der Person)
 * Auswertung: Das Gesamtergebnis eines Tests, basierend auf den Antworten zu einzelnen Items, ist unabhängig von der/dem AuswerterIn
 * Interpretation: Die Bewertung des Gesamtergebnis eines Testes ist unabhängig von der/dem BewerterIn

Objektivität sicherstellen

 * Durchführung: standardisierte Anleitung (z.B. schriftliche Instruktionen), Training der Testleitung (z.B. bei Interviews, Tests mit Kleinkindern), Anleitung bei ungewöhnlichen Ereignissen (z.B. Nachfragen der Versuchsperson)
 * Auswertung: standardisierte Auswertung (z.B. MC-Aufgaben richtige Antworten, Korrekturschlüssel für offene Aufgaben, Kodierungsschemata für Antworten im Interview)
 * Interpretation: Einigung auf Standards (z.B. objektive Kriterien, Wert relativ zu einer Normstichprobe)

= Nebengütekriterien =