Klassische Theorie des Tests

Klassische Theorie des Tests / Experimentelle Psychologie

Ein Test ist ein wissenschaftliches Instrument soweit es das misst, was es beabsichtigt, das heißt, es ist gültig, und es misst gut, das heißt, es ist präzise oder zuverlässig. Wenn wir ein Instrument finden, auf das wir den von ihnen gelieferten Maßnahmen nicht vertrauen können, da sie sich von Zeit zu Zeit unterscheiden, wenn wir dasselbe Objekt messen, werden wir sagen, dass es nicht zuverlässig ist. Ein Instrument zum Messen richtig Etwas muss genau sein, denn sonst messen Sie, was Sie messen, und messen Sie es falsch. Genau zu sein ist daher eine notwendige, aber keine ausreichende Bedingung. Außerdem muss es gültig sein, das heißt, was genau gemessen wird, ist das, was es messen soll, und nichts anderes.

Sie könnten auch interessiert sein: Item Response Theory - Anwendungen und Test

Zuverlässigkeit:

Absolute und relative Zuverlässigkeit: Wir können das Problem der Zuverlässigkeit eines Tests auf zwei verschiedene Arten angehen, obwohl sie im Hintergrund zusammenfallen.

Zuverlässigkeit als Ungenauigkeit seiner Messungen: Wenn ein Proband auf einen Test anspricht, erhält er eine empirische Bewertung, die von einem Fehler beeinflusst wird. Wenn es keinen Fehler gab, würde das Subjekt seine wahre Punktzahl erhalten. Der Test ist ungenau, da die empirische Bewertung nicht der wahren wahren Bewertung entspricht. Dieser Unterschied zwischen beiden Werten ist der Abtastfehler, der Messfehler. Die typischer Messfehler wird sein die Standardabweichung von Messfehlern. Die typischer Messfehler gibt die absolute Genauigkeit des Tests an, da damit die Differenz zwischen der erhaltenen Messung und derjenigen geschätzt werden kann, die ohne Fehler erhalten würde.

Zuverlässigkeit als Stabilität der Messungen: Ein Test ist zuverlässiger, je konstanter oder stabiler die Ergebnisse sind, wenn er wiederholt wird. Je stabiler die Ergebnisse in zwei Fällen sind, desto größer ist die Korrelation zwischen ihnen. Diese Korrelation wird aufgerufen Zuverlässigkeitskoeffizient. Dies drückt uns nicht die Menge des Fehlers aus, sondern die Kohärenz des Tests mit sich selbst und die Konstanz der angebotenen Informationen. Die Zuverlässigkeitskoeffizient drückt die relative Zuverlässigkeit des Tests aus.

Der Zuverlässigkeitskoeffizient und der Zuverlässigkeitsindex: - Der Zuverlässigkeitskoeffizient Ein Test ist die Korrelation des Tests mit sich selbst, die zum Beispiel in zwei parallelen Formen erhalten wird: rxx. - Der Präzisionsindex ist die Korrelation zwischen den empirischen Bewertungen eines Tests und seinen wahren Bewertungen: rxv Der Genauigkeitsindex ist immer größer als der Zuverlässigkeitskoeffizient. Um den Zuverlässigkeitskoeffizienten herauszufinden, sind diese drei klassischen Methoden erwähnenswert:

  • Finden Sie die Korrelation zwischen dem Test und seiner Wiederholung: Die Methode der Wiederholungs- oder Test-Retest-Methode: Sie besteht darin, denselben Test zweimal auf dieselbe Gruppe anzuwenden und die Korrelation zwischen den beiden Wertungsreihen zu berechnen. Diese Korrelation ist der Zuverlässigkeitskoeffizient. Dieses Verfahren ergibt normalerweise einen höheren Zuverlässigkeitskoeffizienten als andere Verfahren und können durch Störfaktoren kontaminiert werden.
  • Finden Sie die Korrelation zwischen zwei parallelen Formen des Tests: Die Methode der parallelen Formen: Bereiten Sie zwei parallele Formen des gleichen Tests vor, dh zwei äquivalente Formen, die die gleichen Informationen liefern, und gelten für dieselbe Gruppe von Probanden. Die Korrelation zwischen den beiden Formen ist der Zuverlässigkeitskoeffizient. Bei diesem Verfahren werden störende Quellen für die Zuverlässigkeit des erneuten Tests vermieden, indem derselbe Test nicht wiederholt wird.
  • Finden Sie die Korrelation zwischen zwei parallelen Testhälften: Die Methode mit zwei Hälften: Teilen Sie den Test in zwei äquivalente Hälften und ermitteln Sie die Korrelation zwischen ihnen. Dies ist die bevorzugte Methode, da sie einfach ist und die Einschränkungen der vorherigen Verfahren ignoriert. Sie können die ungeraden Elemente des Tests auswählen, um eine Hälfte und die geraden Elemente die andere zu bilden.

Der Zuverlässigkeitskoeffizient und die Korrelation zwischen parallelen Tests

Die Zuverlässigkeitskoeffizient eines Tests gibt den Anteil an, in dem die wahre Varianz der empirischen Varianz liegt Grafik33 Der Zuverlässigkeitskoeffizient eines Tests variiert zwischen 0 und 1. Zum Beispiel: Wenn die Korrelation zwischen zwei parallelen Tests rxx ist´ = 0,80, bedeutet, dass 80% der Varianz des Tests auf die tatsächliche Messung zurückzuführen ist und der Rest, dh 20% der Varianz des Tests, auf den Fehler zurückzuführen ist. Die Zuverlässigkeitsindex Ein Test ist die Korrelation zwischen seinen empirischen Bewertungen und seinen wahren Bewertungszahlen. Zuverlässigkeitsindex = Der Zuverlässigkeitsindex ist gleich der Quadratwurzel des Zuverlässigkeitskoeffizienten

Wenn zwei parallele Testformen entwickelt wurden, wird das Varianzanalyseverfahren angewendet, um die Homogenität der Varianzen und die Differenz zwischen den Messungen zu überprüfen. Wenn die Varianzen homogen sind, der Unterschied zwischen den Mitteln nicht signifikant ist und die beiden Formen aus der gleichen Anzahl von Elementen des gleichen Typs und des gleichen psychologischen Inhalts bestehen, können sie als parallel bezeichnet werden. Wenn nicht, müssen Sie sie reformieren, bis sie es sind. Die mangelnde Zuverlässigkeit wird mit dem rxx-Wert identifiziert´= 0 4.- Der typische Messfehler: Der Unterschied zwischen der empirischen und der tatsächlichen Bewertung ist der Zufallsfehler, der als Messfehler bezeichnet wird. Die Standardabweichung der Messfehler wird als typischer Messfehler bezeichnet. Die typischer Messfehler erlaubt es, Schätzungen über die absolute Zuverlässigkeit des Tests vorzunehmen, dh abzuschätzen, wie stark sich ein Messfehler auf eine Punktzahl auswirkt.

Zuverlässigkeit und Länge: Die Länge des Tests bezieht sich auf die Anzahl seiner Elemente. Die Zuverlässigkeit hängt von dieser Länge ab. Wenn ein Test aus drei Elementen besteht, kann ein Proband einmal eine Punktzahl von 1 und in einer anderen oder parallel dazu eine Punktzahl von 1 erreichen

Von einem Anlass zum anderen haben sich die Punkte um einen Punkt verändert; Ein Punkt über drei ist eine Abweichung von 33%, eine hohe Abweichung. Wenn die Testpersonen zufällige Variationen dieses Typs erhalten, wird die Korrelation des Tests mit sich selbst oder mit den beiden parallelen Testformen stark reduziert und kann nicht hoch sein. Wenn der Test viel länger ist und Sie beispielsweise 100 Artikel haben, kann ein Proband 70 Punkte und 67 Punkte gleichzeitig erhalten. Von einem zum anderen hat es 3 Punkte geändert; es ist eine relativ kleine Abweichung im Verhältnis zum Gesamttest, speziell 3%. Diese kleinen zufälligen Änderungen dieser Größenordnung, die in den Bewertungen der Probanden vorkommen, wenn sie von einer Form zur nächsten übergehen, sind relativ unwichtig und werden nicht so sehr abnehmen wie vor der Korrelation zwischen beiden.

Der Zuverlässigkeitskoeffizient ist viel höher als im vorherigen Fall. Die Spearman-Brown-Gleichung drückt die Beziehung zwischen Zuverlässigkeit und Länge aus. Die Genauigkeit eines Tests ist null, wenn die Länge 0 ist, und nimmt mit zunehmender Länge zu. Der Anstieg ist zwar relativ geringer, da die Länge des Teils größer ist. Dies bedeutet, dass die Präzision zu Beginn und relativ wenig später stark zunimmt. Wenn die Länge gegen unendlich geht, neigt der Zuverlässigkeitskoeffizient dazu

Durch Erhöhen der Länge eines Tests wird die Genauigkeit erhöht, da die wahre Varianz höher als die Fehlervarianz erhöht wird. Dies bedeutet, dass die Genauigkeit des Tests steigt, da der Varianzanteil aufgrund des Fehlers abnimmt. Die Formel von Rulon sowie die Formel von Flanagan und Guttman sind besonders anwendbar, wenn der Zuverlässigkeitskoeffizient nach der Methode der beiden Hälften berechnet wird. Dies sind Formeln, die zur Berechnung des Zuverlässigkeitskoeffizienten verwendet werden.

Zuverlässigkeit und Konsistenz: Der Zuverlässigkeitskoeffizient kann auch auf andere Weise ermittelt werden, es ist der sogenannte Alpha-Koeffizient o Generalisierbarkeitskoeffizient oder Repräsentativität (Cronbach). Dieser Alpha-Koeffizient gibt an, mit welcher Genauigkeit einige Elemente einen Aspekt der Persönlichkeit oder des Verhaltens messen. Es kann interpretiert werden als: Eine Schätzung der durchschnittlichen Korrelation aller möglichen Elemente in einem bestimmten Aspekt. Ein Maß für die Genauigkeit des Tests gemäß seiner Kohärenz oder inneren Konsistenz (Zusammenhang zwischen seinen Elementen, in welchem ​​Maße die Testelemente alle gleich messen) und ihrer Länge. Angabe der Repräsentativität des Tests, d. H. Der Menge, in der die Stichprobe der Elemente, aus denen er besteht, repräsentativ für die Anzahl möglicher Artikel desselben Typs und psychologischen Inhalts ist. Die Alpha-Koeffizient spiegelt hauptsächlich zwei grundlegende Begriffe in der Genauigkeit eines Tests wider: 1. Die Wechselbeziehung zwischen seinen Elementen: das Ausmaß, in dem sie alle dasselbe messen.

Die Dauer des Tests: Durch Erhöhen der Anzahl von Fällen in einer Stichprobe und wenn systematische Fehler beseitigt werden, repräsentiert die Stichprobe die Population, aus der sie entnommen wurde, besser und es ist unwahrscheinlicher, dass ein zufälliger Fehler vorliegt. Wenn die Testobjekte dichotom sind (Ja oder Nein, 1 oder 0, Übereinstimmung oder Nichtübereinstimmung usw.), wird die Gleichung des Alpha-Koeffizienten vereinfacht, wodurch sich die Gleichungen von ergeben Kuder-Richardson (KR20 und KR21). Bei einer bestimmten Anzahl von Elementen ist ein Test zuverlässiger, wenn er homogener ist. Der Alpha-Koeffizient gibt uns die Zuverlässigkeit an, da er Homogenität und Konsistenz oder interne Konsistenz der Elemente eines Tests darstellt.

Standards und Zuverlässigkeitskriterien

Gemäß dem Modell des Probenraums der Gegenstände besteht das Ziel des Tests darin, das Maß zu schätzen, das erhalten würde, wenn alle Gegenstände im Probenraum verwendet würden. Dieses Maß wäre das wahre Ergebnis, an das sich die realen Maße mehr oder weniger annähern. Je nachdem, wie stark eine Stichprobe von Elementen mit den wahren Werten korreliert, ist der Test mehr oder weniger zuverlässig. In diesem Modell ist die Korrelationsmatrix zwischen allen Elementen im Probenraum von zentraler Bedeutung, da dieses Mustermodell eher auf der internen Konsistenz besteht und, sofern dies erreicht wird, indirekt die Stabilität gewährleistet..

Das lineare Modell der Paralleltests besteht mehr auf der Stabilität der Ergebnisse und in dem Maße, in dem es Stabilität erreicht, bevorzugt es indirekt die interne Konsistenz. Wenn wir einen Test durchführen, um individuelle Diagnosen und Prognosen zu erstellen, muss der Zuverlässigkeitskoeffizient zwischen 0,90 und darüber liegen. In Prognosen und kollektiven Klassifizierungen ist die Nachfrage nicht so groß, obwohl es nicht günstig ist, viel von 0,90 bis 0,80 wegzukommen..

Bei bestimmten Arten von Tests, z. B. bei Persönlichkeitstests, ist es manchmal schwierig, Koeffizienten von mehr als 0,70 zu erreichen. Wenn die parallelen Formen oder parallelen Hälften nach einem mehr oder weniger großen Intervall angewendet werden, können die Zufallsfehler zahlreicher sein als diejenigen, die den Alpha-Koeffizienten beeinflussen. Dies ist so, weil das, was die Korrelation verringert, nicht nur die zufälligen Fehler ist, die dem Test eigen sind und die den Alpha-Koeffizienten berücksichtigen, sondern auch alle Fehler beeinflussen, die aus den zwei verschiedenen Situationen stammen können , die sich in zahlreichen Details unterscheiden können. Daher ist der Alpha-Koeffizient normalerweise höher als die anderen Koeffizienten.

Mit Ausnahme des Koeffizienten, der durch Wiederholung desselben Tests gefunden wird, besteht eine höhere Wahrscheinlichkeit, dass die Zufallsfehler der ersten Anwendung in der zweiten wiederholt werden, und anstatt die Korrelation zwischen den beiden zu verringern, erhöhen sie ihn. Es muss sichergestellt sein, dass die zweite Anwendung völlig unabhängig von der ersten ist. Wenn wir dies erreichen, ist dies die einfachste und billigste Methode, wenn es darum geht, die Stabilität der Ergebnisse zu bewerten, insbesondere während langer Zeiträume und bei komplexen Tests. > Weiter: Gültigkeit der Tests