Antwort auf den Gegenstand - Anwendungen und Test
Im Bereich von Theorie psychometrischer Tests Es sind verschiedene Konfessionen aufgetaucht, die derzeit den Namen "Theorie der Gegenstandsantwort" tragen (F. M. Lord, 1980). Diese Bezeichnung weist einige Unterschiede zum klassischen Modell auf: 1. Die Beziehung zwischen dem erwarteten Wert der Bewertungen des Subjekts und dem Merkmal (das für die Werte verantwortliche Merkmal) ist normalerweise nicht linear. 2. beabsichtigt, individuelle Vorhersagen zu treffen, ohne sich auf die Merkmale der normativen Gruppe beziehen zu müssen.
Das könnte Sie auch interessieren: Klassische Testtheorie Index- Theorie der Antwort auf den Gegenstand oder die Modelle des latenten Merkmals in der Theorie der Tests
- Modelle der Item-Response-Theorie (Tri)
- Abschätzung der Parameter
- Testaufbau
- Anwendungen der Item-Response-Theorie
- Interpretation der Ergebnisse
Theorie der Antwort auf den Gegenstand oder die Modelle des latenten Merkmals in der Theorie der Tests
Wir sehen also, dass diese Theorie der Antwort auf den Gegenstand die Möglichkeit bietet, den Gegenstand sowie die Einzelpersonen getrennt zu beschreiben; Es ist auch der Ansicht, dass die Antwort des Subjekts von der Fähigkeitsstufe abhängt, die in dem betrachteten Bereich liegt. Der Ursprung dieser Modelle geht auf Lazarsfeld (1950) zurück, der den Begriff "latentes Merkmal" einführte. .
Von hier aus wird davon ausgegangen, dass jedes Individuum einen individuellen Parameter besitzt, der für die Merkmale des Subjekts verantwortlich ist, auch "Merkmal" genannt. Dieses Merkmal ist nicht direkt messbar, daher wird der einzelne Parameter als latente Variable bezeichnet. Beim Anwenden der Tests können Sie zwei verschiedene Dinge erhalten, den wahren Score und die Fitness-Skala. Dies wird erreicht, wenn wir zwei Tests mit derselben Eignung an dieselbe Gruppe bestehen.
In der Latent Trait-Theorie oder der Antwort auf den Gegenstand Die wahre Bewertung ist der Wert, der von der beobachteten Bewertung erwartet wird. Laut Lord sind das wahre Ergebnis und die Fitness dasselbe, werden jedoch in unterschiedlichen Maßstäben ausgedrückt.
Modelle der Item-Response-Theorie (Tri)
Binomiale Fehlermodelle: wurden von Lord (1965) eingeführt, die davon ausgehen, dass die beobachtete Bewertung der Anzahl der richtigen Antworten entspricht, die im Test erhalten wurden (deren Elemente alle dieselbe Schwierigkeit und lokale Unabhängigkeit aufweisen, d. H. Die Wahrscheinlichkeit) richtig auf ein Element zu reagieren, ist von den Antworten auf andere Elemente nicht betroffen).
Poisson-Modelle: Diese Modelle eignen sich für Tests, die eine große Anzahl von Elementen enthalten und bei denen die Wahrscheinlichkeit einer korrekten oder falschen Antwort gering ist. In dieser Gruppe wiederum haben wir verschiedene Modelle:
- Poissons Rasch-Modell, Die Hypothesen lauten: Jeder Test verfügt über eine große Anzahl von binären Elementen, die lokal unabhängig sind. Die Fehlerwahrscheinlichkeit in jedem Artikel ist gering. Die Wahrscheinlichkeit, dass das Subjekt einen Fehler macht, hängt von zwei Dingen ab: der Schwierigkeit des Tests und der Eignung des Subjekts. die Additivität der Schwierigkeiten, verstanden als Ergebnis der Mischung zweier äquivalenter Prüfungen in einer einzigen Prüfung, deren Schwierigkeit die Summe der Schwierigkeiten der beiden anfänglichen Prüfungen ist.
- Poisson-Modell zur Bewertung der Geschwindigkeit: Dieses Modell wurde ebenfalls von Rasch vorgeschlagen und zeichnet sich dadurch aus, dass die Geschwindigkeit bei der Durchführung des Tests berücksichtigt wird. Das Modell kann auf zwei Arten aufgestellt werden: Zählen Sie die Anzahl der begangenen Fehler und die gelesenen Wörter in einer Zeiteinheit. Zählen Sie die Anzahl der begangenen Fehler und die Zeit, die zum Lesen des Textes benötigt wird. Die Wahrscheinlichkeit der Realisierung einer bestimmten Anzahl von Wörtern eines Tests (i) durch ein Subjekt (j) während einer Zeit (t)
- Ojiva Normale Modelle: ist ein von Lord (1968) vorgeschlagenes Modell, das in Tests mit dichotomen Elementen und mit nur einer gemeinsamen Variablen verwendet wird und deren Graph wie folgt aussehen würde: Die Grundannahmen, die dieses Modell kennzeichnen, sind:
- der Raum der latenten Variante ist eindimensional (k = 1).
- lokale Unabhängigkeit zwischen Intems.
- Die Metrik für die latente Variable kann so gewählt werden, dass die Kurve jedes Elements der normale Gefechtskopf ist.
Logistische Modelle; Es ist ein Modell, das dem vorherigen sehr ähnlich ist, aber es hat auch mehr Vorteile gegenüber seiner mathematischen Behandlung. Die Logistikfunktion hat folgende Form: Je nach Anzahl der Parameter gibt es verschiedene Logistikmodelle:
- Logistisches Modell mit 2 Parametern, Birnbaum 1968, unter seinen Eigenschaften erwähnen wir, dass es eindimensional ist, dass es lokale Unabhängigkeit gibt, die Elemente dichotom sind usw.
- 3 Parameter Logistikmodell, Herr, wird dadurch charakterisiert, dass die Wahrscheinlichkeit des richtigen Schätzens ein Faktor ist, der die Leistung des Tests beeinflusst. 4.3. 4-Parameter-Logistikmodell: Von McDonald 1967 und Barton-Lord im Jahr 1981 vorgeschlagenes Modell, dessen Zweck es ist, die Fälle zu erläutern, in denen Probanden mit einem hohen Fitness-Level nicht richtig auf den Gegenstand reagieren.
- Logistisches Modell von Rasch: Dieses Modell hat trotz des Nachteils die größte Anzahl von Jobs generiert, dh die Anpassung an reale Daten ist schwieriger. Im Gegensatz dazu ist der Vorteil, dass es so häufig verwendet wird, dass es nicht groß ist Mustergrößen für Ihre Anpassung.
Abschätzung der Parameter
Die am häufigsten verwendete Methode ist Maximum Likelihood. Neben dieser Methode werden numerische Näherungsverfahren wie Newton-Raphson und Scoring (Rao) verwendet. Das Maximum-Likelihood-Verfahren basiert auf dem Prinzip, Schätzer der unbekannten Parameter zu erhalten, die die Wahrscheinlichkeit des Erhaltens der Abtastwerte maximieren. Neben der Maximum-Likelihood-Methode wird auch die Bayes'sche Schätzung verwendet, basierend auf dem Bayes-Theorem, das darin besteht, alle bekannten Informationen a priori zu integrieren, die für den Prozess der Schlussfolgerungen relevant sind. Eine eingehendere Untersuchung der Bayes'schen Methode zur Abschätzung von Fitnessparametern ist die von Birnbaum (1996) und Owen (1975). .
INFORMATIONSFUNKTIONEN
Der beste Test, der konstruiert werden kann, ist derjenige, der die meisten Informationen über das latente Merkmal liefert. Die Quantifizierung dieser Informationen erfolgt über die "Informationsfunktionen". Die Formel der Informationsfunktion, Birnbaum 1968, lautet wie folgt: Es ist zu berücksichtigen, dass die Informationen, die in einem Test erhalten werden, die Summe der Informationen jedes Elements sind, außerdem hängt der Beitrag jedes Elements nicht vom Rest der Elemente ab das macht den Test aus. Im Allgemeinen können wir sagen, dass die Informationen in allen Modellen:
- variiert mit dem Fitnesslevel.
- Je größer die Steigung der Kurve, desto mehr Informationen.
- abhängig von der Varianz der Ergebnisse, je höher diese ist, desto weniger Informationen werden angezeigt.
Testaufbau
Die erste Aufgabe und eine der wichtigsten zum Zeitpunkt der Erstellung eines Tests ist die Auswahl der Elemente, der vorherige Akkord der theoretischen Annahmen, die das Merkmal definieren müssen, das der Test messen soll. Das Konzept "Elementanalyse" bezieht sich auf die Menge der formalen Verfahren, die ausgeführt werden, um die Elemente auszuwählen, die schließlich den Test bilden. Die Informationen, die in Bezug auf die Elemente als am wichtigsten angesehen werden, sind:
- Schwierigkeit des Artikels, Prozentsatz der Personen, die ihn korrigieren.
- Diskriminierung, Korrelation jedes Elements mit der Gesamtpunktzahl des Tests.
- Distraktoren oder Fehleranalysen, deren Einfluss relevant ist, wirken sich auf die Schwierigkeit des Gegenstands aus und lassen die Werte der Diskriminierung unterschätzen.
Zum Zeitpunkt der Festlegung von Indikatoren für die verschiedenen Indizes werden normalerweise Statistiken oder Indizes verwendet, wobei die folgenden am häufigsten verwendet werden:
Schwierigkeitsgrad Index von Diskriminierung Zuverlässigkeitsindex Gültigkeitsindex Bekannte Indizes, die bei der Auswahl der Elemente, die den Test bilden sollen, berücksichtigt werden müssen, sehen wir, welche Schritte für den Aufbau eines Tests erforderlich sind:
- Spezifikation des Problems.
- Verkünden Sie eine Vielzahl von Elementen und debuggen Sie sie.
- Wahl des Modells.
- Testen Sie die vorgewählten Elemente.
- Wählen Sie die besten Artikel aus.
- Studieren Sie die Qualitäten des Tests
- Legen Sie die Interpretationsnormen für den abschließenden Test fest.
Aus den vorstehenden Punkten ist zu beachten, dass die Wahl des Modells, Punkt 3, von den mit dem Test verfolgten Zielen, den Merkmalen und der Qualität der Daten sowie den verfügbaren Ressourcen abhängt. Wenn ein Modell gewählt wird, unter den theoretischen Bedingungen, unter denen es angewendet werden kann, nein trotz seiner Tugenden müssen in jedem Fall und den spezifischen Umständen analysiert werden. Die Eigenschaften, die diesen Modellen zugeordnet werden können Theorie der Antwort auf den Gegenstand (TRI), kann betroffen sein von:
- Die Dimensionalität des Tests Die knappe Verfügbarkeit von Stichprobenmangel an Computerressourcen Es gibt eine Reihe von Präferenzen bei der Verwendung des einen oder anderen Modells: Lassen Sie uns eines betrachten: Normale Sprengkopfmodelle werden normalerweise nicht in Anwendungen verwendet, ihr Wert ist theoretisch.
- Rasch: geeignet für den horizontalen Vergleich (vergleichbare Tests der Schwierigkeitsgrade bei ähnlichen Fitnessverteilungen). verschiedene Formen des gleichen Tests haben. * 2- und 3-Parameter: Dies sind die Parameter, die für eine Vielzahl von Problemen am besten geeignet sind.
- fehlerhafte Antwortmuster zu erkennen. für den vertikalen Abgleich von Tests (Vergleichen Sie Tests mit verschiedenen Schwierigkeitsgraden und unterschiedlichen Verteilungen für die Fitness).
Parameter 1 und 2:
- geeignet für den Bau einer einzelnen Skala, so dass Sie die Fähigkeiten auf verschiedenen Ebenen vergleichen können.
Die Wahl des Modells kann zusätzlich zum angestrebten Zweck von der Größe der Stichprobe beeinflusst werden. Wenn die Stichprobe groß und repräsentativ ist, gibt es kein Problem, weder beim klassischen Modell noch beim latenten Merkmal. Aber im TRI ( Artikelantworttheorie ) Ein kleines Beispiel zwingt Sie zur Auswahl von Modellen mit einer kleinen Anzahl von Parametern, sogar dem Uniparameter-Modell.
Anwendungen der Item-Response-Theorie
Schauen wir uns an, welche Anwendungen am häufigsten eingesetzt werden: a) Vergleich der Tests, manchmal ist es notwendig, die in verschiedenen Tests erzielten Bewertungen mit zwei möglichen Zwecken in Beziehung zu setzen:
- Horizontalausgleich: Es wird versucht, verschiedene Formen des gleichen Tests zu erhalten.
- Vertikaler Ausgleich: Ziel ist es, eine einzige Eignungsskala mit unterschiedlichen Schwierigkeitsgraden zu erstellen. In Bezug auf den Testausgleich führt Lord (1980) das Konzept der "Gerechtigkeit" ein, was bedeutet, dass für jedes Subjekt zwei Tests austauschbar sind, da angewendet wird, dass das eine oder das andere die geschätzte Eignung nicht ändert. für das Thema.
Bei der Untersuchung der Verzerrung der Elemente wird ein Element verzerrt, wenn es im Durchschnitt signifikant unterschiedliche Bewertungen in bestimmten Gruppen gibt, die Teil derselben Population sein sollen.
Tests angepasst oder Durchschnitt , Durch das TRI können individualisierte Tests erstellt werden, mit denen der tatsächliche Wert des betreffenden Merkmals genauer ermittelt werden kann. Die Elemente werden nacheinander verwaltet. Die Vorgabe für das eine oder andere Element hängt von den oben angegebenen Antworten ab. Es gibt verschiedene Arten von angepassten Tests. Wir weisen auf Folgendes hin:
- zweistufiges Verfahren, Lord 1971; Bertz und Weiss 1973 - 1974. Ein Test wird zuerst bestanden und abhängig von den Ergebnissen wird ein zweiter Test durchgeführt.
- Verfahren in mehreren Schritten ist das gleiche wie das vorhergehende, nur der Prozess umfasst mehrere Stufen.
- Festes Verzweigungsmodell, Lord 1970, 1971, 1974; Mussio 1973. Alle Probanden lösen den gleichen Gegenstand, abhängig von der Antwort wird ein Satz von Gegenständen gelöst.
- Ein variabel verzweigtes Modell basiert auf der Unabhängigkeit zwischen den Elementen und den Eigenschaften der Maximum-Likelihood-Schätzer.
Bank von Gegenständen, Mit einer großen Anzahl von Elementen wird die Qualität des Tests verbessert. Dafür müssen die Elemente jedoch zunächst einen Debugging-Prozess durchlaufen. Um die Artikel klassifizieren zu können, muss berücksichtigt werden, welche Funktion den Test messen soll, zu dem dieser Artikel gehört..
Interpretation der Ergebnisse
Skalen: Der Zweck besteht darin, ein Kontinuum zur Verfügung zu stellen, um die relative Größe des bewerteten Merkmals zu ordnen, zu klassifizieren oder zu wissen. Dies wird es uns ermöglichen, Unterschiede und Ähnlichkeiten in Bezug auf dieses Merkmal festzustellen. Die in der Psychologie verwendeten Skalen sind: nominal, ordinal, Intervall und Grund; Diese Skalen werden aus den Ergebnissen der Tests konstruiert, Ergebnisse, die als "direkte Bewertungen" bezeichnet werden. .
Typisieren Um einen Test zu typisieren, werden die direkten Bewertungen in andere umgewandelt, die leicht interpretierbar sind, da die typisierte Bewertung die Position des Subjekts in Bezug auf die Gruppe anzeigt und uns Vergleiche zwischen Inhalten und Intersubjekten ermöglicht. Es gibt zwei Arten der Eingabe:
- Linear, behält die Form der Verteilung bei und ändert die Größe der Korrelationen nicht.
- Nicht linear halten sie nicht die Verteilung oder die Größe der Korrelationen .
Fitness-Skala Beim TRI ist die Skala diejenige, die der Fitnessstufe entspricht. Diese Skala ist dadurch gekennzeichnet, dass die Schätzungen und Referenzen direkt in Bezug auf die Eignung und deren Skala gemacht werden. Darüber hinaus hängt diese geschätzte Fähigkeit nur von der Form der Kennlinie der Artikel ab. Innerhalb der möglichen Skalen geben wir zwei an:
- Scale, vorgeschlagen von Woodcock (1978) und wird durch die folgende Formel definiert:
- WITS-Skala, vorgeschlagen von Wright (1977), diese Skala ist eine Modifikation der vorherigen und wird durch die folgende Beziehung gegeben: