Journal articles: 'Testtheorie'

1

Verhelst, N. D. "Wat is moderne testtheorie?" Kind en adolescent 20, no. 3 (September 1999): 95–108. http://dx.doi.org/10.1007/bf03060736.

Full text

APA, Harvard, Vancouver, ISO, and other styles

2

Sterkele, Iris, Pierrette Baschung Pfister, Ruud Knols, and Eling D. de Bruin. "Eine Alternative zur klassischen Testtheorie? – Eine exemplarische Anwendung der Generalisierbarkeitstheorie auf der Basis von Sekundärdaten." physioscience 17, no. 01 (February 3, 2021): 25–33. http://dx.doi.org/10.1055/a-1201-6872.

Full text

Abstract:

Zusammenfassung Hintergrund Messungen bilden die Grundlage des wissenschaftsbasierten therapeutischen Vorgehens. Messfehler sind jedoch ein verbreitetes Problem. Um Fehlerquellen zu ermitteln, sind erweiterte statistische Modelle notwendig. Im Gegensatz zur klassischen Testtheorie ermöglicht die Generalisierbarkeitstheorie, mehrere Fehlerquellen gleichzeitig zu untersuchen. Ziel Vergleich der klassischen Testtheorie und der Generalisierbarkeitstheorie anhand eines physiotherapeutischen Beispiels zur Reliabilitätsermittlung und deren Ergebnisse. Methode Die Messeigenschaft „Reliabilität“ wurde anhand von Daten einer vorangegangenen Reliabilitätsstudie, in der die klassische Testtheorie zum Einsatz kam, untersucht. Dazu wurde exemplarisch eine Generalisierbarkeitsstudie durchgeführt. Ergebnisse Die Variabilität ging hauptsächlich von den Probanden und der Probanden-Untersucher-Interaktion aus. Unabhängig von fixen oder zufälligen Facetten waren die Generalisierbarkeitskoeffizienten für alle Bedingungen (overall, inter-rater, intra-Messzeitpunkte) exzellent. Schlussfolgerung Die Ergebnisse deuten darauf hin, dass die Generalisierbarkeitstheorie gegenüber der klassischen Testtheorie Vorteile hat. Diese ermöglicht es, einen wirkungsvollen und effizienten Einsatz von Messinstrumenten im klinischen Alltag zu ermitteln.

APA, Harvard, Vancouver, ISO, and other styles

3

Scheiblechner, Hartmann, and Rainer Lutz. "Die Konstruktion eines optimalen eindimensionalen Tests mittels nichtparametrischer Testtheorie (NIRT) am Beispiel des MR SOC." Diagnostica 55, no. 1 (January 2009): 41–54. http://dx.doi.org/10.1026/0012-1924.55.1.41.

Full text

Abstract:

Zusammenfassung. In diesem Beitrag werden zentrale Aspekte der nichtparametrischen Testtheorie (NIRT; Scheiblechner, 2007 ) am Beispiel eines Fragebogens zum Kohärenzsinn (MR SOC; Lutz, 2001 ) illustriert. Zuerst werden das Konstrukt des Kohärenzsinns und die Konstruktion des Fragebogens mittels Klassischer Testtheorie dargestellt. In den folgenden Kapiteln wird die Trennung in zwei Unterskalen (positiv und negativ) „blind” (d.h. ohne Kenntnis der Ergebnisse der klassischen Analyse und ohne Kenntnis des Iteminhalts) anhand der nichtparametrischen Testtheorie nachvollzogen. Die Ergebnisse stimmen hervorragend überein. Über die klassische Testtheorie hinaus bedeutet die Geltung des ISOP Modells den Nachweis einer homomorphen, d.h. strukturerhaltenden Abbildung der Strukturen in den Daten in die theoretischen Strukturen des Modells (Skalenwerte und deren Relationen). Die Eindimensionalität, die Geltung der Axiome der schwachen Unabhängigkeit, die spezifische Objektivität der geschätzten Parameter, die Optimalität der Parameterschätzungen und der scoring function (Auswertungsregeln) werden somit empirisch abgesichert. Die übliche Auswertungspraxis durch den Rohwert (die Summe der Einzelitem-Antworten) wird für diesen Test widerlegt, da die Wechselwirkungen zwischen Personenparameter bzw. Itemparameter und Antwortskala eine sinnvolle Aufsummierung der Antwortpunkte verhindern.

APA, Harvard, Vancouver, ISO, and other styles

4

Hohmann, Sandra. "Pospeschill, Markus: Testtheorie, Testkonstruktion, Testevaluation." Informationen Deutsch als Fremdsprache 39, no. 2-3 (June 1, 2012): 327–29. http://dx.doi.org/10.1515/infodaf-2012-2-375.

Full text

APA, Harvard, Vancouver, ISO, and other styles

5

Segerer, Robin, Alexandra Marx, and Peter Marx. "Unlösbare Items im KFT 4-12+R." Diagnostica 58, no. 1 (January 2012): 45–50. http://dx.doi.org/10.1026/0012-1924/a000057.

Full text

Abstract:

Zusammenfassung. Der vorliegende Beitrag weist darauf hin, dass im Kognitiven Fähigkeitstest für 4. bis 12. Klassen (Revision), Untertest Figurenanalogien, Parallelform B ( Heller & Perleth, 2000 ) neben einem bereits als unlösbar erkannten Item eine weitere unlösbare Aufgabe enthalten ist. Wir präsentieren die Itemkennwerte und Antwortmuster von 305 Schülerinnen und Schülern der 9. Jahrgangsstufe aus Hauptschulen in Berlin und Bayern. Itemanalysen auf Basis der Item-Response-Theorie und nach Klassischer Testtheorie belegen für das fragliche Item einen unzureichenden Itemfit für das eindimensionale Raschmodell sowie mangelnde Trennschärfe nach Klassischer Testtheorie. Die Distraktorenanalyse weist für dieses Item einen der Distraktoren als trennschärfer und für das Modell passender als das eigentliche Target aus.

APA, Harvard, Vancouver, ISO, and other styles

6

Yousfi, Safir. "Mythen und Paradoxien der klassischen Testtheorie (I)." Diagnostica 51, no. 1 (January 2005): 1–11. http://dx.doi.org/10.1026/0012-1924.51.1.1.

Full text

Abstract:

Zusammenfassung. Aus der klassischen Testtheorie (Spearman-Brown-Formel) wird gewöhnlich die Empfehlung abgeleitet, Tests aus möglichst vielen Items zusammenzustellen. Anhand mathematischer Ableitungen wird im folgenden Beitrag gezeigt, dass die Reliabilität und Validität einer Skala nur unter sehr strengen Voraussetzungen (Parallelität bzw. Rasch-Homogenität) zwingend mit zunehmender Testlänge ansteigen. Sind diese Voraussetzungen nicht erfüllt, so kann die Verlängerung eines Tests durchaus zu Einbußen bei den Gütekriterien führen. Auch bei zufälliger Itemselektion hängt es von den Eigenschaften des jeweiligen Itempools ab, ob mit zunehmender Testlänge Einbußen oder Verbesserungen der Testgüte zu erwarten sind. Ein negativer Zusammenhang der Testlänge mit der Reliabilität und Validität kann sich demnach nicht nur bei gezielter Auswahl der Items ergeben.

APA, Harvard, Vancouver, ISO, and other styles

7

Yousfi, Safir. "Mythen und Paradoxien der klassischen Testtheorie (II)." Diagnostica 51, no. 2 (April 2005): 55–66. http://dx.doi.org/10.1026/0012-1924.51.2.55.

Full text

Abstract:

Zusammenfassung. Aus der klassischen Testtheorie wird meist die Empfehlung abgeleitet, Tests aus möglichst trennscharfen Items zusammenzustellen. Die vorliegende Arbeit untersucht anhand mathematischer Formeln, in welchem Zusammenhang die Trennschärfe mit der Reliabilität und Validität von Items und Testwerten steht. Es zeigt sich, dass die Trennschärfe bei essenziell τ-äquivalenten und τ-kongenerischen Items ein sehr guter Indikator für die Reliabilität und Validität eines Items ist. Wenn die Korrelation der wahren Werte der Items gleich eins ist (τ-Kongenerität), wirkt sich die Itemselektion anhand der Trennschärfe in der Regel auch günstig auf die Gütekriterien des Tests aus. Auch bei unbekannter Beziehung zwischen den wahren Werten der Items eines Tests ist die Trennschärfe als Selektionskriterium durchaus geeignet, die Reliabilität eines Tests zu sichern. Besonders bei wenig reliablen Tests mit hoher Validität ist die Trennschärfe ebenfalls ein guter Indikator der Itemvalidität. Dennoch kann die Selektion von Items anhand der Trennschärfe im Allgemeinen keinen nennenswerten Beitrag zur Sicherung der Testvalidität leisten. Bei bekannter Itemvalidität wirkt sich ein Item umso günstiger auf die Validität des Tests aus, je geringer dessen Trennschärfe ist. Auch bei unbekannter Itemvalidität lassen sich durch die Trennschärfe allenfalls bei wenig reliablen, aber dennoch validen Tests solche Items identifizieren, die einen bedeutenden Einfluss auf die Validität haben. Bei unbekannter Beziehung zwischen den wahren Werten der Items sollte man bei der Testkonstruktion daher auf die Trennschärfe als Selektionskriterium eher verzichten und statt dessen andere Indikatoren der Itemvalidität verstärkt zu Rate zu ziehen.

APA, Harvard, Vancouver, ISO, and other styles

8

Völkl-Kernstock, Sabine, Nicolas Bein, Christian Klicpera, Heidrun Eichberger, and Max H. Friedrich. "Zur Vorgehensweise österreichischer Sachverständiger in Obsorge- und Besuchsrechtsverfahren - eine Bestandaufnahme gegenwärtiger Tätigkeit." Zeitschrift für Kinder- und Jugendpsychiatrie und Psychotherapie 35, no. 3 (May 2007): 199–205. http://dx.doi.org/10.1024/1422-4917.35.3.199.

Full text

Abstract:

Zusammenfassung: Fragestellung: Im Rahmen einer Österreich umfassenden Evaluierungsstudie wurden sämtliche gerichtlich zertifizierte Sachverständige (SV), die in Familienrechtsverfahren bestellt werden, per Fragebogen kontaktiert und eine Bestandaufnahme vorherrschender Begutachtungsmodalität und -praxis durchgeführt. Methodik: Ein auf den Regeln der Testtheorie basierender Fragebogen wurde dazu entwickelt. Ergebnisse: Bei einer Rücklaufquote von 33% (n = 25) ist eine grundsätzlich homogene Gewichtung der einzelnen Sorgerechtskriterien durch die SV erkennbar, bei jedoch unterschiedlich angewendeten Methoden und Testverfahren sowie fehlenden einheitlichen Theoriekonzepten. In Ergänzung zu der bisher verfahrensrechtlich möglichen Statusdiagnostik wird von den SV die lösungs- und prozessorientierte Begutachtungsmodalität mehrheitlich als anstrebenswert erachtet. Schlussfolgerungen: Aufgrund der Vakanz standardisierter Verfahren, die im Rahmen von Begutachtungen anwendbar sind, sollten psychologische Testverfahren zur Überprüfung einzelner Entscheidungskriterien nach den Regeln der Testtheorie entwickelt werden. Die Umsetzbarkeit des Ansatzes einer lösungs- bzw. prozessorientierten Sachverständigenarbeit unter Verfassung methodisch-theoretischer sowie normativer Rahmenbedingungen ist auf Ebene der SV und Juristen zu diskutieren.

APA, Harvard, Vancouver, ISO, and other styles

9

Rost, Jürgen. "Was ist aus dem Rasch-Modell geworden?" Psychologische Rundschau 50, no. 3 (July 1999): 140–56. http://dx.doi.org/10.1026//0033-3042.50.3.140.

Full text

Abstract:

Zusammenfassung. Das Rasch-Modell hat sich als Herausforderung an die klassische Testtheorie bei der Konstruktion und Entwicklung von Testinstrumenten nicht durchgesetzt, was wiederum der Meßtheorie von Rasch in der universitären Lehre einen nachrangigen Platz zuweist. In dem Beitrag wird argumentiert, daß das Rasch-Modell aus modelltheoretischer Perspektive heraus gar nicht als Konkurrent, sondern als komplementäres Modell zur klassischen Testtheorie zu verstehen ist. Die eigentlich neuen Impulse für eine Fortsetzung der Diskussion um die Rasch-Meßtheorie ergeben sich jedoch aus den Weiterentwicklungen, die dieses Gebiet aufzuweisen hat. Es werden fünf Richtungen der Verallgemeinerung des Rasch-Modells dargestellt, woraus ersichtlich wird, daß eine umfangreiche Familie von Modellen entstanden ist, die sich auf komplexere Datenstrukturen bezieht und auch komplexere Annahmen über die Antwortprozesse zu modellieren gestattet. Die kritischen Punkte der Rasch-Meßtheorie sind weniger in klassischen Vorbehalten gegenüber diesem Ansatz zu sehen, sondern ergeben sich aus epistemologischen Problemen der Modellgeltungstestung. Diese Probleme sind jedoch nicht spezifisch für die Rasch-Meßtheorie, sondern betreffen den Großteil der modernen statistischen Modellbildung.

APA, Harvard, Vancouver, ISO, and other styles

10

Melter, Albert, Ilona Hamann, Thomas Kutschke, and Ernst-Gerhard Storm. "Wissenschafts-Praxis-Forum." Zeitschrift für Personalpsychologie 1, no. 1 (January 2002): 35–41. http://dx.doi.org/10.1026//1617-6391.1.1.35.

Full text

Abstract:

Zusammenfassung. Der Praxisbericht befasst sich mit den Neuerungen der Eignungsdiagnostik der Bundeswehr. Unter dem Stichwort Qualitätssicherung werden neue Messmodelle, Anforderungsanalyseinstrumente und Bewährungskontrollen kurz vorgestellt. Es wird die Verwertung von Modellen der Diagnostik skizziert, die bisher eher selten genutzt werden: Probabilistische Testtheorie, adaptives, itemgeneratives und ambulantes Testen. Kurze Schlaglichter auf die Zukunft der Eignungsdiagnostik, zum Beispiel auf die Konstruktion von Paralleltests durch Computer und deren Nutzung für die Diagnostik über Datennetze, sollen die fachliche Diskussion anregen.

APA, Harvard, Vancouver, ISO, and other styles

11

Weller, Ingo, and Wenzel Matiaske. "Persönlichkeit und Personalforschung. Vorstellung einer Kurzskala zur Messung der „Big Five”." German Journal of Human Resource Management: Zeitschrift für Personalforschung 23, no. 3 (August 2009): 258–66. http://dx.doi.org/10.1177/239700220902300305.

Full text

Abstract:

In personalwirtschaftlich motivierten Studien müssen oftmals Persönlichkeitsmerkmale berücksichtigt werden. Die validierten Standardinstrumente der Persönlichkeitspsychologie sind aufgrund ihres Umfangs nur bedingt für diesen Zweck geeignet. Wir berichten über die Adaption eines englischsprachigen Kurzinstruments zur Messung der Big Five. Das übertragene Messinstrument wird an einer studentischen Stichprobe validiert, wozu wir neben klassischen Item- und Skalenanalysen sowie explorativen Faktorenanalysen konfirmatorische Multitrait-Multimethod-Matrizen einsetzen. Im Ergebnis zeigt sich, dass das Messinstrument mit relativ geringem Aufwand einsetzbar ist und den Gütemaßen der klassischen Testtheorie entspricht.

APA, Harvard, Vancouver, ISO, and other styles

12

Zierke, Oliver. "Automatisierte Paralleltestkonstruktion für die Personalauswahl." Zeitschrift für Personalpsychologie 4, no. 1 (January 2005): 28–38. http://dx.doi.org/10.1026/1617-6391.4.1.28.

Full text

Abstract:

Zusammenfassung. Mit der zufallsparallelen Itemauswahl von Gibson und Weiner (1996 , 1998 ) wird ein Verfahren aus der Klasse der automatisierten Testkonstruktion vorgestellt, das itembankgestütztes Testen mit den Parallelitätskriterien der Klassischen Testtheorie (KTT) verbindet. Zur Itemselektion werden lediglich die Itemparameter Schwierigkeit und Trennschärfe verwendet. Die resultierenden Testformen werden nach inhaltlichen und psychometrischen Kriterien zusammengestellt. Anhand eines Mathematik- und eines Techniktests wird die zufallsparallele Itemauswahl im Rahmen der Eignungsuntersuchung für Nachwuchsflugzeugführer als Testprinzip dargestellt und dessen Funktionalität hinsichtlich psychometrischer Gütekriterien diskutiert. Beide Tests erfüllten trotz jeweils unterschiedlicher Testformen für jeden Bewerber die geforderten Parallelitätskriterien und erwiesen sich als essentiell tau-äquivalent.

APA, Harvard, Vancouver, ISO, and other styles

13

Rogge, Alizé A., Felix Fischer, Lisa Otto, and Matthias Rose. "Empirische Erfassung patient*innenberichteter Merkmale: PROMs und PREMs." AINS - Anästhesiologie · Intensivmedizin · Notfallmedizin · Schmerztherapie 57, no. 02 (February 2022): 150–55. http://dx.doi.org/10.1055/a-1452-2788.

Full text

Abstract:

ZusammenfassungAuskünfte von Patient*innen über die eigene Lebensqualität, Erfahrungen in der Versorgung sowie individuelle Einschätzungen zu Therapieverläufen und -ergebnissen gewinnen zunehmend an Bedeutung. Patient*innenberichtete Merkmale können sich auf subjektive Informationen zur eigenen Gesundheit (Patient-reported Outcome Measures [PROMs]) oder auf objektive Informationen zur Erfahrung während des Behandlungsprozesses (Patient-reported Experience Measures [PREMs]) beziehen. Dieser Artikel gibt einen Überblick über die Gemeinsamkeiten und Unterschiede von PROMs und PREMs. Anschließend werden Möglichkeiten zur Erfassung von PROMs und PREMs vorgestellt und hierbei ein Einblick in die probabilistische Testtheorie (Item-Response-Theory) sowie in das computeradaptive Testen gegeben. Am Beispiel von nationalen und internationalen Initiativen wird die Umsetzung von PROMs und PREMs in Gesundheitssystemen dargestellt und zukünftige Implementierungsstrategien innerhalb eines Ausblicks diskutiert.

APA, Harvard, Vancouver, ISO, and other styles

14

Leibetseder, Max, Josef Unterrainer, Karoline Verena Greimel, and Thomas Köller. "Eine Kurzversion des Tinnitus-Fragebogens von Goebel und Hiller (1998)." Zeitschrift für Klinische Psychologie und Psychotherapie 30, no. 2 (April 2001): 118–22. http://dx.doi.org/10.1026/0084-5345.360.2.118.

Full text

Abstract:

Zusammenfassung.Theoretischer Hintergrund: Der Tinnitus-Fragebogen von Goebel und Hiller (1998) misst Tinnitus-Belastung durch sechs teilweise korrelierte Faktoren. Diese beruhen unter anderem auf Konstrukten der Informationsverarbeitung, wie irrationale Überzeugungen, Übergeneralisierungen und Attitüden der Hilflosigkeit. Fragestellung: In dieser Arbeit wurde eine Reanalyse des Tinnitus-Fragebogens unter Berücksichtigung seiner Item-Charakteristika vorgenommen. Methode: Der Tinnitus-Fragebogen wurde einer Stichprobe von 153 betroffener Personen vorgelegt und nach den Kriterien der klassischen Testtheorie geprüft. Ergebnisse: In einer Faktorenanalyse zeigte sich ein Faktor der Tinnitus-Belastung, welcher eine zufriedenstellende Reliabilität aufweist und signifikant mit konstruktnahen Merkmalen wie Depression, körperliches Allgemeinbefinden und Kontrollüberzeugungen korreliert. Schlussfolgerungen: Die Ergebnisse weisen die Kurzversion des Tinnitus-Fragebogens als ein den psychometrischen Testkriterien entsprechendes Instrument zur Messung tinnitusbezogener Beeinträchtigungen aus.

APA, Harvard, Vancouver, ISO, and other styles

15

Goldbeck, Lutz, and Markus Storck. "Das Ulmer Lebensqualitäts-Inventar für Eltern chronisch kranker Kinder (ULQIE):." Zeitschrift für Klinische Psychologie und Psychotherapie 31, no. 1 (January 2002): 31–39. http://dx.doi.org/10.1026/0084-5345.31.1.31.

Full text

Abstract:

Zusammenfassung. Theoretischer Hintergrund: Die Messung der Lebensqualität von Eltern gewinnt im Kontext einer familienorientierten psychosozialen Betreuung und Rehabilitation chronisch kranker Kinder an Bedeutung. Fragestellung: Angestrebt wurde die Entwicklung eines kurzen psychometrischen Selbstbeurteilungs-Instruments für die klinische Routineanwendung. Methode: Die Fragebogen-Konstruktion erfolgte entsprechend der klassischen Testtheorie, die Subskalen wurden faktorenanalytisch gebildet. Ergebnisse: Der 29 Items umfassende Fragebogen enthält die Dimensionen Leistungsfähigkeit, Zufriedenheit mit der familiären Situation, emotionale Belastung, Selbstverwirklichung und Allgemeinbefinden. Cronbach’s alpha beträgt für die Unterskalen zwischen .75 und .88, für die Gesamtskala .91, die Retest-Reliabilität liegt zwischen .69 und .86. Angaben zur Validität des Fragebogens werden mitgeteilt. Schlussfolgerungen: Mit dem ULQIE wird ein Fragebogen vorgestellt, der für die Diagnostik und Verlaufskontrolle zum Aspekt der Lebensqualität von Eltern chronisch kranker Kinder geeignet ist.

APA, Harvard, Vancouver, ISO, and other styles

16

Becker, Peter. "Das Trierer Integrierte Persönlichkeitsinventar." Diagnostica 48, no. 2 (April 2002): 68–79. http://dx.doi.org/10.1026//0012-1924.48.2.68.

Full text

Abstract:

Zusammenfassung. Das Trierer Integrierte Persönlichkeitsinventar (TIPI-Version 4) wurde nach dem eindimensionalen ordinalen Rasch-Modell konstruiert. Es umfasst 254 Items in 34 Skalen zur Messung der “normalen“ und “gestörten“ Persönlichkeit. Es wird über die Entwicklung des Verfahrens und vergleichende psychometrische Analysen nach dem Rasch-Modell und der klassischen Testtheorie an einer Eichstichprobe von 1026 Personen berichtet. Alle Skalen erfüllen die strengen Anforderungen das Rasch-Modells. Zwar korrelieren die Personenparameter sehr hoch mit den Skalensummenscores, doch liefern letztere verzerrte Messwerte im oberen und unteren Bereich der Verteilung. Eine Faktorenanalyse zeigt, dass dem TIPI vier breite Faktoren, die sogenannten “Big Four“, zugrunde liegen: Neurotizismus vs. seelische Gesundheit, Extraversion/Offenheit, Gewissenhaftigkeit/Kontrolliertheit und Unverträglichkeit vs. Verträglichkeit. Es wird geschlussfolgert, dass eine Fragebogenkonstruktion nach dem Rasch-Modell möglich ist und große Vorteile bietet.

APA, Harvard, Vancouver, ISO, and other styles

17

Braun, Edith, Burkhard Gusy, Bernhard Leidner, and Bettina Hannover. "Das Berliner Evaluationsinstrument für selbsteingeschätzte, studentische Kompetenzen (BEvaKomp)." Diagnostica 54, no. 1 (January 2008): 30–42. http://dx.doi.org/10.1026/0012-1924.54.1.30.

Full text

Abstract:

Zusammenfassung. Im Rahmen des Bologna-Prozesses werden europaweit Bachelor-Studiengänge eingeführt, deren Abschlüsse berufsqualifizierend sind. Die beteiligten Länder haben sich auf einen Qualifikationsrahmen, d.h. auf eine Liste von studienfachunspezifisch formulierten Kompetenzen verständigt, die in Lehrveranstaltungen vermittelt werden sollen. Inwieweit diese Kompetenzen tatsächlich von den Studierenden erworben werden, ist empirisch nachzuweisen. Bisherige Lehrveranstaltungsevaluationsinstrumente können zu diesem Zweck nur bedingt genutzt werden, denn sie messen eher den Prozess als das Ergebnis einer Veranstaltung. Deshalb haben wir ein Instrument entwickelt, das in sechs Subskalen mit insgesamt 29 Items den selbsteingeschätzten Zuwachs an Fach-, Methoden-, Präsentations-, Kommunikations-, Kooperations- sowie Personalkompetenz erhebt. In einer Stichprobe mit insgesamt 2507 Fragebögen wurde das Instrument entlang der klassischen Testtheorie überprüft. Die Ergebnisse zeigen gute Reliabilitäten und die Intraclass Correlations bestätigen die Messgenauigkeit auf Lehrveranstaltungsebene. Eine konfirmatorische Faktorenanalyse bestätigt die Konstruktvalidität. Weiter wurde die diskriminante Validität gegenüber einer Messung von Zufriedenheit geprüft.

APA, Harvard, Vancouver, ISO, and other styles

18

Lüdtke, Oliver, and Alexander Robitzsch. "Eine Einführung in die Plausible-Values-Technik für die psychologische Forschung." Diagnostica 63, no. 3 (July 2017): 193–205. http://dx.doi.org/10.1026/0012-1924/a000175.

Full text

Abstract:

Zusammenfassung. In der psychologischen Forschung durchgeführte Messungen zur Erfassung von Konstrukten sind meistens mit einem Messfehler behaftet. Diese Messfehler führen zu verzerrten Schätzern von Populationsparametern und deren Standardfehlern. In den letzten Jahrzehnten hat sich im Bereich der Large-Scale-Assessments mit der Plausible-Values-Technik ein Verfahren zur Korrektur von messfehlerbehafteten Zusammenhängen zwischen latenten Variablen und beobachteten Kovariaten etabliert. Der vorliegende Beitrag führt anhand eines einfachen Beispiels aus der Klassischen Testtheorie in dieses komplexe statistische Verfahren ein. Es wird gezeigt, dass alternative Verfahren zur Schätzung von Personenwerten im Allgemeinen zu verzerrten Schätzungen von Zusammenhängen auf Populationsebene führen. In einer Simulationsstudie werden diese Befunde auf ein IRT-Modell für dichotome Indikatoren übertragen. Aus diagnostischer Sicht wird betont, dass Plausible Values nicht zur Schätzung von individuellen Fähigkeitsausprägungen verwendet werden sollen. Abschließend werden methodische Herausforderungen bei der Anwendung der Plausible-Values-Technik sowie das Potential für die psychologische Forschung diskutiert.

APA, Harvard, Vancouver, ISO, and other styles

19

Beißert, Hanna, Meike Köhler, Marina Rempel, and Peter Kruyen. "Ein Vergleich traditioneller und computergestützter Methoden zur Erstellung einer deutschsprachigen Need for Cognition Kurzskala." Diagnostica 66, no. 1 (January 2020): 37–49. http://dx.doi.org/10.1026/0012-1924/a000242.

Full text

Abstract:

Zusammenfassung. Die vorliegende Arbeit dient der Entwicklung einer Kurzskala zur Messung von Need for Cognition (NFC). Neben traditionellen Verfahren der Itemreduktion auf Basis von Itemkennwerten der klassischen Testtheorie wurde in Studie 1 ( N = 282) ein neues, computergestütztes Verfahren des „full information approach“ vorgestellt. Mithilfe der beiden Verfahren wurden 3 mögliche Skalen mit jeweils 5 Items selektiert, welche in einem unabhängigen Datensatz in Studie 2 ( N = 530) Validierungskriterien unterzogen wurden. Aus den 3 Skalen mit ähnlichen Ergebnissen bezüglich der Gütekriterien wurde eine anhand der „full information approach“ erstellten Skalen als finale Kurzskala NFC-K ausgewählt. Diese NFC-K weist ein Cronbachs α von .69 auf, eine Korrelation mit der Langskala von .81 und keinen signifikanten Zusammenhang mit sozialer Erwünschtheit. Neben der systematischen und objektiven Selektion und Validierung der Kurzskala NFC-K stellt die vorliegende Arbeit auch eine Fallstudie zu den Herausforderungen der Kurzskalenentwicklung auf Basis klassischer und computergestützter Selektionsverfahren dar.

APA, Harvard, Vancouver, ISO, and other styles

20

Carroll, John B. "Book Review : Modeme Testtheorie: Ein Abriß Samt Neuesten Beiträgen [Modern Test Theory: A Brief Survey, With Recent Contributions]." Applied Psychological Measurement 13, no. 4 (December 1989): 435–38. http://dx.doi.org/10.1177/014662168901300411.

Full text

APA, Harvard, Vancouver, ISO, and other styles

21

Schahn, Joachim, Marinella Damian, Uta Schurig, and Christina Füchsle. "Konstruktion und Evaluation der dritten Version des Skalensystems zur Erfassung des Umweltbewußtseins (SEU-3)." Diagnostica 46, no. 2 (April 2000): 84–92. http://dx.doi.org/10.1026//0012-1924.46.2.84.

Full text

Abstract:

Zusammenfassung. Das Skalensystem zur Erfassung des Umweltbewußtseins (SEU, frühere Versionen s. Schahn & Holzer, 1990 ; Schahn, 1996 ) wurden hinsichtlich des Itempools und in Bezug auf die erfaßten Dimensionen überarbeitet und in mehreren Untersuchungen evaluiert; der Konstruktionsansatz basierte auf der klassischen Testtheorie. Das überarbeitete SEU behält das bewährte facettentheoretische Konzept der Vorgängerversionen mit einer konzeptuellen und einer inhaltlichen Ebene bei, jedoch wurden die erfaßten Dimensionen aufgrund früherer Befunde verändert. Ferner wurden eine Globalskala sowie vier verschiedene, ebenfalls eindimensionale Kurzversionen der Globalskala konstruiert und einer Qualitätsprüfung unterzogen. Basierend auf den Fragebogendaten mehrerer Stichproben (n = 12 psychologische und n = 22 Umweltexperten; n = 104 Mitglieder in Umweltschutzorganisationen; Vergleichsstichprobe nicht engagierter Personen, n = 203; vorwiegend studentische Stichprobe, n = 64 mit jeweils drei Fremdeinschätzungen pro Vpn) wurden Homogenität, Retest-Reliabilität nach ca. 5 1/2 Wochen, korrelative Struktur und verschiedene Validitätsindikatoren erhoben. Die Ergebnisse sprechen für eine gute Qualität der Skalen und dokumentieren ihre Brauchbarkeit für Forschungszwecke. Die besten Werte bei den Kurzskalen erreichte die auf Basis der Übereinstimmung zwischen Selbst- und Fremdbeurteilung konstruierte Globalskala UGK-V.

APA, Harvard, Vancouver, ISO, and other styles

22

Schmalt, Heinz-Dieter, and Kurt Sokolowski. "Zum gegenwärtigen Stand der Motivdiagnostik." Diagnostica 46, no. 3 (July 2000): 115–23. http://dx.doi.org/10.1026//0012-1924.46.3.115.

Full text

Abstract:

Zusammenfassung. McClelland hat vor einiger Zeit eine Motivationstheorie vorgestellt, in der eine prinzipielle Unterscheidung zwischen impliziten und expliziten Motiven gemacht wird. Im Hinblick auf diese Unterscheidung versucht die vorliegende Arbeit, die Aussagemöglichkeiten verschiedener Motivmeßverfahren (TAT, Gitter-Technik, Fragebogen) - hier exemplarisch für das Leistungsmotiv - erneut zu analysieren. Zunächst werden Fragen der Reliabilität und des Gültigkeitsbereichs behandelt. Es zeigt sich, daß alle drei Verfahren eine befriedigende Reliabilität haben, allerdings müssen zu deren Nachweis beim TAT andere Modelle herangezogen werden als die klassische Testtheorie. Der TAT weist den am weitesten ausgefächerten Gültigkeitsbereich auf, der nahezu auch durch die Gitter-Technik abgedeckt wird. Fragebogen sind weniger valide, wenn es um die Vorhersage von operantem Verhalten geht. Die Überlegenheit von TAT und Gitter-Technik gegenüber dem Fragebogen wird darauf zurückgeführt, daß diese beiden Verfahren mit bildsituativer Motivanregung arbeiten, wobei kein expliziter Bezug zu dem gemessenen Motivkonstrukt hergestellt wird. Eine Reihe von Beispielen aus der kognitiven Psychologie kann belegen, daß Bilder einen bevorzugten und ungefilterten (impliziten) Zugriff auf semantisch zugeordnetes Gedächtnismaterial erlauben. Wir vermuten, daß die Zugänglichkeit dieses Materials durch Motivationsvariablen vermittelt wird.

APA, Harvard, Vancouver, ISO, and other styles

23

Barkmann, Claus, Christiane Otto, Ann-Katrin Meyrose, Franziska Reiss, Anne Wüstner, Catharina Voß, Michael Erhart, and Ulrike Ravens-Sieberer. "Psychometrie und Normierung des Lebensqualitätsinventars KIDSCREEN in Deutschland." Diagnostica 67, no. 1 (January 2021): 2–12. http://dx.doi.org/10.1026/0012-1924/a000257.

Full text

Abstract:

Zusammenfassung. Der KIDSCREEN–27 und der KIDSCREEN–10 Index dienen der Messung der gesundheitsbezogenen Lebensqualität (gLQ) bei Kindern und Jugendlichen. In der vorliegenden Analyse werden beide Instrumente im Selbst- und Elternurteil mit Hilfe von bevölkerungsrepräsentativen Querschnittsdaten psychometrisch geprüft und normiert. Die dazu verwendeten Angaben von 11- bzw. 8- bis 18-Jährigen ( n = 1 163 Selbst- und 1 658 Elternurteile) stammen aus der BELLA-Studie, dem Modul zur psychischen Gesundheit der Studie zur Gesundheit von Kindern und Jugendlichen in Deutschland (KiGGS-Studie) des Robert Koch-Instituts. Die Item- und Skalenkennwerte gemäß der klassischen Testtheorie (KTT) entsprachen denen der europäischen Konstruktionsstichprobe und fielen akzeptabel bis gut aus. Die faktorielle Validität konnte über konfirmatorische und explorative Faktorenanalysen teilweise bestätigt werden, es zeigte sich aber auch ein starker Generalfaktor. Item-Response-Analysen im Partial-Credit-Modell legen die Rasch-Skalierbarkeit nahe, es verblieben aber bedeutsame Residualfaktoren. Es werden nach Alter, Geschlecht und Urteilenden stratifizierte Normwerttabellen bereitgestellt. Insgesamt handelt es sich um verbreitete, bewährte und sehr umfassend psychometrisch evaluierte Instrumente, die einen Vergleich der gLQ von Kindern und Jugendlichen aus verschiedenen europäischen Ländern ermöglichen.

APA, Harvard, Vancouver, ISO, and other styles

24

Häusler, Joachim, and Walter Sturm. "Konstruktvalidierung einer neuen Testbatterie für Wahrnehmungs- und Aufmerksamkeitsfunktionen (WAF)." Zeitschrift für Neuropsychologie 20, no. 4 (January 2009): 327–39. http://dx.doi.org/10.1024/1016-264x.20.4.327.

Full text

Abstract:

Bei der Entwicklung der Verfahren der Testbatterie Wahrnehmungs- und Aufmerksamkeitsfunktionen (WAF: Sturm, 2006 ) kommt der theoriegeleiteten Operationalisierung einer aktuellen Aufmerksamkeitstaxonomie (vgl. Van Zomeren & Brouwer, 1994 ; Posner und Raichle, 1994; Sturm, 2009b ) eine besondere Bedeutung zu. Das Ziel der vorliegenden Arbeit war daher die Evaluierung mehrerer Aspekte der Konstruktvalidität, um eine Beurteilung zu ermöglichen, inwieweit die WAF Testbatterie das theoretische Modell, das ihr zugrunde liegt, widerspiegeln kann. Studie I befasst sich mit der Dimensionalität der Testmaterialien und verwendet zur Evaluierung Methoden der Probabilistischen Testtheorie, Studie II untersucht die nomothetische Spanne mittels linearer Strukturgleichungsmodelle. Beide Studien verwenden eine Stichprobe aus 295 gesunden Personen im Alter von 16 bis 77 Jahren. Die Ergebnisse zeigen, dass die Testverfahren bezüglich beider Aspekte der Konstruktvalidität die Anforderungen der theoretischen Modelle erfüllen. Einerseits kann gezeigt werden, dass die Messungen eindimensional erfolgen und dass die mittleren Reaktionszeiten erschöpfende Statistiken für die zu messenden latenten Eigenschaften darstellen, und damit – in einer Normalstichprobe – alle zur Interpretation notwendigen Informationen von dieser Variable transportiert werden. Andererseits kann gezeigt werden, dass die Struktur der WAF Testbatterie dem theoretischen Konstrukt entspricht, während alternative Konstrukte schlechter zu den vorliegenden Daten passen würden.

APA, Harvard, Vancouver, ISO, and other styles

25

Hergovich, Andreas. "Vorstellung und Validierung des Gestaltwahrnehmungstests zur Messung der Feldabhängigkeit." Diagnostica 45, no. 1 (January 1999): 20–34. http://dx.doi.org/10.1026//0012-1924.45.1.20.

Full text

Abstract:

Zusammenfassung. Der Gestaltwahrnehmungstest als computergestütztes Verfahren zur Messung der Feldabhängigkeit wird vorgestellt. Die Aufgabe der Testpersonen besteht darin, eine in einem Muster (geometrische wie auch “sinnvolle” Figuren) versteckte (“eingebettete”) Suchfigur zu identifizieren. Das 30 Items umfassende Verfahren wurde nach dem dichotomen logistischen Modell von Rasch konstruiert. An einer Stichprobe von 460 Personen konnte Modellgültigkeit nachgewiesen werden. Die angegebenen Item- und Personenparameter sprechen für eine gute Differenzierung im mittleren Leistungsbereich. Die Reliabilität des Tests im Rahmen der probabilistischen Testtheorie beträgt .87, zusätzlich werden Ergebnisse mehrerer Untersuchungen zur internen Konsistenz (α = .85 bis α = .95) und zur Split-Half-Reliabilität (r = .83 bis .94) präsentiert. Die Retest-Reliabilität wurde in einer Studie (n = 89) berechnet und lag bei .65. Einige Studien konnten die Konstruktvalidität des Verfahrens belegen. In einer Untersuchung an 177 Personen wurde eine Korrelation von .51 zwischen Gestaltwahrnehmungstest und Embedded-Figures-Test (EFT) gefunden, der Zusammenhang mit einem Intelligenzdiagnostikum (dem Wiener-Matrizen-Test) lag bei .30. Schließlich werden die Ergebnisse zweier Untersuchungen zu interindividuellen Differenzen zwischen Feldabhängigen und Feldunabhängigen (die Stichproben wurden jeweils nach dem Median im Gestaltwahrnehmungstest halbiert) referiert. Ein Experiment zeigte, daß Feldabhängige im Rahmen einer Urteilsaufgabe die kognitive Komponente schlechter von der affektiven Komponente trennen können als Feldunabhängige. Die Ergebnisse einer weiteren Studie deuten darauf hin, daß sich Feldabhängige in einem sozialen Dilemma kooperativer als Feldunabhängige verhalten.

APA, Harvard, Vancouver, ISO, and other styles

26

Hager, Willi. "Die Fallibilität empirischer Daten und die Notwendigkeit der Kontrolle der Wahrscheinlichkeiten falscher Entscheidungen." Zeitschrift für Psychologie / Journal of Psychology 214, no. 1 (January 2006): 10–23. http://dx.doi.org/10.1026/0044-3409.214.1.10.

Full text

Abstract:

Zusammenfassung. Empirisch-psychologische Daten sind durchgängig fallibel, also fehlerbehaftet, und zudem Theoriegetränkt. Aus diesem Grund ist es logisch nicht möglich, im Popperschen Sinne psychologische Hypothesen zu falsifizieren, und Verifikationen im Sinne Carnaps sind logisch ebenfalls nicht möglich. Ein Ausweg aus diesem Dilemma besteht darin, Beurteilungen psychologischer Hypothesen nicht mittels logischer Schlussfiguren herbeizuführen, sondern mittels Entscheidungen. Für diese sind jedoch Regeln festzulegen, die festlegen, ab wann man eine festgestellte Variation als systematisch ansehen will und nicht mehr als unsystematisch. Die von Psycholog/inn/en mehrheitlich eingesetzten statistischen Tests können als derartige Entscheidungsregeln fungieren, da sie die Trennung von systematischer und unsystematischer Variation nach allgemein akzeptierten probabilistischen Kriterien ermöglichen. Üblicherweise werden in der psychologischen Forschungspraxis die Signifikanztests nach R. A. Fisher eingesetzt, mit denen die Kontrolle der Wahrscheinlichkeit α möglich ist, dass man irrtümlich auf das Vorliegen von systematischer Variation erkennt. Vor allem aus der Sicht der Versuchsplanung, deren allgemeines Ziel die Kontrolle und Geringhaltung der Wahrscheinlichkeiten für falsche Entscheidungen darstellt, ist es unabdingbar, die Wahrscheinlichkeiten für beide Arten von falschen Entscheidungen zu kontrollieren. Dies ist unter der Fisher-Theorie nicht möglich, wohl aber unter der Testtheorie von Neyman und Pearson, innerhalb derer auch eine Kontrolle der Wahrscheinlichkeit β für die falsche Entscheidung für das ausschließliche Vorliegen von unsystematischer Variation vorgesehen und möglich ist. Beide Fehlerwahrscheinlichkeiten stehen in direkter Beziehung zu den Wahrscheinlichkeiten falscher Entscheidungen über die zu prüfenden psychologischen Hypothesen, und lässt man eine von ihnen unberücksichtigt, ist es auch nicht möglich, die Wahrscheinlichkeiten für die falschen Entscheidungen “psychologische Hypothese bewährt“ bzw. “nicht bewährt“ zu kontrollieren und gering zu halten.

APA, Harvard, Vancouver, ISO, and other styles

27

Walter, Otto B., Janine Becker, Herbert Fliege, Jakob Bjorner, Mark Kosinski, Marc Walter, Burghard F. Klapp, and Matthias Rose. "Entwicklungsschritte für einen computeradaptiven Test zur Erfassung von Angst (A-CAT1)." Diagnostica 51, no. 2 (April 2005): 88–100. http://dx.doi.org/10.1026/0012-1924.51.2.88.

Full text

Abstract:

Zusammenfassung. Die empirische Erfassung psychischer Merkmale erfolgt in der Regel mit Instrumenten, die auf der Grundlage der klassischen Testtheorie entwickelt wurden. Seit den 60er Jahren bietet sich hierzu mit der Item Response Theory (IRT) eine Alternative an, die verschiedene Vorteile verspricht. Auf ihrer Grundlage können u.a. computeradaptive Tests (CATs) entwickelt werden, welche die Auswahl der vorgelegten Items dem Antwortverhalten der Patienten anpassen und damit eine höhere Messgenauigkeit bei reduzierter Itemzahl ermöglichen sollen. Wir haben verschiedene Schritte zur Entwicklung eines CAT zur Erfassung von Angst unternommen, um zu prüfen, ob sich die theoretischen Vorzüge der IRT auch in der praktischen Umsetzung bestätigen lassen. In dem vorliegenden Beitrag wird die Entwicklung der zu Grunde liegenden Itembank dargestellt. Hierfür wurde auf Daten von N = 2348 Patienten zurückgegriffen, die an der Medizinischen Klinik mit Schwerpunkt Psychosomatik der Charité zwischen 1995 und 2001 im Rahmen der Routinediagnostik ein umfangreiches Set etablierter konventioneller Fragebögen computergestützt beantwortet hatten. Diese beinhalteten 81 Items, die in einem Expertenrating für das Merkmal Angst als relevant angesehen wurden. Die Eigenschaften dieser Items wurden anhand ihrer residualen Korrelationen nach konfirmatorischer Faktorenanalyse (MplusTM), ihrer Antwortkategorienfunktion (TestgrafTM) und ihrer Diskriminationsfähigkeit (ParscaleTM) überprüft. Es verblieben 50 Items, die für die Anwendung eines polytomen Zwei-Parameter-Modells (Generalized-Partial-Credit-Model) als geeignet angesehen werden können. Orientiert man sich an einer Reliabilität von ρ ≥ .90 und legt für den computeradaptiven Testalgorithmus einen Standardfehler von ≤ .32 fest, so zeigen Simulationsstudien, dass die Merkmalsausprägung für Angst im Bereich von ± 2 Standardabweichungen um den Mittelwert der Stichprobe mit ca. 7 Items ermittelt werden kann. Zudem legen die Simulationsstudien nahe, dass der CAT-Algorithmus das Merkmal in den oberen und unteren Ausprägungen besser zu differenzieren vermag als die konventionell berechnete Summen-Skala des STAI (State).

APA, Harvard, Vancouver, ISO, and other styles

28

Ofenloch, R., E. Weisshaar, and T. Diepgen. "Analyse der Messeigenschaften des Erlangener Atopie-Score gemäß den Anforderungen der modernen Testtheorie." Das Gesundheitswesen 76, no. 08/09 (September 10, 2014). http://dx.doi.org/10.1055/s-0034-1386983.

Full text

APA, Harvard, Vancouver, ISO, and other styles

29

Müller-Schneider, Thomas. "Multiple Skalierung nach dem Kristallisationsprinzip / Multiple Scaling According to the Principle of Crystallization." Zeitschrift für Soziologie 30, no. 4 (January 1, 2001). http://dx.doi.org/10.1515/zfsoz-2001-0404.

Full text

Abstract:

ZusammenfassungIn diesem Beitrag geht es um eines der zentralen methodischen Probleme, die bei der sozialwissenschaftlichen Skalierung auftreten: das Erkennen mehrdimensionaler Datenstrukturen. In der Forschungspraxis setzt man dazu in aller Regel die Faktorenanalyse ein. Dieses Verfahren führt aber aufgrund seiner restriktiven Modellannahmen nicht immer zum gewünschten Ergebnis. Anhand eines Fallbeispiels zeige ich, dass komplexe Dimensionen unter Umständen nur „orthogonal fragmentiert“ wiedergegeben werden. Ein alternatives Verfahren, das ohne störende Modellrestriktionen auskommt, ist die von Mokken (1971) entwickelte multiple Skalierung dichotomer Items. Die Mokkenskalierung verfährt nach dem Kristallisationsprinzip und entdeckt zuverlässig mehrdimensionale Strukturen. Die auf dem Kristallisationsprinzip aufbauende multiple Skalierung ist ein allgemeines mehrdimensionales Skalierungsverfahren, das mit Hilfe der hierarchischen Clusteranalyse auch im Rahmen der klassischen Testtheorie eingesetzt werden kann.

APA, Harvard, Vancouver, ISO, and other styles

30

Stehr, M., J. Hardt, and T. von Lengerke. "Eine Kurzskala zur emotionalen sozialen Unterstützung auf Basis des F-SozU-K14: Vergleichende Analysen mittels klassischer und probabilistischer Testtheorie." Das Gesundheitswesen 72, no. 08/09 (September 2010). http://dx.doi.org/10.1055/s-0030-1266259.

Full text

APA, Harvard, Vancouver, ISO, and other styles

31

Schürmann, Mirko, Elena Bender, and Christian Grebe. "Kompetenzdiagnose in der Berufsbildung von Pflegelehrpersonen." Gruppe. Interaktion. Organisation. Zeitschrift für Angewandte Organisationspsychologie (GIO), April 30, 2021. http://dx.doi.org/10.1007/s11612-021-00574-w.

Full text

Abstract:

ZusammenfassungIn diesem Beitrag der Zeitschrift Gruppe. Interaktion. Organisation. (GIO) wird das Instrument zur Diagnose pädagogischer Kompetenzen von Pflegelehrpersonen (PädKomPflege) vorgestellt.Die Berufsbildung in der Pflege ist durch sich verändernde inhaltliche und gesetzliche Anforderungen geprägt. Verschiedene landesspezifische rechtliche Vorgaben führen zu einem sehr heterogenen Bild von Qualifikationen und Kompetenzen der Pflegelehrpersonen. Die Anrechnung bereits erworbener Kompetenzen auf pflegepädagogische Studiengänge sowie die Kompetenzerfassung und -bilanzierung in Berufsbildungseinrichtungen spielt daher eine wichtige Rolle. Vor diesem Hintergrund wurde das Instrument PädKomPflege entwickelt und erprobt. Grundlage des Kompetenzmodells sind die Empfehlungen der Kultusministerkonferenz (2004) zu den Standards für die (allgemeine) Lehrerbildung sowie Expertenworkshops und -interviews mit PflegedidaktikerInnen. Die empirische Erprobung erfolgte an einer Stichprobe von 1096 Pflegelehrpersonen. Psychometrische Analysen auf Grundlage der klassischen Testtheorie sowie IRT-basierte Analysen führten zu einer Überarbeitung des Instruments, welches nun als zweisprachiges Online-Self-Assessmenttool (eng./deut.) vorliegt. Die Validierung der deutschsprachigen Version fand anhand von 545 TeilnehmerInnen im Jahr 2016 statt, sodass ein geprüftes Instrument mit 54 Items in den fünf Hauptskalen (Unterricht, Beurteilung, Beratung, Lernortkooperation sowie Organisations- und Schulentwicklung) und 18 Subskalen zur Verfügung steht.Sowohl klassische als auch probabilistische Testgütekriterien werden erfüllt. Die Skalen weisen hohe interne Konsistenzen auf (α > 0,80) und sind überwiegend konstruktvalide. So lassen sich für 17 der 18 Subskalen ordinale Raschmodelle anpassen. Auf der Ebene der Hauptskalen können Partial Credit Modelle für alle Items von modellkonformen Subskalen einer Hauptskala angepasst werden. Das Instrument kann zur individuellen Kompetenzdiagnostik, zur Identifikation von Bildungsbedarfen in Schulen des Gesundheitswesens und im Kontext beruflicher Bildungsprozesse genutzt werden. In der Onlineversion erhalten Teilnehmende abschließend ein individuelles Kompetenzprofil mit möglichen Vergleichswerten. Das Tool kann begleitend zu Qualifizierungsprozessen als Monitoring-Instrument oder zur individuellen Kompetenzbilanzierung eingesetzt werden.

APA, Harvard, Vancouver, ISO, and other styles

32

Smaling, Adri. "Repliek op de commentaren van Schoonenboom en Wester." KWALON 19, no. 1 (March 1, 2014). http://dx.doi.org/10.5117/2014.019.001.020.

Full text

Abstract:

Judith Schoonenboom bespreekt naar aanleiding van de eerste alinea van mijn artikel een aantal misverstanden. Maar daarmee wil ze niet zeggen dat ik me aan die misverstanden heb schuldig gemaakt. Daarom beperk ik me hier tot haar vier kanttekeningen bij mijn verhaal, waarmee ik niet wil zeggen dat de misverstanden die zij noemt van geen belang zijn.De eerste kanttekening gaat in hoofdzaak over het onderscheid tussen statistische generalisatie en variatiedekkende generalisatie (variatiedekking) en in samenhang ermee het onderscheid tussen statistisch steekproeftrekken en systematisch steekproeftrekken. Eerst over de vormen van generalisatie. Ik wil juist wel een duidelijk onderscheid maken tussen statistische generalisatie en variatiedekking. Aangenomen dat een onderzoeker zijn onderzoeksconclusies generaliseerbaar wil maken naar een populatie (of domein) waarvan de onderzochte gevallen (in ruime zin) maar een deel uitmaken, dan gaat het mij erom dat de kwalitatief onderzoeker niet alleen maar vormen van theoretische generalisatie of overdrachtsgeneralisatie ten dienste staan, maar ook een vorm van inductieve generalisatie die toch geen statistische generalisatie is: variatiedekking.Bij statistische generalisatie wordt een statistisch-representatieve steekproef getrokken. Hierbij spelen variabelen met frequentieverdelingen een rol, en ook het niveau waarop die variabelen gemeten worden, de steekproefgrootte en randomisatie. Het gaat er niet alleen om onbekende, mogelijk storende variabelen te neutraliseren, maar ook om statistisch verantwoorde en significante toetsen uit te kunnen uitvoeren en schattingen te kunnen maken. Er is niks op tegen om bij een dergelijke statistisch-representatieve steekproef kwalitatieve analyses te doen, eventueel gecombineerd met statistische analyses. Alleen maakt de onderzoeker in het kwalitatieve onderzoek geen gebruik van de frequenties enzovoort. Bij variatiedekking zijn al die kwantitatieve aspecten niet aan de orde. Bij variatiedekking gaat het ook om een andere vorm van steekproeftrekken, namelijk doelgericht steekproeftrekken en in het bijzonder iteratief steekproeftrekken. Na het bereiken van een verzadigingspunt wordt dan geen statistische representativiteit van de steekproef bereikt, maar een variatiedekkende representativiteit.De verschillen tussen deze twee vormen van representativiteit en de daarmee verbonden ideeën en procedures zijn te groot om verdoezeld te worden door ze in één bakje te stoppen. Dit blijkt ook nog als we het onderscheid tussen aselect steekproeftrekken en doelgericht steekproeftrekken, met name iteratief steekproeftrekken, bezien vanuit het oogpunt van de steekproefgrootte. Bij vormen van aselect steekproeftrekken (dus met randomisatieprocedures) kan de steekproefgrootte van tevoren worden bepaald aan de hand van de populatiegrootte en de kans op statistisch significante resultaten bij beoogde statistische toetsen en gewenste betrouwbaarheidsintervallen bij schattingen. Bij iteratief steekproeftrekken daarentegen blijkt de steekproefgrootte pas achteraf, wanneer een saturatiepunt is bereikt. Bij iteratief steekproeftrekken, dus ook bij theoretisch steekproeftrekken, kan niet van tevoren worden bepaald hoe groot een steekproef moet zijn, omdat je niet van tevoren weet na hoeveel gevallen (waarnemingen, personen, organisaties, enzovoort) een saturatiepunt zal worden bereikt. Bij de planning van een onderzoek moet hiermee rekening worden gehouden: je kunt niet altijd van tevoren weten hoe groot een steekproef moet zijn. De representativiteit van de twee steekproefvormen is dus van heel andere aard.In het kort: de kwalitatief onderzoeker is, als deze al wil generaliseren, niet alleen maar aangewezen op theoretische of analytische generalisatie of op overdracht (case-to-case transfer), zoals zo vaak wordt gesteld. Er is ook een inductieve vorm van generaliseren mogelijk en deze hoeft geen statistische generalisatie te zijn met de daaraan verbonden aselecte steekproeftrekking, maar kan variatiedekking zijn met iteratief steekproeftrekken als een van de meest aangewezen procedures. Het is daarom belangrijk om statistische representativiteit te onderscheiden van variatiedekkende representativiteit.Dit onderscheid is nog betekenisvoller als je bedenkt dat ook bij de selectie van een typisch of exemplarisch geval je zou kunnen zeggen dat dit geval representatief is voor bepaalde andere gevallen. Representativiteit hoeft dus niet te worden beperkt tot statistische en variatiedekkende representativiteit, zoals Schoonenboom suggereert. Al met al is de term representativiteit niet zo geschikt om statistische en variatiedekkende representativiteit samen te nemen: ze verschillen te sterk en representativiteit kan meer omvatten.Voor wat de kwestie van statistisch steekproeftrekken tegenover systematisch steekproeftrekken betreft heb ik de discussie die Schoonenboom voert met sommige kwantificerende onderzoekers met belangstelling gevolgd. Het is inderdaad zo dat de soep lang niet zo heet gegeten wordt als die door sommige puristische statistisch georiënteerde onderzoekers wordt opgediend. Dit blijkt onder meer uit het bestaan van wat men noemt robuustheidsstudies. In deze studies wordt nagegaan in hoeverre statistische principes kunnen worden geschonden en regels overtreden zonder dat de resultaten van of conclusies bij een analyse veranderen. Losjes gezegd: men gaat na, bijvoorbeeld via simulatieonderzoek, dat Schoonenboom ook noemt, in hoeverre een analyseprocedure tegen een stootje kan bezien vanuit de uitkomst.De tweede kanttekening gaat over de functies van generaliseren. Zoals Schoonenboom zegt, heb ik me in mijn artikel beperkt tot het generaliseren van onderzoeksconclusies bij een afgerond onderzoek naar niet-onderzochte gevallen in een beoogd domein. En ja, inderdaad, er zijn meer toepassingen van de term generaliseren. Een voorbeeld is de generaliseerbaarheidstheorie in de psychometrie als opvolger en uitbreiding van de klassieke testtheorie. In de klassieke testtheorie is betrouwbaarheidscoëfficiënt alpha van Cronbach (Cronbach’s α) zeer bekend. In de generaliseerbaarheidstheorie worden meer storingsbronnen die in een testsituatie werkzaam kunnen zijn, verrekend. De oude betrouwbaarheidscoëfficiënt wordt vervangen door de generaliseerbaarheidscoëfficiënt. Maar de generaliseerbaarheidstheorie blijft naast de klassieke testtheorie en de item-responstheorie een van de betrouwbaarheidstheorieën. Het gaat in de generaliseerbaarheidstheorie over de betrouwbaarheid van een meetinstrument, bijvoorbeeld een psychologische test, en niet over het generaliseren van conclusies bij een afgerond onderzoek naar niet-onderzochte gevallen. Het begrip generaliseren heeft dus zelfs een toepassing op het terrein van de betrouwbaarheid van een meetinstrument.Wat betreft de combinatie van interne en externe validiteit, waarover Schoonenboom schrijft, kan ook door iteratief steekproeftrekken, zonder theorie, na het bereiken van een saturatiepunt de reikwijdte van de gevormde categorieën of de geformuleerde bewering worden onderzocht door in het beoogde domein naar afwijkende en negatieve gevallen te zoeken. Als je deze gevallen na herhaalde zoekpogingen niet aantreft, kun je zeggen dat de onderzoeksconclusies naar het beoogde domein kunnen worden gegeneraliseerd.De derde kanttekening betreft een vorm van generaliseren die Schoonenboom in mijn artikel mist. Ook hier gaat het om een woordgebruik waarbij generaliseren niet betrekking heeft op zaken buiten een afgerond onderzoek. Wanneer in een gerandomiseerd experiment met een experimentele conditie (E) en een controleconditie (C) er een statistisch significant verschil wordt gevonden tussen een groep studenten onder E en een groep studenten onder C, heeft dat volgens de gebruikelijke statistische analyse betrekking op het verschil tussen de twee gemiddelde scores van de twee groepen op een afhankelijke variabele. Maar dit sluit helemaal niet uit dat een student P in conditie E dezelfde score heeft als een student M in conditie C. Je kunt zeggen dat in de statistische analyse binnen een groep generaliseerd wordt over de studenten heen door – voor de conclusie significant verschil of niet – naar het gemiddelde te kijken. Weliswaar spelen bij deze analyse ook varianties een rol, maar de individuele studenten P en M blijven buiten het zicht. Of dit terecht is of niet hangt onder meer van de probleemstelling van het onderzoek af: wat wil de onderzoeker eigenlijk weten?In de vierde kanttekening wordt het thema van het bereik van een generalisatie aan de orde gesteld. Ook hier ga ik met Schoonenboom mee als ze meent dat nader onderzoek nodig is. Het is bijvoorbeeld lang niet altijd van tevoren duidelijk waar een populatie of domein eigenlijk precies uit bestaat. En het bereiken van een saturatiepunt is ook al niet zo eenvoudig. Toch zou het helpen om na het bereiken van zo’n saturatiepunt verder te zoeken naar confirmerende en niet-confirmerende gevallen om een domein beter in beeld te brengen. Ook het replicatieve steekproeftrekken is bedoeld om de grenzen van generaliseerbaarheid van een propositie scherper in het vizier te krijgen. Er is natuurlijk wel tijd, geld en mankracht nodig om ook echt door te zoeken.

APA, Harvard, Vancouver, ISO, and other styles

Journal articles on the topic 'Testtheorie'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles