Niemand urteilt schärfer, als der Ungebildete, er kennt weder Gründe noch Gegengründe.
Anselm Feuerbach, 1829-1880
Hinweis:
Die Fortbildung befasst sich mit Grundlagen empirischer Forschung und versucht diese für Evaluationsverfahren und Leistungsbewertung im Schulunterricht fruchtbar zu machen.
An Hand der wissenschaftlichen Methode wird deutlich wie ungenau wir im Unterricht messen!
Aufgabe: Beantworten Sie mit je einem Satz...
Wie bewerten Sie Ihre Schüler?
Womit bewerten Sie Ihre Schüler?
Wer bewertet Ihre Schüler?
Wann bewerten Sie Ihre Schüler?
Warum bewerten Sie Ihre Schüler?
Was bewerten Sie bei Ihren Schülern?
Hattie Studie - Feedbackkultur
Feedback von Schülern und für Schüler!
A Model for Effective Feedback by Hattie & Timperley (2007) http://visible-learning.org/2013/02/john-hattie-helen-timperley-visible-learning-and-feedback/ |
Feedback und Bewertung sind (eigentlich) zwei Seiten einer Medaille!
Empirie 1: Grundlagen und Evaluationsdesign
- Bortz, Jürgen/ Döring, Nicola: Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler, 4. Auflage, Heidelberg, 2006.
- Karmasin, Matthias/ Ribing, Rainer: Die Gestaltungwissenschaftlicher Arbeiten, 3. Auflage, Wien, 2006.
Konkrete Beispiele:
How to evaluate?
- Evaluationen im schulischen Zusammenhang dienen überwiegend dem Wirkungsnachweis [Bewertung] von Interventionen, dienen also der Frage ob die durchgeführte Intervention eine Veränderung in einer abhängigen Variable der Population herbeigeführt hat [Ziele].
- Genauer müssen neben dem Interventionsprogramm (Ursache) die veränderten zumeist Persönlichkeitsvariablen (Wirkung) betrachtet werden und dafür gesorgt werden, dass die Wirkung mit möglichst hoher Genauigkeit auf die Ursache zurückgeführt werden kann.
- Eine tragfähige Evaluation sollte vergleichbar, zuverlässig, transparent, wiederholbar und valide sein.
Hempel-Oppenheim-Schema:
- Ursache -> Wirkung/ Ereignis
- Explanans -> Explanandum
- Unabhängige Variable -> Abhängige Variable
Planungsfragen:
- Was soll das treatment erreichen?
- Was wird sich durch das treatment in der Population verändern?
- Wie lassen sich die Veränderungen messen/belegen?
- Was zeigt die Veränderungen an?
- Wie kann ich Störungen der Messung kontrollieren?
Ablauf:
- Hypothesen finden -> Wirkungshypothese Treatment
- Variablen operationalisieren
- Methoden, Instrumente, Indikatoren u. Design finden
- Instrumente eichen
- prakt. Untersuchung
- Auswertung und stat. Bearbeitung
Typische Evaluationsdesigns:
- One Shot Posttest-Untersuchung [A2]
- One Shot Posttest-Untersuchung mit Kontrollgruppe [A2 = B2; A2 < B2; A2 > B2]
- Pre/Post Plan [A1 = A2; A1 < A2; A1 > A2]
- Pre/Post/ Follow Plan [A1 = A2 = A3 ; A1 < A2 < A3; A1 > A2 > A3; ...]
- Pre/Post/... Plan mit Kontrollgruppe [A1 = A2 = A3 ; A1 < A2 < A3; A1 > A2 > A3; ...; B1 = B2 = B3 ; B1 < B2 < B3; B1 > B2 > B3; ...A1 = B1; A1 < B1; A1 > B1;...]
- [uvm]
Untersuchung eines Treatments nach der Durchführung im Vergleich mit einer Kontrollgruppe |
Vor- und Nachuntersuchung eines Treatments mit baseline und Entwicklungsverlauf (follow up) |
Längsschnittuntersuchung pre/post/follow mit Experimental- und Kontrollgruppe |
post-Querschnittsuntersuchung mit Experimental- und Kontrollgruppe |
Verlauf von Kennwerten im quasiexperimentellen 2-Gruppen pre/post/follow Plan |
Wir fassen zusammen. Wichtige Regeln zur Evaluation:
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Leistungsbewertung/Evaluation sollte...
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Welche Methoden zur Leistungsmessung/Evaluation kennen/nutzen Sie?
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Empirie 2: Fragebogenkonstruktion und Erhebung
Literatur und Links:
- Mummendey, Hans Dieter/ Grau, Ina: Die Fragebogenmethode, 5. Auflage, Göttingen u.a.,2008.
- Stauche, Helmut/ Werlich, Nadine: Itemanalyse ohne SPSS – alles auf einen Streich 2007, offline im WWW unter URL: http://www.db-thueringen.de/servlets/DerivateServlet/Derivate-20213/itemparameter.pdf
- http://www.testzentrale.de/
- http://www.limesurvey.org/de
Kennen Sie weitere gute Links oder Literatur?
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Planungsfragen für einen "Test" im Unterricht:
http://www.hueber.de/wiki-99-stichwoerter/index.php/TestBei der Vorbereitung und der Erstellung eines Tests ist u.a. zu klären
- ZU WELCHEM ZWECK der Test erfolgt,
- WAS getestet werden soll (z.B. Fähigkeit, Fertigkeit, Inhalt, z.B. Grammatik, Wortschatz),
- WIE getestet werden soll (schriftlich, mündlich, Einzel- / Gruppenprüfung, lehrmaterialabhängig oder -unabhängig),
- WELCHEN Schwierigkeitsgrad der Test haben soll und
- WIEWEIT der Schwierigkeitsgrad für die Prüfenden angemessen ist,
- WELCHE Länge und Dauer der Test haben soll,
- OB und WELCHE Hilfsmittel erlaubt sein sollen (z.B. Wörterbuch),
- WELCHE Aufgabentypen verwendet werden sollen (dabei ist noch zu entscheiden, ob es Aufgabentypen aus dem bekannten Lehrmaterial oder neue sein sollen),
- OB eine Vorlaufphase, ein Probelauf erforderlich ist,
- WELCHE Ergebnisse zu erwarten sein werden,
- WIE Korrektur und Bewertung erfolgen sollen,
- WELCHE Konsequenzen sich aus den Testergebnissen ergeben werden (Wiederholung, Zusatzübungen etc.).
Allgemeiner Ablauf bei der Konstruktion eines Evaluationsbogens/Tests
- Variable(n) genau definieren, stets auch deskr. Fragen
- Form festlegen
- Items formulieren u. formatieren
- Instruktionen verfassen
- Fragebogen eichen (Voruntersuchung!)
- stat. Testverfahren zur Auslese
Items sind Fragen und Aussagen, die der Datenaufnahme dienen. Sie ermöglichen die Wandlung von qualitativen in quantitative Inhalte.
Fehlerquellen:
Fehlerquellen:
- Tendenz zu Item Bias (Wechsel)
- Tendenz zu Extremwerten
- Tendenz zu sozialer Erwünschtheit
- Tendenz zu Mittelwerten
Itemkennwerte/ Skalenkennwerte: [aus S.Sommer, 2010: Interessengenese durch Interaktion]
- Schwierigkeit: Der Schwierigkeitsindex p (p = probability, Wahrscheinlichkeit der Grundgesamtheit zur Lösung des Items) eines Fragebogenitems ist ein Maß für die generelle Lösungsrichtung des Items über mehrere Untersuchungspersonen. Wird beispielsweise ein dichotomes Item durchgehend von allen Testanden verneint, drückt dies ein hoher Schwierigkeitsindex aus, analog dazu die durchgehende Zustimmung ein niedriger Schwierigkeitsindex. Für polytome Items mit Ratingskalen gilt dies ebenso. Hohe Ausprägungen (scores) führen zu einem hohen Schwierigkeitsindex (leichtes Item) und niedrige Ausprägungen zu einem niedrigen Schwierigkeitsindex (schweres Item). "Bei dem leichtesten Item erreichen alle Probanden theoretisch die maximale Punktzahl, während beim schwersten Item niemand einen Punkt erhält." (Bortz/Döring, 2006, S.219.) Der Schwierigkeitsindex misst damit in zwei Richtungen zwischen 0 und 1, wie stark ausgeprägt ein Item bewertet wird. Der Gewinn der Messung liegt in der Erkenntnis über Items, die stark in eine Richtung orientiert beantwortet werden. Diese sind für die Darstellung von Unterschieden ungeeignet. Eine ideale Normalverteilung stellt sich um den Wert von 0,5 dar. Items außerhalb der Schwierigkeiten von 0,2 bis 0,8 gelten als zu stark polarisiert zur Messung von Personenunterschieden und sollten aus dem Itempool entfernt werden. (Vgl. Stauche/ Werlich, 2007.) (Vgl. Bortz/Döring, 2006, S.219.)
- Trennschärfe: Der Trennschärfekoeffizient rit (rit = Korrelation von Item und Test) gibt über mehrere Items hinweg an, inwieweit die Lösungsrichtung eines einzelnen Testanden konstant bleibt. Anders formuliert gibt die Trennschärfe an, "wie gut ein einzelnes Item das Gesamtergebnis repräsentiert." (Bortz/Döring, 2006, S.219.) Ratingskalen sind zur Summenproduktion angelegt, was nahelegt die einzelnen Teile der Summe in eine Richtung messen zu lassen, um ein Merkmal eindeutig abzubilden. Bei stark unterschiedlichen Messrichtungen der Items ist von mehreren Populationen bzw. unterschiedlichen gemessenen Merkmalen auszugehen, die als Messfehler in die Skala eingehen. Man entnimmt daher den Wert des Items der Summe aller Items der Skala und testet die Korrelation (nach Pearson) des Items mit der bereinigten Restskala. (Vgl. Stauche/Werlich, 2007, S.3.) Das theoretisch, statistische Optimum ist die (idealistische) Korrelation von 1, inhaltlich stellen sich Items mit einem Korrelationsmaß höher als 0,3 als annehmbar dar. Gedämpfte Trennschärfemaße unter 0,3 enthalten kurvillineare Korrelationen, entstammen also mehreren unterschiedlichen Populationen.
- Homogenität: „Alle Items eines eindimensionalen Instruments stellen Operationalisierungen desselben Konstrukts dar.“ (Bortz/Döring, 2006, S.220.) Daraus ergibt sich die Voraussetzung der hohen Korrelation der Items untereinander. Die Homogenität eines Items ergibt sich in der Itemkorrelationsmatrix, gemittelt aus den einzelnen Korrelationen der Items untereinander, ausgenommen der Autokorrelation mit sich selbst. Die gemittelte Homogenität aller Itemhomogenitäten stellt sich als gesamte Testhomogenität dar. Diese mittlere Itemkorrelation geht auch in den Reliabilitätskoeffizienten Cronbachs Alpha ein. Der Alphakoeffizient wird daher allgemeingebräuchlich auch als Homogenitätsindex verwendet. (Vgl. Bortz/ Döring, 2006, S. 221.)
- Dimensionalität: „Die Dimensionalität eines Tests gibt an, ob er nur ein Merkmal bzw. Konstrukt erfasst (eindimensionaler Test), oder ob mit den Testitems mehrere Konstrukte bzw. Teilkonstrukte operationalisiert werden (mehrdimensionaler Test). (Bortz/ Döring, 2006, S. 221.) Die Dimensionalität der Skalen wird an Hand von konfirmativen bzw. explorativen Faktorenanalysen geprüft, „deren primäres Ziel darin zu sehen ist, einem größeren Variablensatz eine ordnende Struktur zu unterlegen.“ (Bortz, 2005, S. 511.) Faktorenanalysen decken Faktoren in der Skala auf, denen Faktorladungen zugeordnet werden. Eine eindimensionale Skala liegt vor, wenn alle Faktorladungen (Item-Inter-Korrelationen) auf einem Faktor laden, also hoch mit ihm korrelieren. Einher mit der Faktorenanalyse geht bei Mehrdimensionalität die inhaltliche Analyse der Faktoren. Faktorenanalysen dienen damit primär der Verfeinerung von Skalen und Konstrukten. Verwendung finden dabei die explorative (aufdeckende) und konfirmative, (bestätigende) Faktorenanalyse. (Vgl. Backhaus/Erichson/ Plinke, 2006, S. 330f.)
Itemkennwerte Schwierigkeit, Trennschärfe und Homogenität |
Das ideale Item:
- Das "ideale" Item ist trennscharf, variierend und mittel schwer!
- Die "ideale" Skala ist homogen eindimensional und dennoch variierend!
•
Wortwahl,
Syntax, Bildbedeutung, Bilddarstellung, Länge, Wortzahl
•
keine
doppelten Verneinungen
•
Abstraktionsgrad,
Anschaulichkeit
•
keine
Suggestivfragen („Denken Sie nicht auch…?“)
•
Bezug
auf jeweils nur einen Sachverhalt
•
affektive
Konnotationen vermeiden („Wie stehen Sie zu solchen Kötern?“)
•
Problem
von Antworttendenzen (soz. Erwünschtheit, Extremwerte) und Item-Bias
•
Effekte
der Reihenfolge von Items, „Aufwärmer“
•
unterschiedliche
Item-Richtungen (umgepolte Items)
•
graphische
und verbale rating - Darstellung
•
5-stufige
unipolare Likert-Skala
Beispielfragebogen mit Instruktion, Hinweisen & deskr. Fragen |
Wir fassen zusammen. Wichtige Regeln zur Fragebogenkonstruktion:
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Aufgabe: Welche Messverfahren verwenden Sie darüber hinaus? Erzählen Sie von Ihren Erfahrungen.
Aufgabe: Entwerfen Sie einen Bewertungsbogen für einen Schülerhefter.
Tipp: Multiple Choice
http://www.lehren.tum.de/themen/pruefungen/multiple-choice-pruefungen/
Konkrete Unterrichtsmaterialien:
Multiple Choice Tests Vorlage
Evaluationsbogen
Zensuren berechnen
Beispiel Leistungsbewertung
Empirie 3: Statistische Auswertung
Literatur und Links:
- Bortz, Jürgen: Statistik für Human- und Sozialwissenschaftler, 6. Auflage, Heidelberg, 2005.
- Bühl, Achim: SPSS 18 - Einführung in die moderne Datenanalyse , 11. Auflage, 2009
- http://www-01.ibm.com/software/de/stats20/
- http://www.gnu.org/software/pspp/
Population, Stichprobe, Mittelwert, Median, Standardabweichung, Signifikanz
Vortest auf Verteilung der Population:
- Kolmogorov-Smirnoff Test [KS] Parametrie/Nonparametrie
Mittelwertvergleiche einer Population (über zwei Zeitpunkte
hinweg):
- Param: t-Test für abh. Stichproben [T] Mittelwertvergleich
- Nonparam: Wilcoxon Test [T] Rangplatzdifferenz
Mittelwertvergleiche zweier Populationen (an einem
Zeitpunkt):
- Param: t-Test für unabh. Stichproben [T] Mittelwertvergleich
- Nonparam: U-Test Mann/Whitney [U] Rangplatzsummenvergleich
Weitere Vergleiche:
- Varianzanalyse / Friedmann Test mehrere Zeitpunkte/ mehrere Gruppen
- Effektstärke z.B. Cohen`s D Unterschiede angegeben in Streuungseinheiten
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
- Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Keine Kommentare:
Kommentar veröffentlichen