science, media and education: Empirie und Statistik: Evaluation in Schule und Unterricht

Endlich mal gerechte Noten - Bewertung optimieren!

Niemand urteilt schärfer, als der Ungebildete, er kennt weder Gründe noch Gegengründe.

Anselm Feuerbach, 1829-1880

Hinweis:
Die Fortbildung befasst sich mit Grundlagen empirischer Forschung und versucht diese für Evaluationsverfahren und Leistungsbewertung im Schulunterricht fruchtbar zu machen.
An Hand der wissenschaftlichen Methode wird deutlich wie ungenau wir im Unterricht messen!

Aufgabe: Beantworten Sie mit je einem Satz...

Wie bewerten Sie Ihre Schüler?
Womit bewerten Sie Ihre Schüler?
Wer bewertet Ihre Schüler?
Wann bewerten Sie Ihre Schüler?
Warum bewerten Sie Ihre Schüler?
Was bewerten Sie bei Ihren Schülern?

Hattie Studie - Feedbackkultur

Feedback von Schülern und für Schüler!

A Model for Effective Feedback by Hattie & Timperley (2007) http://visible-learning.org/2013/02/john-hattie-helen-timperley-visible-learning-and-feedback/

Feedback und Bewertung sind (eigentlich) zwei Seiten einer Medaille!

Empirie 1: Grundlagen und Evaluationsdesign

Literatur und Links:

Bortz, Jürgen/ Döring, Nicola: Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler, 4. Auflage, Heidelberg, 2006.
Karmasin, Matthias/ Ribing, Rainer: Die Gestaltungwissenschaftlicher Arbeiten, 3. Auflage, Wien, 2006.

Kennen Sie weitere Literatur oder gute Links zu diesem Thema?

Konkrete Beispiele:

Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam

http://sep.isq-bb.de/schuelerfragebogen.pdf

http://lpmfs.lpm.uni-sb.de/SE/Werkzeuge/Sch%C3%BCler.pdf

http://www.psych.uni-potsdam.de/people/rheinberg/messverfahren/FAMLangfassung.pdf

http://www.ipn.uni-kiel.de/zfdn/pdf/006_Holster_13.pdf

How to evaluate?

Evaluationen im schulischen Zusammenhang dienen überwiegend dem Wirkungsnachweis [Bewertung] von Interventionen, dienen also der Frage ob die durchgeführte Intervention eine Veränderung in einer abhängigen Variable der Population herbeigeführt hat [Ziele].
Genauer müssen neben dem Interventionsprogramm (Ursache) die veränderten zumeist Persönlichkeitsvariablen (Wirkung) betrachtet werden und dafür gesorgt werden, dass die Wirkung mit möglichst hoher Genauigkeit auf die Ursache zurückgeführt werden kann.
Eine tragfähige Evaluation sollte vergleichbar, zuverlässig, transparent, wiederholbar und valide sein.

Hempel-Oppenheim-Schema:

Ursache -> Wirkung/ Ereignis
Explanans -> Explanandum
Unabhängige Variable -> Abhängige Variable

Planungsfragen:

Was soll das treatment erreichen?
Was wird sich durch das treatment in der Population verändern?
Wie lassen sich die Veränderungen messen/belegen?
Was zeigt die Veränderungen an?
Wie kann ich Störungen der Messung kontrollieren?

Ablauf:

Hypothesen finden -> Wirkungshypothese Treatment
Variablen operationalisieren
Methoden, Instrumente, Indikatoren u. Design finden
Instrumente eichen
prakt. Untersuchung
Auswertung und stat. Bearbeitung

Typische Evaluationsdesigns:

One Shot Posttest-Untersuchung [A2]
One Shot Posttest-Untersuchung mit Kontrollgruppe [A2 = B2; A2 < B2; A2 > B2]
Pre/Post Plan [A1 = A2; A1 < A2; A1 > A2]
Pre/Post/ Follow Plan [A1 = A2 = A3 ; A1 < A2 < A3; A1 > A2 > A3; ...]
Pre/Post/... Plan mit Kontrollgruppe [A1 = A2 = A3 ; A1 < A2 < A3; A1 > A2 > A3; ...; B1 = B2 = B3 ; B1 < B2 < B3; B1 > B2 > B3; ...A1 = B1; A1 < B1; A1 > B1;...]
[uvm]

Untersuchung eines Treatments nach der Durchführung im Vergleich mit einer Kontrollgruppe

Vor- und Nachuntersuchung eines Treatments mit baseline und Entwicklungsverlauf (follow up)

Längsschnittuntersuchung pre/post/follow mit Experimental- und Kontrollgruppe

post-Querschnittsuntersuchung mit Experimental- und Kontrollgruppe

Verlauf von Kennwerten im quasiexperimentellen 2-Gruppen pre/post/follow Plan

Wir fassen zusammen. Wichtige Regeln zur Evaluation:

Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam

Was können wir daraus für den Unterricht ableiten? Wichtige Tipps zur Leistungserfassung:

Leistungsbewertung/Evaluation sollte...

Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam

Welche Methoden zur Leistungsmessung/Evaluation kennen/nutzen Sie?

Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam

Empirie 2: Fragebogenkonstruktion und Erhebung

Literatur und Links:

Mummendey, Hans Dieter/ Grau, Ina: Die Fragebogenmethode, 5. Auflage, Göttingen u.a.,2008.
Stauche, Helmut/ Werlich, Nadine: Itemanalyse ohne SPSS – alles auf einen Streich 2007, offline im WWW unter URL: http://www.db-thueringen.de/servlets/DerivateServlet/Derivate-20213/itemparameter.pdf
http://www.testzentrale.de/
http://www.limesurvey.org/de

Kennen Sie weitere gute Links oder Literatur?

Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam

Planungsfragen für einen "Test" im Unterricht:

Bei der Vorbereitung und der Erstellung eines Tests ist u.a. zu klären

ZU WELCHEM ZWECK der Test erfolgt,

WAS getestet werden soll (z.B. Fähigkeit, Fertigkeit, Inhalt, z.B. Grammatik, Wortschatz),

WIE getestet werden soll (schriftlich, mündlich, Einzel- / Gruppenprüfung, lehrmaterialabhängig oder -unabhängig),

WELCHEN Schwierigkeitsgrad der Test haben soll und

WIEWEIT der Schwierigkeitsgrad für die Prüfenden angemessen ist,

WELCHE Länge und Dauer der Test haben soll,

OB und WELCHE Hilfsmittel erlaubt sein sollen (z.B. Wörterbuch),

WELCHE Aufgabentypen verwendet werden sollen (dabei ist noch zu entscheiden, ob es Aufgabentypen aus dem bekannten Lehrmaterial oder neue sein sollen),

OB eine Vorlaufphase, ein Probelauf erforderlich ist,

WELCHE Ergebnisse zu erwarten sein werden,

WIE Korrektur und Bewertung erfolgen sollen,

WELCHE Konsequenzen sich aus den Testergebnissen ergeben werden (Wiederholung, Zusatzübungen etc.).

http://www.hueber.de/wiki-99-stichwoerter/index.php/Test

Allgemeiner Ablauf bei der Konstruktion eines Evaluationsbogens/Tests

Variable(n) genau definieren, stets auch deskr. Fragen
Form festlegen
Items formulieren u. formatieren
Instruktionen verfassen
Fragebogen eichen (Voruntersuchung!)
stat. Testverfahren zur Auslese

Items sind Fragen und Aussagen, die der Datenaufnahme dienen. Sie ermöglichen die Wandlung von qualitativen in quantitative Inhalte.

Fehlerquellen:

Tendenz zu Item Bias (Wechsel)
Tendenz zu Extremwerten
Tendenz zu sozialer Erwünschtheit
Tendenz zu Mittelwerten

Itemkennwerte/ Skalenkennwerte: [aus S.Sommer, 2010: Interessengenese durch Interaktion]

Schwierigkeit: Der Schwierigkeitsindex p (p = probability, Wahrscheinlichkeit der Grundgesamtheit zur Lösung des Items) eines Fragebogenitems ist ein Maß für die generelle Lösungsrichtung des Items über mehrere Untersuchungspersonen. Wird beispielsweise ein dichotomes Item durchgehend von allen Testanden verneint, drückt dies ein hoher Schwierigkeitsindex aus, analog dazu die durchgehende Zustimmung ein niedriger Schwierigkeitsindex. Für polytome Items mit Ratingskalen gilt dies ebenso. Hohe Ausprägungen (scores) führen zu einem hohen Schwierigkeitsindex (leichtes Item) und niedrige Ausprägungen zu einem niedrigen Schwierigkeitsindex (schweres Item). "Bei dem leichtesten Item erreichen alle Probanden theoretisch die maximale Punktzahl, während beim schwersten Item niemand einen Punkt erhält." (Bortz/Döring, 2006, S.219.) Der Schwierigkeitsindex misst damit in zwei Richtungen zwischen 0 und 1, wie stark ausgeprägt ein Item bewertet wird. Der Gewinn der Messung liegt in der Erkenntnis über Items, die stark in eine Richtung orientiert beantwortet werden. Diese sind für die Darstellung von Unterschieden ungeeignet. Eine ideale Normalverteilung stellt sich um den Wert von 0,5 dar. Items außerhalb der Schwierigkeiten von 0,2 bis 0,8 gelten als zu stark polarisiert zur Messung von Personenunterschieden und sollten aus dem Itempool entfernt werden. (Vgl. Stauche/ Werlich, 2007.) (Vgl. Bortz/Döring, 2006, S.219.)
Trennschärfe: Der Trennschärfekoeffizient rit (rit = Korrelation von Item und Test) gibt über mehrere Items hinweg an, inwieweit die Lösungsrichtung eines einzelnen Testanden konstant bleibt. Anders formuliert gibt die Trennschärfe an, "wie gut ein einzelnes Item das Gesamtergebnis repräsentiert." (Bortz/Döring, 2006, S.219.) Ratingskalen sind zur Summenproduktion angelegt, was nahelegt die einzelnen Teile der Summe in eine Richtung messen zu lassen, um ein Merkmal eindeutig abzubilden. Bei stark unterschiedlichen Messrichtungen der Items ist von mehreren Populationen bzw. unterschiedlichen gemessenen Merkmalen auszugehen, die als Messfehler in die Skala eingehen. Man entnimmt daher den Wert des Items der Summe aller Items der Skala und testet die Korrelation (nach Pearson) des Items mit der bereinigten Restskala. (Vgl. Stauche/Werlich, 2007, S.3.) Das theoretisch, statistische Optimum ist die (idealistische) Korrelation von 1, inhaltlich stellen sich Items mit einem Korrelationsmaß höher als 0,3 als annehmbar dar. Gedämpfte Trennschärfemaße unter 0,3 enthalten kurvillineare Korrelationen, entstammen also mehreren unterschiedlichen Populationen.
Homogenität: „Alle Items eines eindimensionalen Instruments stellen Operationalisierungen desselben Konstrukts dar.“ (Bortz/Döring, 2006, S.220.) Daraus ergibt sich die Voraussetzung der hohen Korrelation der Items untereinander. Die Homogenität eines Items ergibt sich in der Itemkorrelationsmatrix, gemittelt aus den einzelnen Korrelationen der Items untereinander, ausgenommen der Autokorrelation mit sich selbst. Die gemittelte Homogenität aller Itemhomogenitäten stellt sich als gesamte Testhomogenität dar. Diese mittlere Itemkorrelation geht auch in den Reliabilitätskoeffizienten Cronbachs Alpha ein. Der Alphakoeffizient wird daher allgemeingebräuchlich auch als Homogenitätsindex verwendet. (Vgl. Bortz/ Döring, 2006, S. 221.)
Dimensionalität: „Die Dimensionalität eines Tests gibt an, ob er nur ein Merkmal bzw. Konstrukt erfasst (eindimensionaler Test), oder ob mit den Testitems mehrere Konstrukte bzw. Teilkonstrukte operationalisiert werden (mehrdimensionaler Test). (Bortz/ Döring, 2006, S. 221.) Die Dimensionalität der Skalen wird an Hand von konfirmativen bzw. explorativen Faktorenanalysen geprüft, „deren primäres Ziel darin zu sehen ist, einem größeren Variablensatz eine ordnende Struktur zu unterlegen.“ (Bortz, 2005, S. 511.) Faktorenanalysen decken Faktoren in der Skala auf, denen Faktorladungen zugeordnet werden. Eine eindimensionale Skala liegt vor, wenn alle Faktorladungen (Item-Inter-Korrelationen) auf einem Faktor laden, also hoch mit ihm korrelieren. Einher mit der Faktorenanalyse geht bei Mehrdimensionalität die inhaltliche Analyse der Faktoren. Faktorenanalysen dienen damit primär der Verfeinerung von Skalen und Konstrukten. Verwendung finden dabei die explorative (aufdeckende) und konfirmative, (bestätigende) Faktorenanalyse. (Vgl. Backhaus/Erichson/ Plinke, 2006, S. 330f.)

Itemkennwerte Schwierigkeit, Trennschärfe und Homogenität

Das ideale Item:

Das "ideale" Item ist trennscharf, variierend und mittel schwer!
Die "ideale" Skala ist homogen eindimensional und dennoch variierend!

Tipps:

• Wortwahl, Syntax, Bildbedeutung, Bilddarstellung, Länge, Wortzahl

• keine doppelten Verneinungen

• Abstraktionsgrad, Anschaulichkeit

• keine Suggestivfragen („Denken Sie nicht auch…?“)

• Bezug auf jeweils nur einen Sachverhalt

• affektive Konnotationen vermeiden („Wie stehen Sie zu solchen Kötern?“)

• Problem von Antworttendenzen (soz. Erwünschtheit, Extremwerte) und Item-Bias

• Effekte der Reihenfolge von Items, „Aufwärmer“

• unterschiedliche Item-Richtungen (umgepolte Items)

• graphische und verbale rating - Darstellung

• 5-stufige unipolare Likert-Skala

Beispielfragebogen mit Instruktion, Hinweisen & deskr. Fragen

Wir fassen zusammen. Wichtige Regeln zur Fragebogenkonstruktion:

Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam

Was können wir daraus für den Unterricht ableiten? Konkrete Tipps für die Konstruktion von Tests im Unterricht.

Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam

Aufgabe: Welche Messverfahren verwenden Sie darüber hinaus? Erzählen Sie von Ihren Erfahrungen.

Aufgabe: Entwerfen Sie einen Bewertungsbogen für einen Schülerhefter.

Tipp: Multiple Choice
http://www.lehren.tum.de/themen/pruefungen/multiple-choice-pruefungen/

Konkrete Unterrichtsmaterialien:
Multiple Choice Tests Vorlage
Evaluationsbogen
Zensuren berechnen
Beispiel Leistungsbewertung

Empirie 3: Statistische Auswertung

Literatur und Links:

Bortz, Jürgen: Statistik für Human- und Sozialwissenschaftler, 6. Auflage, Heidelberg, 2005.
Bühl, Achim: SPSS 18 - Einführung in die moderne Datenanalyse , 11. Auflage, 2009
http://www-01.ibm.com/software/de/stats20/
http://www.gnu.org/software/pspp/

Statistische Begriffe:

Population, Stichprobe, Mittelwert, Median, Standardabweichung, Signifikanz

Vortest auf Verteilung der Population:

Kolmogorov-Smirnoff Test [KS] Parametrie/Nonparametrie

Mittelwertvergleiche einer Population (über zwei Zeitpunkte hinweg):

Param: t-Test für abh. Stichproben [T] Mittelwertvergleich
Nonparam: Wilcoxon Test [T] Rangplatzdifferenz

Mittelwertvergleiche zweier Populationen (an einem Zeitpunkt):

Param: t-Test für unabh. Stichproben [T] Mittelwertvergleich
Nonparam: U-Test Mann/Whitney [U] Rangplatzsummenvergleich

Weitere Vergleiche:

Varianzanalyse / Friedmann Test mehrere Zeitpunkte/ mehrere Gruppen
Effektstärke z.B. Cohen`s D Unterschiede angegeben in Streuungseinheiten

Wir fassen zusammen. Wichtige Regeln zur stat. Auswertung:

Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam

science, media and education

Donnerstag, 20. Oktober 2011

Empirie und Statistik: Evaluation in Schule und Unterricht

Keine Kommentare:

Kommentar veröffentlichen

Blog-Archiv