Donnerstag, 20. Oktober 2011

Empirie und Statistik: Evaluation in Schule und Unterricht

Endlich mal gerechte Noten - Bewertung optimieren!


Niemand urteilt schärfer, als der Ungebildete, er kennt weder Gründe noch Gegengründe.
Anselm Feuerbach, 1829-1880


Hinweis:
Die Fortbildung befasst sich mit Grundlagen empirischer Forschung und versucht diese für Evaluationsverfahren und Leistungsbewertung im Schulunterricht fruchtbar zu machen.
An Hand der wissenschaftlichen Methode wird deutlich wie ungenau wir im Unterricht messen!

Aufgabe: Beantworten Sie mit je einem Satz...

Wie bewerten Sie Ihre Schüler?
Womit bewerten Sie Ihre Schüler?
Wer bewertet Ihre Schüler?
Wann bewerten Sie Ihre Schüler?
Warum bewerten Sie Ihre Schüler?
Was bewerten Sie bei Ihren Schülern?

Hattie Studie - Feedbackkultur


Feedback von Schülern und für Schüler!


A Model for Effective Feedback by Hattie & Timperley (2007) http://visible-learning.org/2013/02/john-hattie-helen-timperley-visible-learning-and-feedback/

Feedback und Bewertung sind (eigentlich) zwei Seiten einer Medaille!


Empirie 1: Grundlagen und Evaluationsdesign


Literatur und Links:
Kennen Sie weitere Literatur oder gute Links zu diesem Thema?


Konkrete Beispiele:


  • Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
  • Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
  • Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
  • Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
  • Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam

  • http://sep.isq-bb.de/schuelerfragebogen.pdf
  • http://lpmfs.lpm.uni-sb.de/SE/Werkzeuge/Sch%C3%BCler.pdf
  • http://www.psych.uni-potsdam.de/people/rheinberg/messverfahren/FAMLangfassung.pdf
  • http://www.ipn.uni-kiel.de/zfdn/pdf/006_Holster_13.pdf


  • How to evaluate?
    • Evaluationen im schulischen Zusammenhang dienen überwiegend dem Wirkungsnachweis [Bewertung] von Interventionen, dienen also der Frage ob die durchgeführte Intervention eine Veränderung in einer abhängigen Variable der Population herbeigeführt hat [Ziele].
    • Genauer müssen neben dem Interventionsprogramm (Ursache) die veränderten zumeist Persönlichkeitsvariablen (Wirkung) betrachtet werden und dafür gesorgt werden, dass die Wirkung mit möglichst hoher Genauigkeit auf die Ursache zurückgeführt werden kann. 
    • Eine tragfähige Evaluation sollte vergleichbar, zuverlässig, transparent, wiederholbar und valide sein.

    Hempel-Oppenheim-Schema:
    • Ursache -> Wirkung/ Ereignis
    • Explanans -> Explanandum
    • Unabhängige Variable -> Abhängige Variable

    Planungsfragen:
    • Was soll das treatment erreichen?
    • Was wird sich durch das treatment in der Population verändern?
    • Wie lassen sich die Veränderungen messen/belegen?
    • Was zeigt die Veränderungen an?
    • Wie kann ich Störungen der Messung kontrollieren?

    Ablauf:
    1. Hypothesen finden -> Wirkungshypothese Treatment
    2. Variablen operationalisieren
    3. Methoden, Instrumente, Indikatoren u. Design finden  
    4. Instrumente eichen
    5. prakt. Untersuchung
    6. Auswertung und stat. Bearbeitung

    Typische Evaluationsdesigns:
    • One Shot Posttest-Untersuchung [A2]
    • One Shot Posttest-Untersuchung mit Kontrollgruppe [A2 = B2; A2 < B2; A2 > B2]
    • Pre/Post Plan [A1 = A2; A1 < A2; A1 > A2]
    • Pre/Post/ Follow Plan [A1 = A2 = A3 ; A1 < A2 < A3; A1 > A2 > A3; ...]
    • Pre/Post/... Plan mit Kontrollgruppe [A1 = A2 = A3 ; A1 < A2 < A3; A1 > A2 > A3; ...; B1 = B2 = B3 ; B1 < B2 < B3; B1 > B2 > B3; ...A1 = B1; A1 < B1; A1 > B1;...]
    • [uvm]
    Untersuchung eines Treatments nach der Durchführung im Vergleich mit einer Kontrollgruppe

    Vor- und Nachuntersuchung eines Treatments mit baseline und Entwicklungsverlauf (follow up)


    Längsschnittuntersuchung  pre/post/follow mit  Experimental- und Kontrollgruppe

    post-Querschnittsuntersuchung mit Experimental- und Kontrollgruppe
    Verlauf von Kennwerten im quasiexperimentellen 2-Gruppen pre/post/follow Plan

    Wir fassen zusammen. Wichtige Regeln zur Evaluation:
    1. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    2. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    3. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    4. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    5. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    Was können wir daraus für den Unterricht ableiten? Wichtige Tipps zur Leistungserfassung:

    Leistungsbewertung/Evaluation sollte...

    1. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    2. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    3. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    4. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    5. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam

    Welche Methoden zur Leistungsmessung/Evaluation kennen/nutzen Sie?

    1. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    2. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    3. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    4. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    5. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam


    Empirie 2: Fragebogenkonstruktion und Erhebung

    Literatur und Links:
    Kennen Sie weitere gute Links oder Literatur?
    • Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    • Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    • Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    • Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam

    Planungsfragen für einen "Test" im Unterricht:
    Bei der Vorbereitung und der Erstellung eines Tests ist u.a. zu klären
    1. ZU WELCHEM ZWECK der Test erfolgt,
    2. WAS getestet werden soll (z.B. Fähigkeit, Fertigkeit, Inhalt, z.B. Grammatik, Wortschatz),
    3. WIE getestet werden soll (schriftlich, mündlich, Einzel- / Gruppenprüfung, lehrmaterialabhängig oder -unabhängig),
    4. WELCHEN Schwierigkeitsgrad der Test haben soll und
    5. WIEWEIT der Schwierigkeitsgrad für die Prüfenden angemessen ist,
    6. WELCHE Länge und Dauer der Test haben soll,
    7. OB und WELCHE Hilfsmittel erlaubt sein sollen (z.B. Wörterbuch),
    8. WELCHE Aufgabentypen verwendet werden sollen (dabei ist noch zu entscheiden, ob es Aufgabentypen aus dem bekannten Lehrmaterial oder neue sein sollen),
    9. OB eine Vorlaufphase, ein Probelauf erforderlich ist,
    10. WELCHE Ergebnisse zu erwarten sein werden,
    11. WIE Korrektur und Bewertung erfolgen sollen,
    12. WELCHE Konsequenzen sich aus den Testergebnissen ergeben werden (Wiederholung, Zusatzübungen etc.).
                         http://www.hueber.de/wiki-99-stichwoerter/index.php/Test 

    Allgemeiner Ablauf bei der Konstruktion eines Evaluationsbogens/Tests
    1. Variable(n) genau definieren, stets auch deskr. Fragen
    2. Form festlegen
    3. Items formulieren u. formatieren  
    4. Instruktionen verfassen
    5. Fragebogen eichen (Voruntersuchung!)
    6. stat. Testverfahren zur Auslese

    Items sind Fragen und Aussagen, die der Datenaufnahme dienen. Sie ermöglichen die Wandlung von qualitativen in quantitative Inhalte.

    Fehlerquellen:
    • Tendenz zu Item Bias (Wechsel)
    • Tendenz zu Extremwerten
    • Tendenz zu sozialer Erwünschtheit
    • Tendenz zu Mittelwerten

    Itemkennwerte/ Skalenkennwerte:  [aus S.Sommer, 2010: Interessengenese durch Interaktion]

    • Schwierigkeit: Der Schwierigkeitsindex p (p = probability, Wahrscheinlichkeit der Grundgesamtheit zur Lösung des Items) eines Fragebogenitems ist ein Maß für die generelle Lösungsrichtung des Items über mehrere Untersuchungspersonen. Wird beispielsweise ein dichotomes Item durchgehend von allen Testanden verneint, drückt dies ein hoher Schwierigkeitsindex aus, analog dazu die durchgehende Zustimmung ein niedriger Schwierigkeitsindex. Für polytome Items mit Ratingskalen gilt dies ebenso. Hohe Ausprägungen (scores) führen zu einem hohen Schwierigkeitsindex (leichtes Item) und niedrige Ausprägungen zu einem niedrigen Schwierigkeitsindex (schweres Item). "Bei dem leichtesten Item erreichen alle Probanden theoretisch die maximale Punktzahl, während beim schwersten Item niemand einen Punkt erhält." (Bortz/Döring, 2006, S.219.) Der Schwierigkeitsindex misst damit in zwei Richtungen zwischen 0 und 1, wie stark ausgeprägt ein Item bewertet wird. Der Gewinn der Messung liegt in der Erkenntnis über Items, die stark in eine Richtung orientiert beantwortet werden. Diese sind für die Darstellung von Unterschieden ungeeignet. Eine ideale Normalverteilung stellt sich um den Wert von 0,5 dar. Items außerhalb der Schwierigkeiten von 0,2 bis 0,8 gelten als zu stark polarisiert zur Messung von Personenunterschieden und sollten aus dem Itempool entfernt werden. (Vgl. Stauche/ Werlich, 2007.) (Vgl. Bortz/Döring, 2006, S.219.)
    • Trennschärfe: Der Trennschärfekoeffizient rit (rit = Korrelation von Item und Test) gibt über mehrere Items hinweg an, inwieweit die Lösungsrichtung eines einzelnen Testanden konstant bleibt. Anders formuliert gibt die Trennschärfe an, "wie gut ein einzelnes Item das Gesamtergebnis repräsentiert." (Bortz/Döring, 2006, S.219.) Ratingskalen sind zur Summenproduktion angelegt, was nahelegt die einzelnen Teile der Summe in eine Richtung messen zu lassen, um ein Merkmal eindeutig abzubilden. Bei stark unterschiedlichen Messrichtungen der Items ist von mehreren Populationen bzw. unterschiedlichen gemessenen Merkmalen auszugehen, die als Messfehler in die Skala eingehen. Man entnimmt daher den Wert des Items der Summe aller Items der Skala und testet die Korrelation (nach Pearson) des Items mit der bereinigten Restskala. (Vgl. Stauche/Werlich, 2007, S.3.) Das theoretisch, statistische Optimum ist die (idealistische) Korrelation von 1, inhaltlich stellen sich Items mit einem Korrelationsmaß höher als 0,3 als annehmbar dar. Gedämpfte Trennschärfemaße unter 0,3 enthalten kurvillineare Korrelationen, entstammen also mehreren unterschiedlichen Populationen.
    • Homogenität: „Alle Items eines eindimensionalen Instruments stellen Operationalisierungen desselben Konstrukts dar.“ (Bortz/Döring, 2006, S.220.) Daraus ergibt sich die Voraussetzung der hohen Korrelation der Items untereinander. Die Homogenität eines Items ergibt sich in der Itemkorrelationsmatrix, gemittelt aus den einzelnen Korrelationen der Items untereinander, ausgenommen der Autokorrelation mit sich selbst. Die gemittelte Homogenität aller Itemhomogenitäten stellt sich als gesamte Testhomogenität dar. Diese mittlere Itemkorrelation geht auch in den Reliabilitätskoeffizienten Cronbachs Alpha ein. Der Alphakoeffizient wird daher allgemeingebräuchlich auch als Homogenitätsindex verwendet. (Vgl. Bortz/ Döring, 2006, S. 221.)
    • Dimensionalität: „Die Dimensionalität eines Tests gibt an, ob er nur ein Merkmal bzw. Konstrukt erfasst (eindimensionaler Test), oder ob mit den Testitems mehrere Konstrukte bzw. Teilkonstrukte operationalisiert werden (mehrdimensionaler Test). (Bortz/ Döring, 2006, S. 221.) Die Dimensionalität der Skalen wird an Hand von konfirmativen bzw. explorativen Faktorenanalysen geprüft, „deren primäres Ziel darin zu sehen ist, einem größeren Variablensatz eine ordnende Struktur zu unterlegen.“ (Bortz, 2005, S. 511.)  Faktorenanalysen decken Faktoren in der Skala auf, denen Faktorladungen zugeordnet werden. Eine eindimensionale Skala liegt vor, wenn alle Faktorladungen (Item-Inter-Korrelationen) auf einem Faktor laden, also hoch mit ihm korrelieren. Einher mit der Faktorenanalyse geht bei Mehrdimensionalität die inhaltliche Analyse der Faktoren. Faktorenanalysen dienen damit primär der Verfeinerung von Skalen und Konstrukten. Verwendung finden dabei die explorative (aufdeckende) und konfirmative, (bestätigende) Faktorenanalyse. (Vgl. Backhaus/Erichson/ Plinke, 2006, S. 330f.)
           
    Itemkennwerte Schwierigkeit, Trennschärfe und Homogenität

    Das ideale Item:
    • Das "ideale" Item ist trennscharf, variierend und mittel schwer!
    • Die "ideale" Skala ist homogen eindimensional und dennoch variierend!
    Tipps:
              Wortwahl, Syntax, Bildbedeutung, Bilddarstellung, Länge, Wortzahl
              keine doppelten Verneinungen
              Abstraktionsgrad, Anschaulichkeit
              keine Suggestivfragen („Denken Sie nicht auch…?“)
              Bezug auf jeweils nur einen Sachverhalt
              affektive Konnotationen vermeiden („Wie stehen Sie zu solchen Kötern?“)
              Problem von Antworttendenzen (soz. Erwünschtheit, Extremwerte) und Item-Bias
              Effekte der Reihenfolge von Items, „Aufwärmer“
              unterschiedliche Item-Richtungen (umgepolte Items)
              graphische und verbale rating - Darstellung
              5-stufige unipolare Likert-Skala


    Beispielfragebogen mit Instruktion, Hinweisen & deskr. Fragen
    Wir fassen zusammen. Wichtige Regeln zur Fragebogenkonstruktion:
    1. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    2. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    3. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    4. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    5. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    Was können wir daraus für den Unterricht ableiten? Konkrete Tipps für die Konstruktion von Tests im Unterricht.


    1. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    2. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    3. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    4. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    5. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam

    Aufgabe: Welche Messverfahren verwenden Sie darüber hinaus? Erzählen Sie von Ihren Erfahrungen.

    Aufgabe: Entwerfen Sie einen Bewertungsbogen für einen Schülerhefter.

    Tipp: Multiple Choice
    http://www.lehren.tum.de/themen/pruefungen/multiple-choice-pruefungen/

    Konkrete Unterrichtsmaterialien:
    Multiple Choice Tests Vorlage
    Evaluationsbogen
    Zensuren berechnen
    Beispiel Leistungsbewertung

    Empirie 3: Statistische Auswertung 

    Literatur und Links:
    Statistische Begriffe:
    Population, Stichprobe, Mittelwert, Median, Standardabweichung, Signifikanz

    Vortest auf Verteilung der Population:
    • Kolmogorov-Smirnoff Test  [KS]              Parametrie/Nonparametrie

    Mittelwertvergleiche einer Population (über zwei Zeitpunkte hinweg):
    • Param:               t-Test für abh. Stichproben                        [T]          Mittelwertvergleich
    • Nonparam:        Wilcoxon Test                                           [T]          Rangplatzdifferenz

    Mittelwertvergleiche zweier Populationen (an einem Zeitpunkt):
    • Param:                 t-Test für unabh. Stichproben                   [T]          Mittelwertvergleich
    • Nonparam:          U-Test Mann/Whitney                              [U]         Rangplatzsummenvergleich

    Weitere Vergleiche:
    • Varianzanalyse / Friedmann Test                            mehrere Zeitpunkte/ mehrere Gruppen
    • Effektstärke z.B. Cohen`s D                                  Unterschiede angegeben in Streuungseinheiten



    Wir fassen zusammen. Wichtige Regeln zur stat. Auswertung:
    1. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    2. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    3. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    4. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam
    5. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam

    Keine Kommentare:

    Kommentar veröffentlichen