Unverzichtbares Instrument oder verzichtbare Gängelei?

Evaluation ist ein Thema, das in den letzten zwei bis drei Jahrzehnten in der deutschen Hochschullandschaft kontinuierlich an Bedeutung gewonnen hat. Erfasst und bewertet wird alles, was sich irgendwie greifen lässt: Forschungsleistungen, Publikationen, Forschungsanträge, Reputation, und eben auch die Lehre und die Lehrenden. 2008 ist ein Buch mit dem Titel „Wissenschaft unter Beobachtung“ erschienen. Bruno Frey spricht darin von einer neuen Krankheit: der Evaluitis.

Lehrevaluationen gelten den einen als unverzichtbares Instrument der Qualitätssicherung und -entwicklung, den anderen als verzichtbare Gängelei von Lehrenden und Studierenden. Einerseits wird Transparenz in der Lehre gefordert, andererseits sind kleine Beteiligungsquoten überall ein Problem. Von nützlichen Rückmeldungen für eine bessere Lehre ist ebenso die Rede wie unnützen Befindlichkeitsmessungen. Lehrevaluationen erhitzen schnell die Gemüter und polarisieren mitunter stark.

Das dürfte unter anderem daran liegen, dass viele Fragen in Bezug auf Lehrevaluationen bis heute offen sind: Wer kann die Qualität der Lehre einschätzen? Sind das nur die Studierenden oder auch andere und der Lehrende selbst? Wann sind Studierende bereit, ein ehrliches und umfassendes Feedback auf die Lehre zu geben? Was ist der geeignete Gegenstand der Bewertung: eine Veranstaltungskomponente, eine ganze Veranstaltung, ein Modul oder ein Studienabschnitt? Welche Bewertungskriterien sind für was geeignet? Unter welchen Bedingungen helfen Evaluationen den Lehrenden, ihre Lehre zu verbessern? Wann ist der geeignete Zeitpunkt für eine Evaluation? Was ist zu tun, wenn Rückmeldungen widersprüchlich sind? Was passiert mit Evaluationsergebnissen? Soll Lehre durch Evaluationen homogener oder vielfältiger werden? In welcher Hinsicht? Können Lehrevaluationen vielleicht auch schaden? Was wäre, wenn wir nicht mehr evaluieren würden?

Vor zwei Wochen hatten wir an der Zeppelin Universität eine Veranstaltung zu dem Thema Lehrevaluation – im kleinem Kreis (wo waren nur die Interessierten?), aber deswegen nicht minder interessant – im Gegenteil. Zu Gast hatten wir Jan Hense (Uni Gießen) und Peter Tremp (PH Zürich).

Jan Hense gab einen Überblick über die Möglichkeiten und Grenzen der Lehrveranstaltungsevaluation (LVE) und widmete sich vor allem der Frage nach dem Zweck von Evaluationen und den damit zusammenhängenden Anforderungen etwa an die methodische, inhaltliche und organisatorische Gestaltung insbesondere von Befragungsinstrumenten. Dabei bezog er auch empirische Forschungsarbeiten u.a. zur Wirksamkeit von Evaluationen in der Lehre ein, die in der Regel deutlich machen: Evaluationen alleine bewirken kaum etwas, eher sind es sich daran anschließende oder damit verbundene Beratungen, die einen Effekt (z.B. Verbesserung von Lehrkonzepten) haben können.

Weit verbreitete Hindernisse für eine wirksame LVE sind nach aktueller Forschungslage sowie auf Basis praktischer Eindrücke: (a) die Verwendung von starren Standardinstrumenten, (b) die zentrale Organisation ohne ausreichende Koppelung zur „Basis“, (c) eine fehlende Einbettung in ein umfassendes Qualitätsmanagement, (d) diffuses „Ownership“ und (e) das Empfinden von Lehrveranstaltungsevaluationen als Fremdkörper und allenfalls ertragenes Ritual.

Es gibt aber auch ein grundsätzliches Problem: Was genau „Qualität von Lehre“ ist, wann die Lehre „gut“ ist und wie der Qualitätsbegriff zu verwenden ist, ist weder theoretisch noch praktisch zufriedenstellend geklärt. Da sich das Theoriedefizit nicht praktisch lösen lässt, ist es für die Praxis wichtig, zumindest lokale konsensfähige Normen sowie Leitbilder guter Lehre zu kreieren.

Damit Rückmeldungen aus Evaluationen in Hochschulen, aber auch generell überhaupt wirksam werden können, müssen viele Prozesse stattfinden bzw. angeregt werden, die man sich in der Regel nicht ausreichend vergegenwärtigt: (a) die Ergebnisse müssen überhaupt rezipiert werden, (b) sie müssen verstanden werden, (c) sie müssen akzeptiert werden, (d) aus ihnen müssen Konsequenzen abgeleitet werden, (e) die Konsequenzen müssen umgesetzt werden.

Will man etwas an LVE verändern, stehen einem folgende Stellschrauben zur Verfügung: (a) inhaltliche (Qualitätsverständnis und -dimensionen), (b) methodische (Instrumente, Art der erhobenen Daten), (c) zeitliche (Zeitpunkt der Bekanntmachung, der Erhebung, der Rückmeldung, Rhythmisierung etc.), durchführungsorganisatorische (ganze Uni/Fachbereich/Lehreinheit/individuell, online/Papier/ mobil, Vollerhebung/Stichprobe), (d) Art der Rückmeldung (Vergleichsnormen, Begleitinformation, Koppelung mit Beratung), (e) Ownership (Verbindlichkeit, Partizipation, Responsivität).

Eine ganz entscheidende Frage ist die, wem und wozu eine LVE dienen soll (Zweckfrage): (a) Geht es darum, eine laufende Veranstaltung zu verbessern, sind informelle, qualitative Verfahren während der Veranstaltung sinnvoll. (b) Soll die nächste Veranstaltung verbessert werden, sollte am Ende und ebenfalls qualitativ evaluiert werden, wobei Standards oder Vergleiche transparent zu machen sind. (c) Soll die Evaluation Hinweise auf hochschuldidaktische Weiterbildungsangebote bringen, können quantitative Daten nützlich sein. (d) Dient die Evaluation vor allem zur Rechenschaft und Kontrolle (z.B. Lehrberichte) eignen sich standardisierte Instrumente und quantitative Daten, wobei auch hier Standards transparent sein müssen. (e) Will man Evaluationsdaten für Berufungsverfahren oder für Studienentscheidungen nutzen, sind wieder andere Daten sinnvoll etc. Fazit und Schwierigkeit: One size does not fits all! Aber trotzdem hat sich ein Verfahren etabliert, das alle(s) bedienen soll.

Eine häufige Fehlannahme ist, dass man immer Vollerhebungen braucht: Stichproben oder auch eine Rhythmisierung (nicht jede Veranstaltung immer evaluieren) können sinnvoll sein. Eine Reduktion auf den „Outcome“ ist ebenfalls nicht angeraten: Notwendig ist eine ganzheitliche Perspektive (also die Gegenstand, Kontext und der Lernende selbst, die das Ergebnis ebenfalls beeinflussen). Für die übliches Verzerrungen (z.B. die, dass das Interesse an einem Tema systematisch die Beurteilung verzerrt) gibt es kaum wirksame Mittel, lautet das Fazit aus Henses Vortrag.

Peter Tremp fokussierte in seinem Beitrag die Frage, wie man das Besondere der Lehre an Hochschulen, insbesondere an Universitäten, bei Lehrevaluationen berücksichtigen kann. Im Zentrum des Interesses stand daher die Forschungsorientierung (als Modus des Lernens an der Universität) in verschiedenen Phasen des Studiums und deren Einfluss auf die Möglichkeiten und Grenzen der Lehrevaluation, die üblicherweise unspezifisch gegenüber forschungsorientierter Lehre ist.

Forschungsorientierung in der Lehre kann viel bedeuten. Eine gängige (wenn auch nicht die einzige) Auffassung konzentriert sich darauf, dass Studierende selbst einen vollständigen Forschungsprozess (von der Generierung der Fragestellung über die Erhebung und Auswertung von Daten bis zur Publikation der Ergebnisse) durchlaufen. Einzelne Veranstaltungstypen wie auch einzelne Prüfungsformate können (und sollten) bestimmte Phasen des Forschungsprozesses besonders fokussieren. Dies lässt sich beispielhaft am Züricher Framework forschungsorientierter Lehre zeigen Lehrevaluationen sollten auf diese Besonderheiten in der Lehre eingehen.

Viele gängige Instrumente (in der Regel Befragungen) aber machen genau dies nicht. Sie fragen (vermeintliche) Standards der Lehre ab (z.B. Strukturierung der Veranstaltung, Vorbereitung des Lehrenden, Kompetenz des Lernenden), die mit der Forschungsorientierung wenig zu tun haben. Zum Teil nehmen sie auf personale Faktoren des Lehrenden Bezug, die Studierende meist schwer oder nicht beurteilen können. In Fragebögen könnte und sollte man daher auf Items, die allein die Lehrenden-Perspektive einnehmen, verzichten. Auf das Lernen im Selbststudium wird in der Regel gar nicht Bezug genommen, obwohl es wesentlicher Teil des Studiums ist.

Beispielhaft werden Fragen aus der Evaluation von Modulen genannt und erläutert, die für Studierende auch gut zu beantworten sind: (a) „Das Modul war für mich intellektuell herausfordernd“, (b) Im Modul hatte ich ausreichend Gelegenheit, meine Standpunkte und Fragen einzubringen“, (c) Die Dozierenden waren für meine Anliege und Fragen genügend oft ansprechbar“, (d) Es war mir klar, welche Leistungen von mir erwartet werden, um das Modul zu bestehen“, (e) „Ich habe immer wieder wertvolle Rückmeldungen auf meine Beiträge und Leistungen erhalten“, (f) Der geforderte Leistungsnachweis hat mir ermöglicht, meine erworbenen Kompetenzen tatsächlich zu zeigen“, (g) „Ich bin sehr motiviert, mich weiter in dieser Thematik zu vertiefen“, (h) „Insgesamt habe ich durch dieses Modul einen guten Einblick erhalten, wie Wissenschaft und Forschung funktionieren“, (i) „Insgesamt hat mich dieses Modul darin unterstützt, ein Teil der Universitäts- und Wissenschafts-Community zu werden“, (j) „Die im Selbststudium zu erledigenden Aufgaben waren eine gute Ergänzung zu den Prä-senzveranstaltungen“.

Am Ende macht Peter Tremp für die Lehrevaluation drei Vorschläge: (a) Das hochschulische Lernen sollte auch bei der Evaluation im Zentrum stehen – also die Forschungsorientierung. (b) Die didaktischen Funktionen der Evaluation sollten berücksichtigt werden, was auch zu der Frage führt, ob man z.B. eine Lehrveranstaltung, ein Modul oder eine Studienphase evaluiert. (c) Sinnvolle wäre es, eine strukturelle Differenz einzuführen: Studierende bewerten nicht das Lehrangebot an sich, sondern schätzen ihre Lerngelegenheiten ein.

Im Workshop-Teil der Veranstaltung wurden noch einmal gezielt Inhalte aus den Beiträgen herausgegriffen und auf die Situation und den Bedarf an der ZU bezogen. Aus meiner Sicht waren die folgende Punkte wichtig:

(Teil-)Individualisierung von Erhebungsinstrumenten (z.B. Fragebogen), in denen man einen Teil der Items als Lehrender selbst bestimmen kann. Sinnvoll erscheint hier vor allem ein Pool an Items, aus dem man auswählen kann. Man kombiniert dann also einen standardisierten Teil (für alle gleich) mit einem nicht- bzw. teil-standardisierten Teil (Auswahl aus Item-Pool).
Rhythmisierung der Evaluationen, damit nicht jede Veranstaltung immer evaluiert wird: z.B. neue Veranstaltungen evaluieren, Veranstaltungen auf Wunsch des Dozenten evaluieren, Veranstaltungen nach Programmen im Wechsel evaluieren etc. (weitere Möglichkeiten denkbar).
Eine Explizierung des (lokalen) Qualitätsverständnisses z.B. durch Positionspapiere zur (for-schungsorientierten) Lehre, aus denen man Qualitätsdimensionen für die Evaluation ableiten kann.
Evaluationen sind immer auch Interventionen; sie setzen also Signale (oft nur implizit und nicht immer so, wie man das gerne hätte). Man kann das aber auch konstruktiv nutzen und z.B. Evaluationen nicht jedes Jahr gleich machen, sondern z.B. jährliche Schwerpunkte setzen.
Alle paar Jahre sollte man auch die eigene Evaluation bzw. Evaluationsinstrumente evaluieren (zu klären ist, ob das intern oder extern erfolgt, als Selbst- oder Fremdevaluation).
Zwecke der Evaluation berücksichtigen: Dass ein Instrument schlecht mehrere Zwecke gleichzeitig optimal bedienen kann, leuchtet ein. Sinnvoll wäre z.B. die Trennung von drei Zwecken, für die man eventuell drei verschiedene Verfahren bräuchte:

a. Zweck der Verbesserung der Lehre bzw. der einzelnen Lehrveranstaltungen über die Lehrpersonen (und deren Kompetenzen): Hier ist eine Verknüpfung mit hochschuldidaktischer Beratung essenziell (was auch der Forschungsstand zu Evaluationen besagt!).

b. Zweck des internen und externen Reportings: Hier geht es um die Sicherstellung gemeinsamer Qualitätsstandards mit Partizipation der Lehrenden und Studierenden sowie um die Legitimation etwa im Rahmen einer Systemakkreditierung (wenn diese vorliegt oder angestrebt wird).

c. Zweck der Unterstützung von Nachwuchswissenschaftlern: Hier braucht man Evaluationsdaten, die für Berufungsverfahren geeignet sind (Standardinstrumente sind durchaus sinnvoll wegen der Vergleichbarkeit).

geschehenEvaluation, Qualität, Qualitätsmanagement

Schreibe einen Kommentar