Foto von: Robert (Bear) Guerrera

 

We need a culture of evaluation, independent and real-time evaluation with full transparency.

António Guterres, Secretary-General of the United Nations

We recognise that while the volumes of aid and other development resources must increase to achieve these goals, aid effectiveness  must increase significantly as well to support partner country efforts to strengthen governance and improve development performance.

Ministers  of  developed  and  developing  countries  responsible  for  promoting  development  and  Heads  of multilateral and bilateral development institutions, Paris Declaration on Aid Effectiveness, Statement of Resolve, 2005

Wirkungsevaluationen haben den Zweck, reale Veränderungen, die durch konkrete politische Maßnahmen, Programme, Produkte oder Maßnahmen entstanden sind, zu messen. Dabei gehen wir weiter, als bloß Inputs (bspw. Menge investierter finanzieller Mittel) und Outputs (bspw. Anzahl der durchgeführten Programme) zu zählen, und ziehen es vor zu fragen: „Haben die Programme wirklich geholfen? Haben Sie die Situation zum Besseren verändert, im Verhältnis zum Status Quo? Wie könnte das Programm weiterhin verbessert werden?“ Statt beispielsweise nur auf die Frage zu antworten, wie viele Kinder durch ein Bildungsprogramm erreicht werden konnten, können Wirkungsevaluationen messen, um wie viel die Bildungserträge (Wissen und Fähigkeiten) durch das Programm gewachsen sind.
Von Bedeutung ist hierbei, dass Wirkungsevaluationen den Vergleich benötigen, was gewesen wäre, wenn das Programm nicht angewendet worden wäre (das sogenannte Kontrafaktische). Daher benötigt es für Wirkungsevaluationen Kontrollgruppen, was Gruppen von Individuen sind, die nicht an dem Programm teilgenommen haben, sonst aber generell vergleichbar sind. Vergleichbare Kontrollgruppen ermöglichen die Bildung eines Schätzwerts des kontrafaktischen Ertrags dessen, was die Teilnehmer erfahren hätten, ohne am Programm teilzunehmen. Die Vergleichbarkeit ist von zentraler Bedeutung für die Glaubwürdigkeit der Evaluation.

Randomisierte Kontrollierte Studien (RCTs) sind die zuverlässigsten Evaluierungsarten in den Sozialwissenschaften, in denen Experimentanordnungen unter Laborbedingungen nicht wie in den Nachturwissenschaften anwendbar sind. Wie in medizinischen Studien gewährleisten kontrollierte Studien, dass Kontrollgruppen tatsächlich vergleichbar sind, und dass beim Einschätzen der Auswirkungen „gleich mit gleich“ verglichen wurde.

 

RCTs basieren auf zwei Hauptteilen:

    • Kontrollgruppe: Die Kontrollgruppe wird benötigt um das kontrafaktische Ergebnis zu bilden. Die Kontrollgruppe darf nicht dem Programm unterliegen (dem Eingriff, der Maßnahme) noch sollte sie von Nebeneffekten betroffen sein (dadurch, dass andere von dem Programm betroffen sind).
    • Randomisierte Studie: Potentielle Begünstigte befinden sich entweder in der Maßnahmengruppe oder in der Kontrollgruppe. Das sichert die Äquivalenz, was die Vergleichbarkeit der Gruppen ausmacht, sowohl bei den messbaren als auch nicht-messbaren Charakteristika an der Ausgangsbasis. Wenn Stichprobengrößen groß genug sind wird die Randomisierung Störfaktoren und Auswahleffekte ausblenden, da sich die Gruppen nur noch durch den Status der Maßnahme unterscheiden. Die Ergebnisse des Programms können dadurch nach ceteris paribus Verhältnissen (weitere Faktoren sind gleich) verglichen werden.

RCTs können daher kausale Zuordnung ermöglichen, da gemessene Unterschiede im Ergebnis dem Programm zugeordnet werden können. Mit anderen Worten: Die beobachteten Unterschiede zwischen Programmgruppe und Kontrollgruppe stellt die Auswirkung des Programms dar. Der Prozess der Randomisierung wiederum stellt sicher, dass die Einschätzung der Wirkung gleichbleibend ohne jegliche Annahme ist. Das ist ein Hauptvorteil gegenüber quasi-experimentellen Beobachtungsmethoden, welche oft auf nichtprüfbaren Ad-hoc-Annahmen basieren. Daher können Kontrollierte Studien als die strengsten, unvoreingenommensten Methoden zur Messung von Wirkungen angesehen werden und kausale Effekte und Pfade bestimmbar machen.

 

Viele Entwicklungsmaßnehmen werden auf Clusterebene umgesetzt, beispielsweise in Schulen, Gesundheitsposten, Mikrofinanzierungsbranchen, Gemeinde- und Gesellschaftsorganisationen. In solchen Fällen kann es naheliegend sein, alle einzelnen Personen oder Haushalte aus dem selben Cluster dem selben Maßnahmenstatus (Maßnahme oder Kontrolle) zuzuordnen. Als Beispiel: Allen Kindern einer Schule soll es ermöglicht werden, an einer Bildungsmaßnahme teilzunehmen. Oder: Alle Haushalte die durch den selben Gesundheitsposten versorgt werden sollen von einem ausgeweiteten Gesundheitsprogramm profitieren. In solchen Situationen muss die randomisierte Zuordnung der Maßnahme oder Kontolle auf Basis der Schule bzw. des Gesundheitspostens erfolgen (dem Custer), statt der der Individuums bzw. des Haushalts. Das beugt Ungerechtigkeit innerhalt des Clusters vor, ebenso wie der Möglichkeit von Nebeneffekten. Diese Methode heißt Cluster Randomisierte Kontrollierte Studie (C-RCTs). Auch wenn C-RCTs ähnlich aufgebaut sind wie RCTs, so haben sie bedeutende Ausgestaltungsmerkmale, vor allem bezüglich der Größe der Stichprobengröße.

c4ed_rcts

Wenn das Entwicklungsprogramm in Stufen eingeleitet wird, spricht man von der Übergangsgestaltung. In den ersten Jahren begrenzt auf eine gewisse Menge von Haushalten, Gemeinden, Schulen oder Gesundheitsposten, wird in den folgenden Jahren eine breitere Abdeckung erreicht. Das ist ein gewöhnlicher Ansatz bei der Durchführung von vielen Entwicklungsprogrammen. Eine Übergangsgestaltung hat den Vorteil, dass eine Kontrollgruppe nur für eine vorübergehende Zeit von der Maßnahme ausgeschlossen ist. Auch eine Hinauszögerung der Einführung für die Kontrollgruppe für einen kurzen Zeitraum (bspw. 2-3 Jahre) kann schon sehr hilfreich bei der Durchführung von einer RCT sein, und dadurch fundierte Schlüsse auf die Auswirkungen eines Programms zu ziehen. Die Wechselgestaltung ermöglicht es, bei der Anwendung einer Maßnahme zwischen den Gruppen zu wechseln. Beispielsweise können in Jahr 1 zufällig ausgewählte Gruppen als Teilnehmer die Maßnahmen erhalten, während andere Gruppen dies nicht tun. In Jahr 2 wiederum wird das Programm auf die vorherigen Kontrollgruppen angewandt und auf die erste Gruppe nicht mehr. Um unvoreingenommen Messergebnisse zu erzielen ist es bei dieser Art der Ausgestaltung sehr wichtig einen Austausch zwischen den Gruppen auszuschließen.
c4ed_spillovers

Wirkungsevaluation dient nicht nur der Feststellung ob ein Programm funktioniert hat oder nicht, sondern sollte ebenso Einblicke gewähren und Empfehlungen bieten, wie es zu verbessern wäre. Es besteht die Notwendigkeit zu erkennen, ob bspw. die Wirkung eines Programms verbessert werden kann in dem es mit anderen Maßnahmen kombiniert oder durch sie ergänzt wird. Anhand von Regressionsmethoden besteht die Möglichkeit, in welchem Umfang Auswirkungen auf kontextbezogenen und Umsetzungsfaktoren beruhen. Da dies suggestive Beweise hervorrufen kann, besteht bei dieser Herangehensweise die Gefahr von Auswahlbias. Im Gegensatz dazu bieten kontrollierte Studien mit zahlreichen Programm-Variationen, bzw. Behandlungsgruppen die besten Ansätze um zu erfahren, wie Entwicklungsprogramme verbessert werden können. Zum Beispiel: In einem Bildungsprogramm, in dem neue Schulbücher gestellt werden, ist es erforderlich zu erfahren, ob zusätzliche pädagogische Fortbildung der Lehrer erforderlich ist, oder ob die Bücher für sich genug Input darstellen. In diesem Fall würden Schulen der ersten Behandlungsgruppe (BG1) nur Bücher erhalten, während Schulen der zweiten Behandlungsgruppe (BG2) Bücher erhalten würden und die Lehrer zusätzlich pädagogische Fortbildung erhalten würden. Zusätzlich bleibt eine Gruppe ohne Maßnahmen, um die Wirkung von Büchern und Fortbildung im Vergleich zur Abwesenheit der Maßnahmen zu erfassen – allerdings kann die Kontrollgruppe auch weggelassen werden, wenn nur die Notwendigkeit besteht zu erfahren, wie der Unterschied in der Wirkungsweise der zusätzlichen Fortbildung ist. In jedem Fall muss die Zuordnung der Schulen zu den verschiedenen Behandlungsgruppen randomisiert erfolgen, um Auswahlbias vorzubeugen.

 

Verwendung von Behandlungsgruppen kann auch dazu dienen, die Auswirkungen von unterschiedlichen Intensitäten der applizierten Maßnahme zu analysieren. Beispielsweise könnten Lehrerfortbildungen jährlich oder halbjährlich erfolgen. Der marginale Unterschied in der Wirkung könnte Schlüsse der Durchführungsorganisation ermöglichen, ob die Investition in eine zweite jährliche Fortbildung in Bezug auf Lerneffekte bei Schülern lohnenswert ist.  Die detaillierten Informationen bezogen durch Behandlungsgruppen-Analyse können bei der Beantwortung vielfältiger Fragen von Relevanz für politische Gestaltung und Entscheidungsfindung helfen. Die Einbindung von Behandlungsgruppen in der Wirkungsevaluation kann aufzeigen, ob Programmteile austauschbar oder komplementär sind, außerdem auch die Analyse von Kosteneffizienz ermöglichen.

c4ed_rct-design

c4ed_program-variations

Bisher angewandte lineare Regressionsmodelle basierten auf der impliziten Annahme, dass alle Personen von einer Maßnahme im gleichen Maß beeinflusst wurden. Diese Annahme jedoch ist meistens nicht nachvollziehbar. Es ist eher anzunehmen, dass Manche mehr als Andere durch Verfahrenswechsel oder Programme beeinflusst werden. Mancher könnte stark profitieren, während Andere in einem viel kleineren Umfang profitieren. Die Effekte können sich in Quantilen unterscheiden und Kontextabhängig sein. Daher ist es wichtig zu ermitteln, wer und wie viele Personen durch Reformalternativen gewinnen oder verlieren. Das bedeutet, dass hierzu nicht bloß durchschnittliche Gewinne oder Verluste festgestellt werden müssen, sondern auch die Verteilung der Auswirkungen analysiert werden müssen, vor Allem in Bereichen wo die Ungleichheit der Möglichkeiten bzw. Ergebnisse besonders von Bedeutung sind, bspw. Bildung, Gesundheit, Löhne und Armut. Neue, auf nicht-parametrischen Modellen basierende ökonometrische Methoden ermöglichen die Analyse von der Heterogenitäts- und Verteilungseffekten, wodurch eine stark differenzierte Herangehensweise an Wirkungsevaluation möglich ist.

Wirkungsevaluation mit Heterogenitätsanalyse ist vor allem von Bedeutung in Bezug auf interindividuelle und intergruppenbezogene Vielfalt und auf die Unterschiede, welche bestimmte Maßnahmen haben könnten. Diese Effekt-Heterogenität muss analysiert werden um zu erfahren, welche Maßnahme bzw. welches Programm für wen am besten funktioniert. Wirkungsheterogenitätsanalyse, sofern eingebunden in der Analyse von kontrollierten Studien sowie quasi-experimentelle Ausgestaltung bieten herausragende Möglichkeiten um optimale, maßgeschneiderte Lösungen zu finden und zu entwickeln.

 

Um ein mögliches Beispiel von Wirkungsheterogenität zu bieten, so ist es möglich sich vorzustellen, dass das zur Verfügung stellen von neuen, pädagogisch angepassten Büchern vor allem jenen Schülern dient, welche zuvor schlecht dastanden. Es ist möglich, dass das durchschnittliche Ergebnis der Maßnahme gegen null geht, wobei es einen positiven Einfluss auf Schüler mit schlechteren Noten hat. Im Kontext von Chancengleichheit durch Bildung kann eine Überführung und Vergößerung des Programms durchaus Sinn machen, auch wenn die durchschnittliche Wirkung gering ist. Solche Effekte der Ungleichheit würden durch herkömmliche Regressionsmodelle vernachlässigt werden. Die Möglichkeit von Maßnahmenwirkungsquantilen zur Charakterisierung von heterogenen Wirkungen unterschiedlicher Punkte einer Auswirkungsverteilung macht sie auf vielfältige Weise anwendbar.

Difference-in-Difference(DiD)-Schätzung ist eine Methode quasi-experimenteller Wirkungsevaluation, welche ermöglicht, zeitlich konstante Unterschiede in unbeobachtbaren Variablen zu kontrollieren. Diese Methode ermöglicht den Fakt, dass es Unterschiede zwischen Kontroll- und Maßnahmengruppen geben kann (wie: unterschiede im Sozioökonomischen Status). Durch Verbindung von Vorher-Nachher- mit einfacher Differenzanalyse, geht DiD die Mängel beider Ansätze an, wie z.B. Reifebias oder Auswahlbias auf Grund von zeitkonstanten unbeobachtbaren Variablen.

Dennoch ist einer der Hauptnachteile von DiD im Vergleich mit kontrollierten Ausgestaltungen wie RCTs die Abhängigkeit von der Annahme gleichzeitiger Entwicklung. Diese Annahme setzt voraus, dass Maßnahmen- und Kontrollgruppe die selben Entwicklungen durchgemacht hätten, wenn die Maßnahme nicht stattgefunden hätte. Selbst im Falle dass beide Gruppen zum Ausgangszeitpunkt gleich scheinen, zumindest beobachtbare Variablen betreffend, so gewährt nichts, dass sie die gleiche Entwicklung durchgehen, da beeinflussende Faktoren auftreten könnten. Wenn beispielsweise die DiD so gestaltet ist, dass sie auf geographisch nicht überlappenden Kontroll- und Maßnahmengruppen beruht, so besteht doch die Möglichkeit, dass sich unvorhergesehene Ereignisse bloß auf eine der beiden Gruppen auswirken. Wenn bei der Einführung eines Bildungsprogramms, zum Beispiel, Schulen in der Maßnahmengruppe positiv durch weitere Regierungsbildungsprogramme beeinflusst werden, so verursacht das ein Bias in der Wirkungsmessung. Ebenso könnte das Auftreten einer Naturkatastrophe, wie z.B. eine Überschwemmung oder ein Erdbeben, zur einer Schließung von Schulen der Maßnahmengruppe über mehrere Monate führen, was zu einem negativen Effekt auf die Wirkung auf die Ergebnisse der Schulen führen würde. Sollten Schulen also anders ausgewählt werden, als auf randomisierten Grundlagen, wie bei RCTs, so ist zusammenfassend zu sagen, dass unbeobachtbare Faktoren, die sich im Laufe der Zeit ungleich auf beide Gruppen auswirken, nur schwer auszuschließen sind. Daher ist es schwer, die Annahme gleichzeitiger Entwicklung auf der DiD fußt zu validieren, es sei denn verschiedene Zeiträume stehen zur Verfügung.

Verhaltensökonomie verbindet Ökonomie mit Psychologie um Verhaltensmuster von Menschen im realen Kontext zu beobachten. Forschungsergebnisse der Verhaltensökonomie kann somit ebenfalls zur Entwicklung von besseren Ergebnissen bei der Hilfe zur Erreichung der Ziele beitragen.

Ein bekanntes Beispiel ist der Einfluss kognitiver Verzerrung auf das Verhalten, was durch den Nobelpreisträger Daniel Kahneman, neben Anderen, untersucht wurde. Kognitive Verzerrung ist, ebenso wie zeitliche Inkonsistenz, ein Verhaltensmuster in dem sich eine Präferenz im Laufe der Zeit wandelt, so dass sie mit der Zeit inkonsistent wird. So können beispielswiese am Ende des Tages Arbeiter entscheiden, ob sie ihre Tagslöhne ausgeben oder sparen. Nehmen wir an, dass sie jeden Abend die Entscheidung treffen, den heutigen Verdienst auszugeben, aber den vom folgenden Tag zu sparen.

Diese Entscheidung ist in sich zeitlich inkonsistent. Dadurch, dass sie jeden Tag die Entscheidung, das Geld zu sparen, auf den folgenden Tag verschieben, wird das Geld stets ausgegeben und nie gespart. Ebenso ist oft zu beobachten, dass bedürftige Händler in Entwicklungsländern jeden Morgen Geld zur hohen Zinsraten leihen und zur selben Zeit bei Niedrigzinsen anlegen. Auch wenn Mentale Buchführungsprozesse diese Muster erklären können, so bleibt dieses Verhalten sehr teuer und verhindert die Akkumulation produktiver Einsparungen.

Mit den Erkenntnissen aus kleinmaßstäbigen Verhaltensexperimenten besteht die Möglichkeit, potentielle Gegenmittel für kostenintensive Verhaltensmuster zu entwickeln und somit den Menschen zu helfen, in der Spur zu bleiben um ihre Ziele zu erreichen. Als konkretes Beispiel dienen Notsparguthaben, welche den Menschen helfen, für Notfälle zu sparen. Diese wurden in Zusammenarbeit mit der Negros Women for Tomorrow Foundation (NWTF) für die Philippinen entwickelt und wurden in der Folge zu einer großformatigen RCT.