FAQ-Bewertungen (nur Lightbox)2023-01-18T16:51:31+01:00
Differenz-in-Differenzen (DiD)2022-01-16T22:43:19+01:00

Die Differenz-in-Differenzen-Schätzung ist eine quasi-experimentelle Methode der Wirkungsevaluierung, die es erlaubt, zeitlich konstante Unterschiede in unbeobachtbaren Variablen zu kontrollieren. Die Methode lässt zu, dass Unterschiede zwischen Kontroll- und Behandlungsgruppen bestehen können (z. B. unterschiedliche Durchschnittswerte des sozioökonomischen Status). Durch die Kombination von Vorher-Nachher- und einfacher Differenzanalyse behebt DiD die Mängel beider Ansätze, wie z. B. Reifeverzerrungen oder Selektionsverzerrungen, die sich aus zeitlich konstanten, unbeobachtbaren Variablen ergeben.

Ein wesentlicher Nachteil von DiD im Vergleich zu kontrollierten Designs wie RCTs ist jedoch die Abhängigkeit von einer gemeinsame Trendannahme. Diese Annahme setzt voraus, dass die Behandlungseinheiten und die Vergleichseinheiten ohne die Intervention im Laufe der Zeit dieselbe Entwicklung durchlaufen hätten. Die Annahme eines gemeinsamen Trends ist vielen Gefahren ausgesetzt und kann leicht verletzt werden. Selbst wenn die beiden Gruppen zu Beginn ähnlich aussehen, zumindest in Bezug auf die beobachtbaren Variablen, gibt es keine Garantie dafür, dass sie sich im Laufe der Zeit ähnlich entwickeln, da einige störende Faktoren eine Rolle spielen können. Wenn die DiD beispielsweise auf der Grundlage von sich geografisch nicht überschneidenden Kontroll- und Behandlungsgruppen konzipiert ist, besteht das Risiko, dass einige unvorhergesehene Ereignisse nur eine der beiden Gruppen betreffen. Im Zuge der Umsetzung eines Bildungsprogramms könnten beispielsweise Schulen der Behandlungsgruppe durch andere staatliche Bildungsprogramme positiv beeinflusst werden, was zu einer Verzerrung der Wirkungsschätzungen führt. Ebenso kann eine Naturkatastrophe wie eine Überschwemmung oder ein Erdbeben dazu führen, dass die Schulen der Behandlungsgruppe für mehrere Monate geschlossen werden, was sich negativ auf die schulischen Ergebnisse auswirkt. Zusammenfassend lässt sich sagen, dass die Existenz eines unbeobachtbaren Faktors, der sich im Laufe der Zeit ungleich auf die beiden Gruppen auswirkt, kaum ausgeschlossen werden kann, es sei denn, die Schulen werden nach dem Zufallsprinzip wie in einem RCT-Design ausgewählt. Daher ist es schwierig, die Annahme eines gemeinsamen Trends, auf die sich DiD stützt, zu validieren, wenn nicht mehrere Zeiträume zur Verfügung stehen.

Verteilungsanalyse und Quantileffekte der Behandlung2022-01-16T22:42:51+01:00

Die bisher üblicherweise verwendeten linearen Regressionsmodelle basierten auf der impliziten Annahme, dass alle Individuen in gleicher Weise von einer Intervention betroffen sind. Diese Annahme ist jedoch häufig unplausibel. Vielmehr würde man erwarten, dass einige Menschen von einer politischen Veränderung oder einem bestimmten Programm stärker betroffen sind als andere. Einige Menschen profitieren vielleicht sehr stark, während andere in weitaus geringerem Maße davon profitieren. Die Auswirkungen könnten sich nach Quantilen unterscheiden und kontextabhängig sein. Daher ist es wichtig zu ermitteln, wer und wie viele Menschen durch eine bestimmte Reformalternative verlieren oder gewinnen. Dies bedeutet, dass nicht nur die durchschnittlichen Gewinne oder Verluste bewertet werden müssen, sondern auch die Verteilung der Auswirkungen analysiert werden sollte, insbesondere in Bereichen, in denen die Ungleichheit der Chancen oder Ergebnisse besonders wichtig ist, z. B. Bildung, Gesundheit, Einkommen und Armut. Neue ökonometrische Methoden, die auf nichtparametrischen Modellen beruhen, erlauben Analyse der Heterogenität und der VerteilungseffekteDies ermöglicht einen sehr viel differenzierteren Ansatz bei der Bewertung der Auswirkungen.

Wirkungsevaluierungen mit Heterogenitätsanalyse berücksichtigen speziell die Vielfalt zwischen Individuen und Gruppen sowie Unterschiede in den Auswirkungen, die bestimmte Interventionen haben können. Diese Heterogenität der Wirkungen muss analysiert werden, um zu erfahren, welche Intervention oder welches Programm für wen am besten funktioniert. Die Analyse der Wirkungsheterogenität bietet, wenn sie in die Analyse von kontrollierten Studien und quasi-experimentellen Designs eingebettet ist, ein interessantes Potenzial, um maßgeschneiderte optimale Lösungen zu finden und zu entwickeln.

Um ein konkretes Beispiel für Effektheterogenität zu geben, kann man sich vorstellen, dass die Bereitstellung neuer, pädagogisch angepasster Schulbücher vor allem die Lernergebnisse von Schülern verbessern würde, die zuvor schlechtere Leistungen erzielt haben. Es kann sein, dass das Programm im Durchschnitt einen Behandlungseffekt von Null hat, aber eine positive Wirkung auf leistungsschwächere Schüler hat. Im Zusammenhang mit der Gewährung von Chancengleichheit durch Bildung kann die Annahme und Ausweitung des Programms sinnvoll sein, selbst wenn die durchschnittlichen Auswirkungen gering sind. Solche Auswirkungen auf die Ungleichheit würden von herkömmlichen Regressionsmodellen nicht erfasst. Die Fähigkeit von Quantil-Behandlungseffekte die heterogenen Auswirkungen auf verschiedene Punkte einer Ergebnisverteilung zu charakterisieren, macht sie für viele Anwendungen interessant.

Phase-in und Rotationsmuster2022-01-16T19:34:11+01:00

In einem Phase-in-DesignDas Entwicklungsprogramm wird schrittweise umgesetzt. In den ersten Jahren kommt eine begrenzte Anzahl von Haushalten, Dörfern, Schulen oder Gesundheitsstationen in den Genuss des Programms, während die Abdeckung in den folgenden Jahren zunimmt. Dies ist ein natürlicher Ansatz bei der Durchführung vieler Entwicklungsprogramme. Ein Phase-in-Design hat den Vorteil, dass die Kontrollgruppe nur vorübergehend vom Programm ausgeschlossen ist. Eine Verzögerung der Programmeinführung in der Kontrollgruppe, auch nur für einen kurzen Zeitraum (z. B. 2-3 Jahre), ist dennoch sehr nützlich, um die Durchführung einer RCT zu ermöglichen und damit solide Schlussfolgerungen über die Auswirkungen des Programms zu ziehen. A Rotationsprinzip bietet die Möglichkeit, die Programmdurchführung zwischen den Gruppen zu wechseln. So erhalten beispielsweise im Jahr 1 die Gruppen, die nach dem Zufallsprinzip als Teilnehmer ausgewählt wurden, das Programm, während die Kontrollgruppen nicht teilnehmen. Im Jahr 2 wird das Programm in den ehemaligen Kontrollgruppen durchgeführt und nicht mehr in der ersten Gruppe. Damit dieses Design zu unverzerrten Schätzungen führt, darf es jedoch keine Interaktion zwischen den Kohorten geben.

Portfolio-Bewertungen2022-01-16T22:27:32+01:00

Bei einer Portfoliobewertung werden in den meisten Fällen gemischte Methoden eingesetzt, um eine Beschreibung des untersuchten Gesamtportfolios zu erstellen. Da eine kontrafaktische Analyse für die Evaluierung des Portfolios nicht möglich ist, werden die meisten Evaluierungen in erster Linie qualitative Methoden verwenden. Qualitative Methoden können reichhaltige kontextbezogene Informationen liefern, die einen Einblick geben in wie die warum Interventionen schaffen Wirkung.

Propensity Score Matching (PSM)2022-01-16T22:29:56+01:00

Propensity Score Matching (PSM) ist eine quasi-experimentelle ökonometrische Methode, bei der Programmteilnehmer und Nichtteilnehmer auf der Grundlage beobachtbarer Merkmale abgeglichen werden. Der Unterschied in den Ergebnissen zwischen den übereinstimmenden Beobachtungen wird dann dem Programm zugeschrieben.

Randomisierte kontrollierte Studien (RCTs)2022-01-16T22:43:49+01:00

Randomisierte Kontrollstudien (RCTs) sind die zuverlässigsten Evaluierungsdesigns in den Sozialwissenschaften, wo experimentelle Labordesigns wie in den Naturwissenschaften nicht anwendbar sind. Ähnlich wie bei medizinischen Experimenten stellen Kontrollstudien sicher, dass die Kontrollgruppen wirklich vergleichbar sind und dass wir bei der Abschätzung der Auswirkungen "Gleiches mit Gleichem" vergleichen.

RCTs basieren auf zwei Hauptkomponenten:

  • Kontrollgruppe: Es gibt eine Kontrollgruppe, mit der das kontrafaktische Ergebnis konstruiert wird. Die Kontrollgruppe sollte weder von dem Programm (der Intervention oder Behandlung) noch von Spillover-Effekten (der Tatsache, dass andere das Programm erhalten) betroffen sein.
  • Randomisierte Studie: Die potenziellen Begünstigten werden nach dem Zufallsprinzip entweder der Behandlungs- oder der Kontrollgruppe zugeteilt. Dies gewährleistet die Gleichwertigkeitd. h. die Vergleichbarkeit der Gruppen in Bezug auf alle beobachtbaren und nicht beobachtbaren Merkmale zu Beginn der Studie. Wenn Stichprobengrößen ausreichend groß sind, werden durch die Randomisierung alle Störfaktoren und Selektionsverzerrungen beseitigt, da sich beide Gruppen nur in Bezug auf ihren Behandlungsstatus unterscheiden. Die Ergebnisse des Programms können daher verglichen werden auf ceteris paribus Bedingungen (bei sonst gleichen Faktoren).

RCTs ermöglichen daher Kausalattributionda die beobachteten Unterschiede bei den Ergebnisvariablen auf das Programm selbst zurückgeführt werden können. Mit anderen Worten: Der beobachtete Unterschied zwischen der Programm- und der Kontrollgruppe stellt die Wirkung dar, die durch das Programm erzielt wurde. Der Randomisierungsprozess stellt außerdem sicher, dass die Wirkungsschätzungen ohne jegliche Annahmen konsistent sind. Dies ist ein großer Vorteil gegenüber quasi-experimentellen Beobachtungsmethoden, die häufig auf nicht überprüfbaren Ad-hoc-Annahmen beruhen. Daher stellen Kontrollstudien die strengste, unvoreingenommenste Methode zur Messung von Auswirkungen und zur Ermittlung von kausalen Effekten und Wirkungspfaden dar.

Viele Entwicklungsmaßnahmen werden auf Clusterebene durchgeführt, z. B. durch Schulen, Gesundheitsstationen, Mikrofinanzfilialen, Dorf- und Gemeindeorganisationen. In solchen Fällen kann es zwingende Gründe geben, alle Personen oder Haushalte, die zum selben Cluster gehören, demselben Interventionsstatus (Behandlung oder Kontrolle) zuzuordnen. So sollten beispielsweise alle Kinder einer bestimmten Schule an einer Bildungsmaßnahme teilnehmen können. In ähnlicher Weise sollten alle Haushalte, die von einer bestimmten Gesundheitsstation versorgt werden, von einem erweiterten Gesundheitsprogramm profitieren. In solchen Situationen muss die zufällige Zuordnung von Behandlung und Kontrolle auf der Ebene der Schule oder des Gesundheitspostens (des Clusters) und nicht auf der Ebene des Einzelnen oder des Haushalts erfolgen. Dies verhindert Ungerechtigkeiten innerhalb von Clustern sowie das Auftreten von Spillover-Effekten. Diese Methode wird bezeichnet als cluster-randomisierte Kontrollstudien (C-RCTs). Während C-RCTs konzeptionell wie RCTs sind, haben sie relevante Auswirkungen auf das Design, insbesondere im Hinblick auf die Stichprobengröße.

Regressions-Diskontinuitäts-Design (RDD)2023-01-24T14:20:41+01:00

Regression Discontinuity Designs (RDDs) sind eine Art von quasi-experimentellem Forschungsdesign, das verwendet werden kann, um den kausalen Effekt einer Behandlung oder Politik auf ein bestimmtes Ergebnis zu schätzen. Das Design basiert auf der Idee, dass die Zuweisung der Behandlung oder des Zugangs zu einem Programm auf einer kontinuierlichen Variable beruht, wie z. B. einer Punktzahl in einem Test oder einer Altersgrenze. Die RDD wird verwendet, um die kausale Wirkung des Programms oder der Behandlung zu schätzen, indem die Ergebnisse von Personen knapp über und knapp unter dem Schwellenwert verglichen werden.

RDDs haben mehrere Vorteile gegenüber anderen quasi-experimentellen Designs, wie z. B. randomisierten kontrollierten Studien oder Propensity Score Matching. Einer der Hauptvorteile besteht darin, dass RDDs in Situationen eingesetzt werden können, in denen eine Randomisierung nicht möglich oder sinnvoll ist. Darüber hinaus können RDDs potenzielle Störfaktoren kontrollieren, die mit dem Schwellenwert in Verbindung stehen können, wie z. B. der sozioökonomische Status oder Ergebnisse vor der Behandlung. Allerdings haben RDDs auch einige Einschränkungen, wie das Potenzial für Messfehler und die Notwendigkeit einer großen Stichprobengröße, um kleine Behandlungseffekte zu erkennen.

RDDs sind ein wichtiges Instrument im Werkzeugkasten der Wirkungsevaluierung und werden häufig in Bereichen wie Wirtschaft, Politikwissenschaft und Bildung eingesetzt, um kausale Effekte von Maßnahmen und Programmen zu schätzen. Aufgrund ihrer Vielseitigkeit und der Möglichkeit, für potenzielle Störfaktoren zu kontrollieren, sind RDDs in den letzten Jahren immer beliebter geworden, um kausale Effekte in Situationen zu schätzen, in denen eine Randomisierung nicht möglich ist.

Behandlungsarme und Programmvariationen2022-01-16T19:35:50+01:00

Bei der Wirkungsevaluierung geht es nicht nur darum, zu beurteilen, ob ein Programm funktioniert hat oder nicht, sondern sie soll auch Erkenntnisse und Empfehlungen zur Verbesserung des Programms liefern. Man müsste zum Beispiel wissen, ob die Wirkung des Programms durch die Kombination oder Ergänzung mit anderen Maßnahmen verbessert werden kann. Die Analyse, inwieweit die Wirkungen von Kontext- und Umsetzungsfaktoren abhängen, kann mit Hilfe von Regressionsmethoden versucht werden. Dies kann zwar suggestive Hinweise liefern, doch sind solche Ansätze dem Risiko der Selektionsverzerrung ausgesetzt. Im Gegensatz dazu sind kontrollierte Studien mit mehreren Programmvarianten, die auch als Behandlungsarme bezeichnet werden, der ideale Ansatz, um zu erfahren, wie Entwicklungsprogramme verbessert werden können. So möchte man beispielsweise bei einem Bildungsprogramm, bei dem neue Schulbücher geliefert werden, wissen, ob eine zusätzliche pädagogische Ausbildung der Lehrer erforderlich ist oder ob die Bücher allein ausreichen. In einem solchen Umfeld werden die Schulen in der ersten

Die Schulen im ersten Behandlungsarm (TA1) würden nur Bücher erhalten, während die Schulen im zweiten Behandlungsarm (TA2) eine Kombination aus Büchern und zusätzlicher pädagogischer Lehrerfortbildung erhalten würden. Darüber hinaus verbleibt eine Kontrollgruppe, um die Auswirkungen von Büchern und Fortbildung im Vergleich zum Fehlen jeglicher Intervention zu schätzen - die Kontrollgruppe könnte sogar weggelassen werden, wenn man nur an den unterschiedlichen Auswirkungen der zusätzlichen Fortbildung interessiert wäre. In jedem Fall muss die Zuteilung der Schulen zu den Behandlungsgruppen auf einem Randomisierungsprotokoll beruhen, um Selektionsverzerrungen zu vermeiden.

Treatment-Arms-Designs können auch verwendet werden, um die Auswirkungen verschiedener Intensitäten einer bestimmten Maßnahme. So könnten beispielsweise Lehrerschulungen entweder einmal oder zweimal im Jahr durchgeführt werden. Der marginale Unterschied im Ergebnis könnte die Durchführungsstelle darüber informieren, ob sich die Investition in eine zweite jährliche Schulung im Hinblick auf die Verbesserung der Lernergebnisse lohnt. Die detaillierten Informationen, die die Analyse der Behandlungsarme liefert, können zur Beantwortung vielfältiger Fragen beitragen, die für die Gestaltung der Politik und die Entscheidungsfindung von Bedeutung sind. Die Einbettung von Behandlungsarmen in die Wirkungsevaluation kann zeigen, ob die Programmkomponenten Substitute oder Ergänzungen sind, oder sie kann Hinweise geben für Kosten-Wirksamkeits-Analyse.

Nach oben