Wie sähe Veränderung ohne Intervention aus? Diese Frage nach den sogenannten Counterfactuals, dem „Was-wäre-gewesen-wenn“ stellt die praktische Wirkungsmessung regelmäßig vor Herausforderungen. Wissenschaftliche Ansätze prüfen diese kausalen Zusammenhänge, um die zugrunde liegenden Mechanismen zu verstehen. Dr. Filip Zielinski, CSI Heidelberg, beleuchtet die Chancen, Grenzen und Herausforderungen bei der Gestaltung von Ursache-Wirkungs-Zusammenhängen.
Der Kontrafaktische Blick
Will man Wirkung messen, kommt man um Counterfactuals nicht herum. Wirkungsmessung befasst sich grundsätzlich mit der evidenzbasierten Prüfung von Annahmen über kausale Zusammenhänge zwischen Interventionen und beobachteten Veränderungen. Um Wirkungen einer Maßnahme kausal zuzuschreiben, braucht es kontrafaktische Szenarien – also die Frage, was ohne die Maßnahme geschehen wäre. Das Problem: Wie der Name bereits deutlich macht, lässt sich das Counterfactual – das „Was-wäre-gewesen-wenn“ – nie direkt beobachten. Es muss immer erst konstruiert werden. In experimentellen Studien werden Gruppen miteinander verglichen: eine erhält die Maßnahme, eine nicht. So lässt sich erkennen, ob und wie stark die Intervention tatsächlich wirkt.
Die Methode der Randomisierten Kontrollstudien (RCTs) setzt dieses Prinzip des Vergleichs mit dem Counterfactual besonders konsequent um. Dem selben Prinzip folgen auch weitere, quasi-experimentelle Designs wie Difference-in-Difference-Analysen, Propensity Score Matching, Regression Discontinuity oder Instrumental Variable. Sie bieten pragmatischere Lösungen für Kontexte, in denen zufällige Zuteilungen schwer oder gar nicht umsetzbar sind. Auch einige qualitative Verfahren wie das Counterfactual Self-Assessment folgen diesem Grundprinzip.
Die zweite große Gruppe der Evaluationsmethoden fragt hingegen weniger, ob und wie stark eine Maßnahme messbar wirkt, sondern vielmehr danach, wie die Wirkung zustande kommt. Eine experimentelle Evaluationsmethode bietet nämlich für sich genommen noch keine Hinweise darauf, warum, unter welchen Umständen und wie eine Intervention wirkt – oder eben nicht. Hier kommen vielmehr Methoden aus dem Bereich der Realist Evaluation, partizipative Ansätze wie Most Significant Change, das Qualitative Impact Assessment Protocol (QuIP) usw. zum Einsatz.
Das Attributionsproblem im deutschen Diskurs
Während der internationale Diskurs die Kausalitätsproblematik zentral adressiert, blenden viele deutsche Ansätze zur Wirkungsmessung die Frage der Attribution aus. Dazu gehört das hierzulande sehr etablierte Kursbuch Wirkung (Phineo). Auch der kürzlich publizierte Impact Readiness Guide des IMV-Lab erwähnt die Problematik lediglich am Rande. Dadurch entsteht eine entscheidende Lücke und konzeptionelle Unschärfen werden zementiert.
Bis heute gibt es in Deutschland keine einheitliche Begriffsverwendung von „Wirkung“, „Outcome“ und „Impact“.
Ein Modell, das in der Praxis häufig auftaucht, ist das IOOI-Modell (Input, Output, Outcome, Impact). Die Logik dahinter: was wird eingesetzt (I), was entsteht aus den eigenen Aktivitäten (O), was verändert sich, insbesondere bei Mensch und Umwelt (O), und welche Anteile dieser Veränderungen wären ohne die eigene Aktivität nicht eingetreten (I)? Das Problem: Viele Frameworks, wie die Wirkungstreppe des Kursbuchs Wirkung, definieren dieselben Begriffe etwas anders: Outcomes sind demnach diejenigen Wirkungen, die naheliegender sind: zeitlich, räumlich, thematisch und/oder zielgruppenbezogen; Impacts hingegen liegen weiter entfernt – treten später ein, in anderen Regionen/Wirkungsbereichen, außerhalb der Zielgruppen. Das sind alles wichtige und sinnvolle Unterscheidungen, die in Bezug auf Outcomes berücksichtigt werden sollten. Damit ist aber die Frage der Attribution von Wirkungen zu Ursachen noch nicht berücksichtigt. Und schon reden zwei Organisationen über „Impact” – und meinen völlig verschiedene Dinge.
Support-Angebot
Wirkungstool-Datenbank
Die Wirkungstool-Datenbank auf der SIGU-Plattform, gibt einen Überblick über mögliche relevante Wirkungstools für die einzelnen Prozessschritte und kann nach den eigenen Bedürfnissen gefiltert werden. Der neue Fragebogen macht die Suche dabei noch leichter.
Zusätzlich erklärt ein Blogbeitrag entlang der Prozessschritte, wie man die Tools nutzt.
Das klingt abstrakt, wird aber an einem Beispiel sofort greifbar: Eine Schule mit einem Förderprojekt verzeichnet einen Anstieg der Schulabbrüche um fünf Prozent – ein scheinbar schlechtes Ergebnis. Doch vergleichbare Schulen ohne das Projekt weisen im selben Zeitraum vierzig Prozent mehr Abbrüche auf. Der tatsächliche Impact des Projekts? Plus 35 Prozentpunkte – eindeutig positiv.
Unabhängig davon, welche Unterscheidung man zwischen Outcome und Impact wählt – in jedem Fall wird sich Wirkungsmessung, wenn sie vollständig sein soll, mit der Frage der Attribution und Kausalität auseinandersetzen. Das bedeutet natürlich nicht, dass die entsprechenden Methoden immer machbar oder gar angemessen sein werden.
Die Anforderungen der Stakeholder
Stakeholder aus Wissenschaft, Politik, Wirtschaft und Zivilgesellschaft stellen zum Teil unterschiedliche Ansprüche an die Wirkungsmessung, die sich nicht ohne weiteres miteinander in Einklang bringen lassen.
In der Wissenschaft werden Transparenz, Längsschnittstudien, Berücksichtigung nicht-intendierter Effekte, Counterfactuals, Datenstandardisierung und partizipative Evaluationsdesigns gefordert. Investoren und Fördergeber wünschen sich vergleichbare Key-Performance-Indikatoren und Frameworks für nachvollziehbare Mittelverteilung. Am Gemeinwohl orientierte Organisationen bzw. „Investees“ selbst haben potenziell Interesse an Benchmarking, während die Standardisierung ihren individuellen Wirkungslogiken gerecht werden soll. Sie benötigen schlanke, effiziente Lösungen, die zeitnah evidenzbasierte Ergebnisse liefern, die sich für strategische Entscheidungen einsetzen lassen („improve“) und sich zugleich für das Reporting nach Außen („prove“) eigenen. Dabei verfügen sie meist nur über eingeschränkte Ressourcen, die aufwendige Evaluationsverfahren nicht immer zulassen.
Perspektiven für eine realistische Wirkungsmessung
Wer die Attributionsfrage nicht einfach ignorieren und andererseits unrealistische Forderungen vermeiden möchte, braucht praktikable Antworten. Eine davon liegt in methodologischen Innovationen, die nicht zwischen Praxistauglichkeit und wissenschaftlicher Genauigkeit wählen müssen – sondern beides leisten. Hier gibt es noch Luft nach oben.
Randomisierte Kontrollstudien (RCTs) und ihre quasi-experimentellen Verwandten generieren zwar methodisch robuste und quantifizierbare Ergebnisse in Bezug auf die Attributionsfrage. Sie erfordern jedoch Investitionen im sechsstelligen Bereich, benötigen mehrere Monate Zeit und ihre Ergebnisse bleiben auf eng definierte Wirklichkeitsausschnitte beschränkt. Eine hervorragende Methode aus dem qualitativen Werkzeugkasten ist das Qualitative Impact Assessment Protocol (QuIP). Es widmet sich in erster Linie dem „Verstehen“ und weniger dem „Messen“ und operiert deutlich kostengünstiger (fünfstellige Kostenbeträge), bietet aber keine quantifizierbaren Belege für zurechenbare Wirkungsanteile. Die Kombination aus diesen beiden Methodenarten (z.B. RCT+QuIP) ist sinnvoll, bleibt jedoch primär Evaluationen von sehr ressoucenstarken Projekten in Entwicklungszusammenarbeit, Gesundheits- und Bildungssektoren vorbehalten.

Für die meisten Organisationen relevanter als aufwendige Studien sind verlässliche Referenzwerte mit denen sich die eigenen Ergebnisse auf Input-, Output- und Outcome-Ebene sinnvoll vergleichen lassen. Die Nutzung öffentlicher Statistiken als kontrafaktische Referenzpunkte bietet viel Potenzial, wobei die Datenverfügbarkeit und -qualität in Deutschland in vielen Bereichen noch verbesserungsfähig ist. Auch bieten themenbezogene öffentliche Einrichtungen oder private Organisationen wie Verbände und Netzwerke zum Teil brauchbare Referenzwerte. Diesen Weg geht beispielsweise die Wirkungsevaluation der Bundesarbeitsgemeinschaft Inklusionsfirmen e.V. (siehe Methodenbericht, S. 43).
Indikatoren-Datenbanken wie IRIS+ oder das australische Seedkit weisen in vielversprechende Richtungen. Noch besser wären feldspezifische Standards, Frameworks und Indikatoren, die der großen Vielfalt der Wirkungslogiken wirkungsorientierter Projekte und Organisationen besser gerecht werden (vgl. hierzu das ISI-Projekt, das in diese Richtung Vorarbeiten geleistet hat). Auf diese Weise könnten Organisationen ihre Wirkungs-Indikatoren mit Benchmarks vergleichen, die von ähnlichen Fällen gespeist werden.
Mit viel Aufwand wird gegenwärtig der Ansatz der Impact Valuation betrieben – primär relevant erscheint er jedoch nur für die Corporate Social Responsibility größerer Unternehmen. Denn hier geht es darum, Kosten, die Unternehmen bisher an die Gesellschaft weitergegeben haben, in die eigene Bilanz aufzunehmen. Für Organisationen, die Gemeinwohl nicht erst nachträglich einkalkulieren sollen, sondern die ihre Tätigkeit grundsätzlich auf positiver gesellschaftlicher Wirkung ausrichten, ist das nicht die passende Frage.
Intersektoraler Dialog
Die Überwindung struktureller Hürden erfordert einen intensivierten und ehrlicheren Dialog zwischen Wissenschaft, Politik, Wirtschaft, Zivilgesellschaft und Impact Investing mit ihren je eigenen Logiken. Was erwarten diese jeweils von Wirkungsmessung und -management, was können sie beitragen und was (noch) nicht?
Ein ehrlicher Dialog kann dabei helfen, den bestehenden „gap“ zwischen Ansprüchen und Möglichkeiten der Wirkungsmessung zu verringern und Frustrationen und Ineffizienzen zu vermeiden .
Zum Beispiel: Wenn Investoren andere Kennzahlen verlangen als Organisationen intern brauchen, entsteht ein bekanntes Problem: Daten werden doppelt erhoben – einmal für außen, einmal für innen. Das kostet Zeit, Geld und Nerven. Standardisierungsbemühungen kollidieren mit Bedürfnissen nach kontextspezifischer Flexibilität. Wettbewerbsdynamiken limitieren selbst im Non-Profit-Sektor die Bereitschaft zum offenen Datenaustausch. Unzuverlässige Evaluationsmethoden legen falsche Entscheidungen nahe. Und vieles mehr. Diese und weitere Spannungsfelder erfordern kontinuierliche Aushandlungsprozesse in Dialogformaten, die über sporadische, kleine Workshops hinausreichen. Das geschieht bereits, zum Beispiel im Rahmen der Plattform für Soziale Innovationen und Gemeinwohlorientierte Unternehmen (SIGU), in der das Thema Wirkung von Beginn an einen Schwerpunkt darstellt und die für Wissenschaft, Politik und Social Entrepreneurs offen ist. Die Fortsetzung dieses Dialogs, am besten unter stärkerem Einbezug der Zivilgesellschaft über Sozialunternehmer hinaus, wäre daher aus meiner Sicht sehr wünschenswert.
Dieser Beitrag basiert auf einem Impulsvortrag auf dem Netzwerktreffen Wirkung des Social Entrepreneurship Netzwerks Deutschland – SEND e.V. am 04.12.2025.
Ökosystem-Umfrage
Auch das SIGU-Ökosystem wünscht sich mehr gelebten Dialog, um Synergien und Kooperationen unter den verschienden Akteur:innen zu entfalten und Ressourcen sinnvoll auszuschöpfen. Dies zeigte u.a. die Auswertung unter den Besuchern der SIGU-Zukunftsfabrik 1 im Oktober 2025.




