Warum eine gute Stichprobe nicht repräsentativ ist
Schlimmer als Nichtwissen ist bekanntlich Halbwissen. Das erkennt man immer dann, wenn Medien oder Politiker ein Thema aufgreifen, von dem man selbst etwas versteht. Wer immer einen Kurs in Volkswirtschaft besucht hat, scheint von den Keynesschen Multiplikatoren derart angetan, dass er fortan durch den Staat, die Konsumenten oder wen auch immer auf Teufel komm raus die Wirtschaft „anzukurbeln“ will. Würden die Leute den gesunden Menschenverstand gebrauchen statt angelerntes Halbwissen, sie sähen sofort ein, dass das „Ankurbeln“ Energie braucht und es bekanntlich kein perpetuum mobile gibt.
Ähnlich ist es um die Repräsentativität von Stichproben bestellt. Irgendwie scheint man in der Schule mal mitbekommen zu haben, dass Umfragen repräsentativ sein sollten – und diese Weisheit wird dann lebenslang nachgebetet. Wie der vulgärkeynesianische Multiplikator ist Repräsentativität ein Konzept, das seit Jahrzehnten nicht mehr dem Stand der Wissenschaft entspricht. Wenn man bedenkt, wie schnell Klimatologen ihre – keineswegs von allen Wissenschaftern geteilten – Theorien in die Medien bringen, so wird man direkt neidisch. Dabei sind falsch verstandene Multiplikatoreffekte für die Welt kaum weniger schädlich als der Klimawandel…
Auch bei der Frage der Repräsentativität hilft der gesunde Menschenverstand. Dazu ein Beispiel:
In einem 25-köpfigen Gremium sitzen je sechs Vertreter von SP, CVP, FDP und SVP. Der 25. sei ein Parteiloser, und dieser möchte für sein Anliegen die Mehrheit gewinnen. Um abzuwägen wie die Erfolgschancen sind, beschliesst er, acht Mitglieder des Gremiums anzufragen, was sie von seinem Vorschlag halten. Eine repräsentative Auswahl würde bedeuten, dass er je zwei Vertreter jeder Partei befragt und das Ergebnis für die Hochrechnung einfach mit drei multipliziert. Weil er aber weiss, dass die Fraktionen der SP und der SVP jeweils mit einer Stimme sprechen, so fragt er nur einen SP- und einen SVP-Vertreter, dafür je drei Vertreter der weniger homogenen CVP und FDP. Natürlich wird der Parteilose die Antworten nicht alle gleich gewichten. Die Antwort der befragten SP- und SVP-Mitglieder multipliziert er mit sechs, die Antworten der CVP- und FDP-Mitglieder dagegen nur mit zwei. Auf diese Weise bekommt er ein verlässlicheres Resultat als mit einer repräsentativen Stichprobe.
Genauso geht auch der Statistiker vor. Personen aus einer homogenen Gruppe sind in einer guten Stichprobe unterrepräsentiert, Personen aus eine heterogenen Gruppe dagegen überrepräsentiert. Bei der Aggregation der Ergebnisse wird der fehlenden Repräsentativität der Stichprobe natürlich Rechnung getragen, indem man die Antworten mit dem Kehrwert der Wahrscheinlichkeit, dass sie in die Stichprobe aufgenommen worden sind, multipliziert, d. h. Antworten von unterrepräsentierten Bevölkerungsgruppen werden übergewichtet und vice versa. Möchte ein Statistiker etwas über das Einkommen der Bevölkerung erfahren, wird er Lehrer in seiner Stichprobe unterrepräsentieren, da die staatlich besoldeten Lehrer ein viel homogeneres Einkommen aufweisen als beispielsweise Anwälte. Eine solche Methode führt zu effizienteren Prognosen als eine repräsentative Stichprobe.
Auch wenn die Rücklaufquoten sich nach Gruppen unterscheiden oder wenn gewisse Gruppen erfahrungsgemäss unwahre Antworten machen, sollte das bei einer Hochrechnung durch eine Anpassung der Gewichte berücksichtigt werden. Wenn ein französisches Meinungsforschungsinstitut Respondenten, die den rechten Le Pen wählen, übermässig gewichtet, gewinnt die Umfrage an Genauigkeit. Das hat nichts mit Manipulation zu tun, wie es Rudolf Balmer unlängst im Bund und in der BaZ behauptet hat, sondern vielmehr mit seriöser Meinungsforschung jenseits einer naiven Repräsentativität.