Montag, 24. Januar 2022

Nicht alle, die impfen, gewinnen

Thema: Impflotterie und Bernoulli-Experimente

Vergangenes Jahr erwartete manche von uns eine zusätzliche Bescherung im Zuge der Aktion "Wer impft, gewinnt". Verlost wurden jedoch keine Stiche, sondern Sachpreise (u. a. ein Haus, ein Auto, Küchen und Fernseher). Im Februar 2022 sollte ursprünglich eine weitere solche "Impflotterie" starten. Dabei waren 500 €-Gutscheine für jede zehnte Teilimpfung und zusätzlich auch Prämien für Gemeinden vorgesehen:

Modalitäten der "Impflotterie" 2022 (Bildquelle: Der Standard/APA)

Mein Mitbewohner hat mich darauf aufmerksam gemacht, dass viele Leute ihre individuellen Chancen falsch einschätzen, weil sie behaupten sie hätten mit jedem Stich eine Gewinnwahrscheinlichkeit von 10 %, also bei drei Impfungen insgesamt 30 %. Diese Überlegung ist allerdings zu einfach gedacht. Mehrere Personen haben bereits die tatsächlichen Gewinnwahrscheinlichkeiten berechnet. So auch die Direktorin des Wirtschaftsforschungsinstituts EcoAustria:

Allerdings sind das nur die fertigen Ergebnisse ohne Rechenweg. Wir haben uns also den Spaß gemacht diese selbst zu berechnen und auch gleich die einzelnen Schritte mit zu liefern. Alles, was wir dafür brauchen, ist ein wenig Schulmathematik aus der Oberstufe. Wir haben es hier mit einem Bernoulli-Experiment zu tun, d. h. es gibt nur zwei mögliche Ausgänge. Die Wahrscheinlichkeit, dass ein Stich gewinnt beträgt 10 %, also ist die Gegenwahrscheinlickeit 90 %. Wir stellen uns vor, dass jemand mit drei Teilimpfungen bei drei Ziehungen mitmacht. Wir können also dreimal hintereinander jeweils gewinnen oder leer ausgehen:

Der Binomialkoeffizient in der Formel sorgt dafür, dass wir alle Möglichkeiten berücksichtigen. Nichts zu gewinnen geht nur auf eine Art und Weise. Bei einem Gewinn könnte das jedoch auf drei verschiedene Arten passieren. Ebenso bei zwei Gewinnen, weil wir uns überlegen können, dass es drei Möglichkeiten gibt einmal nicht zu gewinnen. Bei drei Gewinnen gibt es wiederum nur eine Möglichkeit.

Falls uns lediglich interessiert, wie hoch die Wahrscheinlichkeit ist überhaupt etwas zu gewinnen, ohne alle Teilwahrscheinlichkeiten zu kennen, ginge es auch schneller. Dazu arbeiten wir stattdessen mit der Wahrscheinlichkeit für das Gegenereignis, nämlich nichts zu gewinnen:

Obwohl die richtige Wahrscheinlichkeit in diesem Fall sogar sehr nahe an den vermeintlichen 30 % liegt, ist der zugehörige Rechenweg doch ein wenig komplizierter als einfach nur Prozente zu verdreifachen. Abgesehen davon müsste die richtige Bezeichnung für die Aktion diesmal jedenfalls lauten "Etwas mehr als eine Person von vier, die impft, gewinnt".

Johannes C. Huber (hält den Begriff "Impflotterie" für irreführend)

Samstag, 1. Januar 2022

Wie man schlechte Angewohnheiten wortwörtlich abwirft

Thema: Zigarettenschachteln und Formeln

Manche Leute haben zu Beginn eines neuen Jahres vor sich das Rauchen abzugewöhnen. Leider werden diese Ambitionen mit hoher Wahrscheinlichkeit nach ein paar Wochen oder Monaten wieder über Bord geworfen. Ich selbst bin Nichtraucher und werde mich in diesem Beitrag damit beschäftigen, mit welcher Wahrscheinlichkeit stattdessen die Auslöser für diese schlechte Angewohnheit geworfen werden. Es gibt nämlich ein Trinkspiel namens "Schachteln", bei dem eine Gruppe von Leuten der Reihe nach eine Zigarettenpackung auf den Tisch wirft. 

Die Spielregeln

Jeder Wurf ergibt eine bestimmte Anzahl von Punkten in Abhängigkeit davon, wie die Packung zum Liegen kommt. Das Ziel ist dabei stets ein mindestens gleich gutes Ergebnis zu werfen wie die Person davor. Falls man das nicht schafft, werden die bis dahin gewürfelten Punkte zusammengezählt und man muss eine entsprechende Anzahl Schlucke trinken.

Die Zigarettenpackung bzw. -schachtel kann o. B. d. A.* auf drei Arten zum Liegen kommen:

  • auf dem Bauch (Vorder- oder Rückseite): 1 Punkt (im Bild grün eingefärbt)
  • auf der Seite (eine der beiden Seiten): 2 bzw. 3 Punkte (im Bild gelb eingefärbt)
  • auf dem Kopf (Boden oder Deckel): 3 bzw. 5 Punkte (im Bild rot eingefärbt)

Manchmal wird auch noch berücksichtigt, dass die Schachtel auf dem Boden landen kann (unabhängig davon auf welcher Seitenfläche), wodurch die Runde gleich vorbei ist, aber das ist für meine weiteren Überlegungen nicht relevant. Abgesehen davon können weitere Regeln aufgestellt werden, z. B. dass nach fünfzehn Würfen eine Schnapsrunde ausgegeben muss. Wie wahrscheinlich ist es, dass das passiert?

Ein etwas anderer Würfel

Ich habe die Größe einer handelsüblichen Zigarettenschachtel recherchiert und bin auf folgende Maße gestoßen:

 

Quader einer Zigarettenschachtel (Bildquelle: eigene Darstellung mit Geogebra)

Diese Abmessungen sind die Norm damit man z. B. beim Bau von Zigarettenautomaten nicht vor dem Problem steht lauter unterschiedliche Größen berücksichtigen zu müssen. Vorsichtshalber habe ich mich auch bei einem echten Exemplar meines rauchenden Mitbewohners davon überzeugt, dass diese Dimensionen realitätsgetreu sind und festgestellt, dass sie stimmen. Mit den richtigen Angaben und der Flächenformel für Rechtecke können wir ganz einfach die Mantelflächenstücke berechnen:

Netz einer Zigarettenschachtel (Bildquelle: eigene Darstellung mit Geogebra)

Das ergibt in Summe eine Mantelfläche von 157 Quadratzentimeter. Wir gehen in weiterer Folge davon aus, dass jede Seite mit ihrer entsprechenden geometrischen Wahrscheinlichkeit "gewürfelt" werden kann**. Die korrespondierenden relativen Anteile der Teilflächen sind wie folgt:

Der Spielverlauf

Ein Durchgang beinhaltet immer mindestens zwei Würfe, weil die Schachtel beim ersten Wurf zumindest auf der Seite landen muss, damit beim nächsten Wurf überhaupt jemand ein weniger gutes Ergebnis haben kann. Es gibt somit drei verschiedene Möglichkeiten bzw. Pfade dafür, dass der Durchgang bereits nach zwei Würfen vorbei ist:

  • Seite beim 1. und Bauch beim 2. Wurf
  • Kopf beim 1. und Bauch beim 2. Wurf
  • Kopf beim 1. und Seite beim 2. Wurf
Das sind gleichzeitig die einzigen Möglichkeiten, wie Pfade mit mehr als zwei Würfen enden können. Mit der zweiten Pfadregel für Baumdiagramme kommen wir auf die dazugeörende Wahrscheinlichkeit:

Im Schnitt endet also ungefähr jede vierte Runde bereits nach nur zwei Würfen. Mit derselben Überlegung können wir auch die Wahrscheinlichkeiten für eine größere Anzahl von Würfen ermitteln:

Pfade und Wahrscheinlichkeit für drei Würfe:

  • Bauch beim 1., Seite beim 2. und Bauch beim 3. Wurf
  • Bauch beim 1., Kopf beim 2. und Bauch beim 3. Wurf
  • Bauch beim 1., Kopf beim 2. und Seite beim 3. Wurf
  • Seite beim 1., Seite beim 2. und Bauch beim 3. Wurf
  • Seite beim 1., Kopf beim 2. und Bauch beim 3. Wurf
  • Seite beim 1., Kopf beim 2. und Seite beim 3. Wurf
  • Kopf beim 1., Kopf beim 2. und Bauch beim 3. Wurf
  • Kopf beim 1., Kopf beim 2. und Seite beim 3. Wurf

 Pfade und Wahrscheinlichkeit für vier Würfe:

  • Bauch beim 1. Bauch beim 2., Seite beim 3. und Bauch beim 4. Wurf
  • Bauch beim 1., Bauch beim 2., Kopf beim 3. und Bauch beim 4. Wurf
  • Bauch beim 1., Bauch beim 2., Kopf beim 3. und Seite beim 4. Wurf
  • Bauch beim 1., Seite beim 2., Seite beim 3. und Bauch beim 4. Wurf
  • Bauch beim 1., Seite beim 2., Kopf beim 3. und Bauch beim 4. Wurf
  • Bauch beim 1., Seite beim 2., Kopf beim 3. und Seite beim 4. Wurf
  • Bauch beim 1., Kopf beim 2., Kopf beim 3. und Bauch beim 4. Wurf 
  • Bauch beim 1., Kopf beim 2., Kopf beim 3. und Seite beim 4. Wurf 
  • Seite beim 1., Seite beim 2., Seite beim 3. und Bauch beim 4. Wurf
  • Seite beim 1., Seite beim 2., Kopf beim 3. und Bauch beim 4. Wurf
  • Seite beim 1., Seite beim 2., Kopf beim 3. und Seite beim 4. Wurf
  • Seite beim 1., Kopf beim 2., Kopf beim 3. und Bauch beim 4. Wurf 
  • Seite beim 1., Kopf beim 2., Kopf beim 3. und Seite beim 4. Wurf 
  • Kopf beim 1., Kopf beim 2., Kopf beim 3. und Bauch beim 4. Wurf 
  • Kopf beim 1., Kopf beim 2., Kopf beim 3. und Seite beim 4. Wurf 

Nun wissen wir, dass im Schnitt mehr als zwei Drittel aller Durchgänge bereits nach vier oder weniger Würfen enden, aber die Wahrscheinlichkeiten dafür zu berechnen wurde jedes Mal aufwendiger. Bei fünf oder mehr Würfen müssten wir noch mehr Pfade berücksichtigen und Unmengen von Brüchen multiplizieren. Deshalb schauen wir uns stattdessen an, wie die Zusammensetzung der Wurfergebnisse für alle Möglichkeiten aussieht und ob wir dabei ein Muster erkennen. 

Pfade verlängern

Wenn wir Anzahl der Würfe um eins erhöhen, können wir den zusätzlichen Wurf klarerweise nicht hinten anhängen, weil der Durchgang dann schon vorbei ist. Wir könnten ihn überall, wo es möglich ist, dazwischen einschieben, aber am einfachsten ist es ihn an den Anfang zu geben, und wir sehen auch gleich warum. Dazu betrachten wir die drei Möglichkeiten für den zusätzlichen Wurf einzeln:

  • Falls die Schachtel beim ersten Wurf auf dem Bauch landet, spielt es keine Rolle, was als Nächstes geworfen wird, da das Ergebnis nicht unterboten werden kann. In anderen Worten: Mit dem "Bauchwurf" können wir jede der vorigen Möglichkeiten um einen Wurf verlängern.
  • Falls sie stattdessen zu Beginn auf der Seite landet, fallen ein paar Möglichkeiten weg und zwar genau so viele, wie es in der vorletzten Stufe insgesamt gegeben hat. Das liegt daran, dass alle Möglichkeiten, die wir zuvor mit einem Bauchwurf verlängern konnten, in der aktuellen Stufe dazu führen würden, dass der Durchgang zu früh abbricht.
  • Falls sie dabei jedoch auf dem Kopf landet, kommen stets nur zwei Möglichkeiten in Frage, und zwar jene, bei denen das ebenfalls so begonnen hat. Das liegt daran, dass in diesem Fall, bis auf den letzten Wurf nur Kopflandungen in Frage kommen damit der Durchgang nicht früher zu Ende geht.

Zwei Arten von Formeln für die Anzahl der Pfade

Wir können die Anzahl der Pfade als Folge in der rekursiven Form aufschreiben: 

Somit kommen wir bei vier Würfen auf 8 + (8 - 3) + 2 = 15 und bei fünf Würfen auf 15 + (15 - 8) + 2 = 24 und so weiter. Dabei fällt uns auf, dass wir als Schritt von einer Stufe zur nächsten jeweils größer werdende ungerade Zahlen addieren. Das spitzfindige Lesepublikum weiß, dass die Partialsummen der ungeraden Zahlen die Quadratzahlen sind. Da wir in diesem Fall die Zahl 1 auslassen lautet eine explizite Formel für die Anzahl der Möglichkeiten:

Diese hat den zusätzlichen Vorteil, dass sie für alle Würfe größer gleich 1 gilt und wir deshalb keine Vorstufen extra behandeln müssen. Nun ist es ein Leichtes die Anzahl der Möglichkeiten für eine vorgegebene Anzahl von Würfen zu bestimmen:

Tabelle mit der Anzahl der Pfade bis 15 Würfe

Jetzt wissen wir nicht nur, was wir suchen, sondern auch, wie viele Möglichkeiten wir dafür in Betracht ziehen müssen. Beim Aufschreiben der einzelnen Pfade können wir also zumindest kontrollieren, ob wir alle berücksichtigt haben.

Weniger ist mehr

Da die Schreibweise mit den Teilwahrscheinlichkeiten als Brüche eher umständlich ist, verwenden wir ab jetzt stattdessen einfach die Anfangsbuchstaben der jeweiligen Seitenflächen, was schon erheblich kürzer ist:

Das Ganze wird noch einmal wesentlich kompakter, wenn wir die Reihenfolge der Wurfergebnisse ignorieren und stattdessen die Buchstaben der jeweiligen Seitenflächen in alphabetischer Reihenfolge aufschreiben. Zusätzlich dazu können wir mehrfach vorkommende Einträge zusammenfassen:

Rekursive Formel für die Wahrscheinlichkeit

Leider wird auch diese Schreibweise schnell unübersichtlich, aber mehr als 200 Pfade für fünfzehn Würfe aufzuschreiben sollte ohnehin nicht Sinn der Sache sein. Bei der vorigen Variante fällt allerdings auf, dass wir die Summanden in drei Kategorien aufteilen können, und zwar abhängig davon, mit welchem ersten Wurf sie in der nächsten Stufe ergänzt werden. Dazu heben wir einfach den entsprechenden Faktor heraus um uns eine rekursive Formel zu basteln:

https://latex.univie.ac.at/?P(X%20=%20n)%20=%20B%20\cdot%20(...)%20+%20S%20\cdot%20(...)%20+%20K%20\cdot%20(...)

Nun müssen wir nur noch die drei Lücken füllen. Jede Möglichkeit der vorangehenden Stufe kann mit einem weiteren Bauchwurf verlängert werden. Deshalb können wir die erste Lücke mit der vorangehenden Wahrscheinlichkeit füllen.

https://latex.univie.ac.at/?P(X%20=%20n)%20=%20B%20\cdot%20P(X%20=%20n-1)%20+%20S%20\cdot%20(...)%20+%20K%20\cdot%20(...)

Da es außerdem nur zwei Möglichkeiten gibt, die mit einem weiteren Kopfwurf verlängert werden können, müssen wir die dritte Lücke nur mit der entsprechenden Anzahl an Würfen füllen:

https://latex.univie.ac.at/?P(X%20=%20n)%20=%20B%20\cdot%20P(X%20=%20n-1)%20+%20S%20\cdot%20(...)%20+%20K%20\cdot%20(BK^{n-2}%20+%20SK^{n-2})

Der schwierigste Teil ist die Lücke in der Mitte, weil hier ja nicht alle Möglichkeiten in Frage kommen, aber wir haben bereits festgestellt, dass wir die verbleibenden erhalten indem wir die Anzahl der Möglichkeiten der vorletzten Stufe abziehen. Dabei müssen wir berücksichtigen, dass nur ein Teil der Pfade mit einem Seitenwurf verlängert werden kann. Um auch diesen Umstand in die Formel hinein zu bekommen benötigen wir einen Faktor, der dafür sorgt, dass nur die passenden Pfade ausgewählt werden. Dazu gehen wir zuerst zwei Stufen zurück um alle Pfade zu erwischen und dann noch einmal eine um jene abzuziehen, die mit einem Bauchwurf beginnen. Somit haben wir auch die mittlere Lücke gefüllt und eine allgemeine Formel für fünf oder mehr Würfe gefunden:

https://latex.univie.ac.at/?P(X%20=%20n)%20=%20B%20\cdot%20P(X%20=%20n-1)%20+%20S%20\cdot%20(S%20\cdot%20(P(X%20=%20n-2)%20\%20-

                            https://latex.univie.ac.at/?B%20\cdot%20P(X%20=%20n-3))%20+%20BK^{n-2}%20+%20SK^{n-2})%20+%20K%20\cdot%20(BK^{n-2}%20+%20SK^{n-2})

Hier die vollständige Formel inklusive aller Vorstufen ein wenig kompakter notiert: 

https://latex.univie.ac.at/?k(n)%20=%20BK^{n-2}%20+%20SK^{n-2}%20\qquad%20P(X%20=%201)%20=%200%20\qquad%20P(X%20=%202)%20=%20BS%20+%20BK%20+%20SK

https://latex.univie.ac.at/?P(X%20=%20n)%20=%20B%20\cdot%20P(X%20=%20n-1)%20+%20S^2%20\cdot%20(P(X%20=%20n-2)%20-%20B%20\cdot%20P(X%20=%20n-3))%20+%20(S%20+%20K)%20\cdot%20k(n)

Damit können wir mit vergleichsweise wenig Aufwand die Wahrscheinlichkeiten für eine vorgegebene Anzahl von Würfen ermitteln solange diese nicht allzu groß ist:

Wahrscheinlichkeitstabelle bis 15 Würfe (auf dritte Nachkommastelle gerundet)

Explizite Formel für die Wahrscheinlichkeit

Rekursive Formeln haben den Nachteil, dass wir unter Umständen sehr viele Ergebnisse berechnen müssen, bis wir zu dem kommen, das wir eigentlich haben wollen. Falls wir stattdessen den direkten Weg einschlagen möchten, brauchen wir wieder eine explizite Formel. Leider ist es oft gar nicht so einfach aus einer rekursiven eine explizite Formel herzuleiten. In diesem Fall sind immerhin die beiden Summanden mit den Kopfwürfen bereits explizit, aber für alle anderen, die sich auf eine vorangehende Wahrscheinlichkeit beziehen, müssten wir eine Möglichkeit finden die Rekursivität zu umgehen. Ich habe versucht eine explizite Formel zu finden und hier ist mein bestes Resultat:

https://latex.univie.ac.at/?P(X%20=%20n)%20=%20\displaystyle\sum_{i,%20j=1}^{n}%20aB^iS^j%20+%20\displaystyle\sum_{i,%20k=1,%20j=0}^{n}%20bB^iS^jK^k%20+%20\displaystyle\sum_{i=0,%20j,k=1}^{n}%20cB^iS^jK^k

https://latex.univie.ac.at/?a,%20b,%20c%20=%201%20\%20(\text{falls%20}%20i%20+%20j%20+%20k%20=%20n)%20\qquad%20a,%20b,%20c%20=%200%20\%20(\text{sonst.})

Dazu habe ich die Pfade wieder in drei Kategorien eingeteilt und zwar diesmal abhängig davon, wie sie enden. Das erste Produkt steht für jene, die am Ende erst einen Seiten- und dann einen Bauchwurf haben, das mittlere für Kopf- und Bauchwurf und das letzte für Kopf- und Seitenwurf. Die Konstanten a, b und c sorgen dafür, dass nur jene Summanden zustande kommen, die den Durchgang nicht vorzeitig abbrechen. Da diese Formel allerdings weder übersichtlich, noch einfach zu verwenden ist, fürchte ich, dass ich mich geschlagen geben muss. Vielleicht ist es in diesem Fall gar nicht möglich eine bequeme Formel zu finden, aber falls doch, übersteigt es meine Fähigkeiten.

Nichtsdestotrotz habe ich eine Antwort auf meine Frage gefunden. Ab 10 Würfen beträgt die jeweilige Wahrscheinlichkeit bereits weniger als 1 % und ein Durchgang dauert mit über 99 % Wahrscheinlichkeit 12 Würfe oder weniger. Die Schnapsrunde nach 15 Würfen bezieht sich vermutlich gar nicht auf einen einzelnen Durchgang, aber falls doch, dann ist es extrem unwahrscheinlich, dass dieser Fall eintreten wird und jemand Getränke spendieren muss. 

Johannes C. Huber (nimmt sich vor heuer noch ein Python-Programm zu diesem Beitrag zu schreiben)

* Wir ignorieren die Möglichkeit, dass die Packung auf einer Kante oder gar Ecke aufkommt und so stehen bleibt.
** Selbstverständlich macht es z. B. einen Unterschied, ob die Packung voll, leer oder teilweise gefüllt ist. Abgesehen davon spielt sicherlich auch das Material der Schachtel eine Rolle. Alle derartigen Faktoren werden in meinem Beitrag aber der Einfachheit halber außer Acht gelassen.