Zeitungswette

Ich möchte Ihnen (zumindest gedanklich) eine Wette vorschlagen: Ich habe aus der heutigen Tageszeitung alle darin vorhandenen Zahlen herausgeschrieben. Auch ohne Börsenteil sind dabei einige Zahlen zusammen gekommen. Nun biete ich Ihnen folgende Wette an: Ich gebe Ihnen für jede Zahl, die mit einer 4, 5, 6, 7, 8 oder einer 9 anfängt, 10 Cent. Im Gegenzug geben Sie mir für jede Zahl, die mit einer 1, 2 oder einer 3 anfängt Ihrerseits 10 Cent. Sie gewinnen also bei sechs Ziffern, die am Anfang stehen, ich hingegen nur bei dreien. Gehen Sie die Wette ein oder gibt es einen Haken bei der Wette?

Ziffern-Verteilung innerhalb empirischer DatensätzeWie Sie wahrscheinlich zu Recht vermutet haben, ist die Sache nicht so einfach, wie sie auf den ersten Blick scheint. Und das liegt daran, dass die Anfangsziffern eines empirisch gewonnenen Datensatz – darunter auch die Ziffern in einer Tageszeitung – häufig keiner Gleichverteilung folgen. Stattdessen folgt die Häufigkeitsverteilung der Anfangsziffern einer anderen Gesetzmäßigkeit, die in nebenstehender Grafik veranschaulich wird. Die Ziffer 1 taucht 6,5 mal häufiger als die Ziffer 9 auf. Die Auftretenswahrscheinlichkeit nimmt mit aufsteigender Größe der Ziffer stetig – und zwar logarithmisch – ab.

Der Mathematiker Simon Newcomb beschrieb 1881 erstmals dieses Phänomen im „American Journal of Mathematics“, weil ihm aufgefallen war, dass die Seiten der Logarithmustafeln seiner Bibliothek bei der Ziffer 1 deutlich abgegriffener waren als bei der 9. Jedoch geriet der Artikel und damit die Entdeckung in Vergessenheit, bis 1938 der Physiker Frank Benford die Gesetzmäßigkeit wiederentdeckte und anhand großer Datensätze belegte. Beispiele solcher Datensätze sind z.B. die Einwohnerzahl von Städten und Gemeinden, die Größe von Seen und auch die Zahlen in einer Tageszeitung. Deswegen wären die Chancen bei der oben angebotenen Wette 40:60 zu Ihren Ungunsten gewesen. Die Gesetzmäßigkeit wurde nach ihren Entdeckern Newcomb-Bendord-Gesetz getauft.

Aber wieso folgen so viele Verteilungen dieser Regel? Viele empirische ermittelte Datensätze sind log-normalverteilt. Das bedeutet, nicht die Daten selbst sind normalverteilt, sondern die Häufigkeiten der Logarithmen dieser Daten sind normalverteilt. Zur Verdeutlichung stellen Sie sich eine Unternehmensaktie vor, die innerhalb eines Jahres ihren Wert verdoppelt. Im kompletten ersten Jahr besitzt sie einen Börsenwert von 10 + x Euro, die Ziffer 1 steht also immer am Anfang. Im zweiten Jahr, in dem sich der Wert von 20 auf 40 Euro verdoppelt, besitzt die Aktie in der ersten sieben Monaten eine 2 an erster Stelle und für die verbleibenden fünf Monate des zweiten Geschäftsjahres eine 3. Im dritten Jahr kommen die Anfangsziffern 4, 5, 6 und 7 an die Reihe. Im vierten Jahr wird die Grenze von 100 überschritten und die Prozedur startet von neuem. Notiert man zu zufälligen Zeitpunkten den Aktienwert, dann ist die Wahrscheinlichtkeit, dass eine 1 zu Beginn steht deutlich höher. Deshalb findet sich das Newcomb-Bendord-Gesetz auch besonders häufig bei exponentiellen Wachstumsverläufen.

Das Newcomb-Bendord’sche-Gesetz lässt sich auch für eine Vielzahl praktischer Dinge einsetzen, z.B. zum Aufdecken von Datenmanipulation. So kontrollieren Wirtschaftsprüfer die Unternehmensdaten großer Firmen mittels einer Newcomb-Bendord-Analyse und auch Wissenschaftler überprüfen die Daten von Kollegen, ob Unregelmäßigkeiten auf Datenmanipulation hinweisen.

Kennen Sie weitere Beispiele, für Zahlen, die dem Newcomb-Bendord-Gesetz folgen. Oder fragen Sie sich, ob ein bestimmter Datensatz dieser Regel folgt? Dann schreiben Sie einen Kommentar.

1 Kommentar zu “Zeitungswette”

  1. Google Chart Tools | Ulrich Schroeders

    12 Okt. 11 um 00:38

    [...] das ganze in eine Funktion schreibt. Folgender Beispielcode erstellt ein Tortendiagramm, das das Benford’sche Gesetz visualisiert. Eine Anmerkung noch: Der Javascript-Code ist highlighted, nicht der umschließende [...]


Schreibe einen Kommentar