Das zipfsche Gesetz, nach dem Harvard-Professor für Linguistik George Kingsley Zipf (1902-1950) benannt, korreliert die empirisch gefundenen HäufigkeitP von Worten eines ausreichend langen Textes mit deren Rangi ihrer Häufigkeit, in einem Skalengesetz:
Durch Logarithmierung beider Skalen lässt sich die Gleichung in lineare Form bringen, so dass sie sich im Diagramm als Gerade darstellen lässt.
Im einfachen Fall wird für den Exponenten a der Wert 1 angenommen, und es gilt
Bei der Berechnung relativer Häufigkeiten wird c so gewählt, dass gilt:
Wie jedes empirische Gesetz ist auch das zipfsche Gesetz nur näherungsweise gültig. Während es in dem mittleren Bereich die Häufigkeitsverteilung sehr gut wiedergibt, ist die Übereinstimmung bei sehr häufigen (siehe "Stoppwort") und sehr seltenen Wörtern geringer.
Das zipfsche Gesetz markierte den Beginn der quantitativen Linguistik (nzz.ch).
Ein unabhängig vom Gesetz von Zipf festgestellter Spezialfall ist das Gesetz von Benford betreffend die Häufigkeit von Anfangsziffern.
Auftreten in der Praxis
Interessanterweise gilt diese Beziehung nicht nur für Wörter und Buchstaben in Texten menschlicher Sprachen oder Noten in der Musik, sondern für so gut wie alle natürlichen Symbolsequenzen mit langreichweitigen Korrelationen, wie z.B. der DNA. Auch die Anfragewahrscheinlichkeit und Häufigkeit von Webseiten ist Zipf-verteilt (weitere Beispiele siehe Pareto-Verteilung).
Beispiel 1, Worthäufigkeiten
Die Verteilung der Worthäufigkeiten in einem Text gehorcht annähernd einer einfachen zipfschen Verteilung.
In einem Beispieltext tritt das Wort und
mit einer Häufigkeit von ca. 8% auf, gefolgt von die und der mit ca. 5%, siehe Tabelle.
Die 14 häufigsten Worte in einem deutschen Text:
Rang Wort rel. Häuf. zipfsche Häufigkeit
1 UND 0.08427 0.14027
2 DIE 0.05390 0.07014
3 DER 0.05383 0.04676
4 IN 0.02164 0.03507
5 WIR 0.01676 0.02805
6 ZU 0.01564 0.02338
7 FÜR 0.01536 0.02004
8 SIE 0.01306 0.01753
9 VON 0.01285 0.01559
10 DEN 0.01208 0.01403
11 DES 0.01131 0.01275
12 IST 0.01068 0.01169
13 EINE 0.01047 0.01079
14 NICHT 0.00991 0.01002
Beschränken wir uns auf die ersten 700 Ränge, beträgt die Summe der harmonischen Reihe
und damit
Gemäß der Zipfschen Verteilung sollte das häufigste Wort mit einem Anteil von
das zweithäufigste mit
etc. auftauchen. Den Vergleich zwischen gemessener Verteilung und der Verteilung nach Zipf zeigt die Abbildung rechts.
Beispiel 2, Buchstabenhäufigkeiten
Auch die Verteilung der Buchstaben-Häufigkeiten ähnelt einer zipfschen Verteilung.
Der Buchstabe E und das Leerzeichen sind mit einem Anteil von ca. 13% vertreten, gefolgt vom Buchstaben N mit 9%. Nach Zipf erwartete man eine Häufigkeit von 24% bzw. 12% für die beiden häufigsten Zeichen.
Häufigkeit der Buchstaben und
einiger Satzzeichen in einem deutschen Text:
Rang Wort rel. Häuf. zipfsche Häufigkeit
1 E 0.13678 0.23955
2 Leerz. 0.13048 0.11977
3 N 0.09034 0.07985
4 I 0.06908 0.05989
5 R 0.06501 0.04791
6 S 0.05426 0.03992
7 T 0.05386 0.03422
8 D 0.04119 0.02994
9 A 0.04011 0.02662
10 U 0.03947 0.02395
11 H 0.03565 0.02178
12 L 0.03449 0.01996
13 G 0.02820 0.01843
14 C 0.02565 0.01711
15 O 0.02016 0.01597
16 M 0.01938 0.01497
17 B 0.01743 0.01409
18 F 0.01663 0.01331
19 W 0.01409 0.01261
20 K 0.01230 0.01198
21 Z 0.01032 0.01141
22 . 0.00818 0.01089
23 , 0.00790 0.01042
24 V 0.00755 0.00998
25 Ü 0.00613 0.00958
26 P 0.00560 0.00921
27 Ä 0.00537 0.00887
28 Ö 0.00289 0.00856
29 J 0.00064 0.00826
30 Q 0.00033 0.00798
31 Y 0.00027 0.00773
32 X 0.00014 0.00749
Dieser Beitrag ist aus der XML-Version der deutschen WikiPedia® entwickelt worden und unterliegt inhaltlich den GNU FDL-Lizenzbestimmungen. Linkziele außerhalb der wikipedia-Inhalte unterliegen den Urheberrechten der jeweiligen Anbieter
( DirectDownloads ) Kalenderblätter druckfertig aufbereitet für Schmuckblätter zum Selbstdrucken im Word DOC6/RTF Format, je Euro 5 über Click&BuyJAN | FEB | MÄRZ APRIL | MAI | JUNI JULI | AUG | SEPT OKT | NOV | DEZ
Das Geschenk für jeden Anlass, nicht nur bei 'runden' Jubiläen Andere Einzeltage oder Zahlungsarten bitte HIER bestellen
Diese Web Site verdient ihr Geld durch Produktverkäufe (CD-ROM, downloads) und in erster Linie durch Anzeigen. Wenn Sie als Webmaster zuverlässige Partner suchen für Ihr eigenes Anzeigenschäft, dürfen Sie sich gerne auf unsere Empfehlungen stützen:
z.B.: GigaCash & ProfiWin