wer ist, was ist, wo ist, wann war, was war - Lexikon / Chronik / Biografie / Wissen - Zipfsches Gesetz


Werbung

Produkte / Services :|: Chronik CD :|: als Startseite | zu den | empfehlen :|: Impressum
Lexika @ InfoBitte.de :|: Universal-Lexikon | WeltKunst | Geteiltes Deutschland | Zweiter Weltkrieg
WeltChronik.de :|: Welt | Deutschland | Kultur/Kunst/Technik :|: BildDatenBank :|: Biografien

Navigation

WeltChronik
Deutsche Chronik
KulturChronik
Biografien
Bilddatenbank
Kalenderblatt
Epochen
Lexika @ InfoBitte.de
Produkte

Suchfunktionen
Chronik-Jahr direkt

Nur Zahl eingeben
Bereich: '0'-'2001'
PARTNER
Ahnenforschung

Quellen für die Schule

FREE 4 WebMasters

Wir haben eine ganze Palette kostenloser Angebote von uns
für WebMaster und HomePage Besitzer aufbereitet

Holen Sie sich hier ab

was Sie gerne einsetzen würden
Suchfunktionen, Kalenderblatt, uam
für Ihre WebSite



Zipfsches Gesetz

ein InfoBitte / WeltChronik
Sach-Artikel (Enzyklopädie / Lexikon)

Entwickelt von ICA-D aus der XML-Version der deutschen WikiPedia
© 2004/2005 ff by de.wikipedia.org, teilw. by ICA-D
blättern» voriger Artikel | Hauptseite | nächster Artikel «blättern

Das zipfsche Gesetz, nach dem Harvard-Professor für Linguistik George Kingsley Zipf (1902-1950) benannt, korreliert die empirisch gefundenen Häufigkeit P von Worten eines ausreichend langen Textes mit deren Rang i ihrer Häufigkeit, in einem Skalengesetz:

Durch Logarithmierung beider Skalen lässt sich die Gleichung in lineare Form bringen, so dass sie sich im Diagramm als Gerade darstellen lässt.


Im einfachen Fall wird für den Exponenten a der Wert 1 angenommen, und es gilt


Bei der Berechnung relativer Häufigkeiten wird c so gewählt, dass gilt:


Für große n mit kann

über die Näherungsformel für harmonische Reihen berechnet werden.


Als Erweiterung (auch Zipf-Mandelbrot-Gesetz) hat Mandelbrot die Form


vorgeschlagen (für das einfache Gesetz von Zipf ist b=0 und a=1).


Eine Interpretation des zipfsches Gesetzes als Wahrscheinlichkeitsverteilung ist die Zeta-Verteilung, die deshalb auch Zipf-Verteilung genannt wird. Das Gegenstück für den Fall kontinuierlicher Werte ist die Pareto-Verteilung.


Siehe auch: Yule-Verteilung, Bradfordsches Gesetz


Inhaltsverzeichnis


1 Eigenschaften

2 Auftreten in der Praxis

3 Beispiel 1, Worthäufigkeiten

4 Beispiel 2, Buchstabenhäufigkeiten

5 Weblinks


Eigenschaften

Wie jedes empirische Gesetz ist auch das zipfsche Gesetz nur näherungsweise gültig. Während es in dem mittleren Bereich die Häufigkeitsverteilung sehr gut wiedergibt, ist die Übereinstimmung bei sehr häufigen (siehe "Stoppwort") und sehr seltenen Wörtern geringer.


Das zipfsche Gesetz markierte den Beginn der quantitativen Linguistik (nzz.ch).


Ein unabhängig vom Gesetz von Zipf festgestellter Spezialfall ist das Gesetz von Benford betreffend die Häufigkeit von Anfangsziffern.


Auftreten in der Praxis

Interessanterweise gilt diese Beziehung nicht nur für Wörter und Buchstaben in Texten menschlicher Sprachen oder Noten in der Musik, sondern für so gut wie alle natürlichen Symbolsequenzen mit langreichweitigen Korrelationen, wie z.B. der DNA. Auch die Anfragewahrscheinlichkeit und Häufigkeit von Webseiten ist Zipf-verteilt (weitere Beispiele siehe Pareto-Verteilung).


Beispiel 1, Worthäufigkeiten

Die Verteilung der Worthäufigkeiten in einem Text gehorcht annähernd einer einfachen zipfschen Verteilung.


In einem Beispieltext tritt das Wort und


mit einer Häufigkeit von ca. 8% auf, gefolgt von die und der mit ca. 5%, siehe Tabelle.


 Die 14 häufigsten Worte in einem deutschen Text:
Rang Wort rel. Häuf. zipfsche Häufigkeit
1 UND 0.08427 0.14027
2 DIE 0.05390 0.07014
3 DER 0.05383 0.04676
4 IN 0.02164 0.03507
5 WIR 0.01676 0.02805
6 ZU 0.01564 0.02338
7 FÜR 0.01536 0.02004
8 SIE 0.01306 0.01753
9 VON 0.01285 0.01559
10 DEN 0.01208 0.01403
11 DES 0.01131 0.01275
12 IST 0.01068 0.01169
13 EINE 0.01047 0.01079
14 NICHT 0.00991 0.01002

Beschränken wir uns auf die ersten 700 Ränge, beträgt die Summe der harmonischen Reihe


und damit


Gemäß der Zipfschen Verteilung sollte das häufigste Wort mit einem Anteil von


das zweithäufigste mit


etc. auftauchen. Den Vergleich zwischen gemessener Verteilung und der Verteilung nach Zipf zeigt die Abbildung rechts.


Beispiel 2, Buchstabenhäufigkeiten

Auch die Verteilung der Buchstaben-Häufigkeiten ähnelt einer zipfschen Verteilung.


Der Buchstabe E und das Leerzeichen sind mit einem Anteil von ca. 13% vertreten, gefolgt vom Buchstaben N mit 9%. Nach Zipf erwartete man eine Häufigkeit von 24% bzw. 12% für die beiden häufigsten Zeichen.


 Häufigkeit der Buchstaben und
  einiger Satzzeichen in einem deutschen Text:
Rang Wort rel. Häuf. zipfsche Häufigkeit
1 E 0.13678 0.23955
2 Leerz. 0.13048 0.11977
3 N 0.09034 0.07985
4 I 0.06908 0.05989
5 R 0.06501 0.04791
6 S 0.05426 0.03992
7 T 0.05386 0.03422
8 D 0.04119 0.02994
9 A 0.04011 0.02662
10 U 0.03947 0.02395
11 H 0.03565 0.02178
12 L 0.03449 0.01996
13 G 0.02820 0.01843
14 C 0.02565 0.01711
15 O 0.02016 0.01597
16 M 0.01938 0.01497
17 B 0.01743 0.01409
18 F 0.01663 0.01331
19 W 0.01409 0.01261
20 K 0.01230 0.01198
21 Z 0.01032 0.01141
22 . 0.00818 0.01089
23 , 0.00790 0.01042
24 V 0.00755 0.00998
25 Ü 0.00613 0.00958
26 P 0.00560 0.00921
27 Ä 0.00537 0.00887
28 Ö 0.00289 0.00856
29 J 0.00064 0.00826
30 Q 0.00033 0.00798
31 Y 0.00027 0.00773
32 X 0.00014 0.00749

Weblinks



blättern» voriger Artikel | Hauptseite | nächster Artikel «blättern

Dieser Beitrag ist aus der XML-Version der deutschen WikiPedia® entwickelt worden und unterliegt inhaltlich den GNU FDL-Lizenzbestimmungen. Linkziele außerhalb der wikipedia-Inhalte unterliegen den Urheberrechten der jeweiligen Anbieter




Wörterbuch


Produkte
2000 Jahre
Chronik CD-ROM


Kalenderblatt in
Schmuckblatt
Ausführung


Geburtstags-Bios

Suchen/Google-Ads
Kalenderblatt
druckfertig
( DirectDownloads )
Kalenderblätter
druckfertig aufbereitet für Schmuckblätter
zum Selbstdrucken

im Word DOC6/RTF Format, je Euro 5
über Click&Buy
JAN | FEB | MÄRZ
APRIL | MAI | JUNI
JULI | AUG | SEPT
OKT | NOV | DEZ

Das Geschenk für jeden Anlass, nicht nur bei 'runden' Jubiläen
Andere Einzeltage
oder Zahlungsarten

bitte HIER bestellen


© 2000 ff by ICA-D, D-76751 Jockgrim, Germany
Verantwortlich im Sinne des Presse- und Multimedia-Rechts: Dipl.-Ing. Rainer Detering, Waidweg 18, 76189 Karlsruhe


| Immer | Unsere | InfoBitte weiterempfehlen
KALENDERBLATT von HEUTE | SUCH-Funktionen ALLE und nach BEREICHEN | Startseite
Welt-Chronik | Kunst-, Kultur-, Technik-Geschichte | Deutsche Chronik | 2000 Biografien | Bild-Datenbank
Gesetzestexte | SkateGuide | Online Jigsaw Puzzles | GeschenkTip | Produkte, Services, Impressum



*NEU* bei InfoBitte *NEU*



die deutsche WikiPedia
bei InfoBitte.de mit
650,000 Querverweisen zu
2000 Jahre Chronik



InfoBitte
Portal zu Portalen
Hauptseite


Suchfunktionen

Wissen, Biografien, Geschichte
besser gezielt suchen mit
domain-Filterung

die Links führen im neuen Fenster
zu den jeweiligen Hauptseiten,
das Anklicken eines Buttons zur
Filterung für die Google-Suche



Google
Lexika @ InfoBitte.de

ib InfoBitte.de (alle Lexika)
ib Universal-/Hand-Lexikon
die WikiPedia @ InfoBitte
ib L. WeltKunstGeschichte
ib L. Geteiltes Deutschland
ib L. Zweiter Weltkrieg

2000 Jahre Chronik

WeltChronik.de (Texte)
  
WeltChronik auf CDROM
deutsche Geschichte
Kultur-/TechnikGeschichte
WeltChronik Bilder
Chronik Biografien

Google
2000 Jahre Chronik
offline auf CDROM

Hier Kaufen


WeltChronik Jahr...
(eigene Suchfunktion)

Nur Zahl eingeben
Bereich: '0'-'2001'





Diese Web Site verdient ihr Geld durch Produktverkäufe (CD-ROM, downloads) und in erster Linie durch Anzeigen. Wenn Sie als Webmaster zuverlässige Partner suchen für Ihr eigenes Anzeigenschäft, dürfen Sie sich gerne auf unsere Empfehlungen stützen:
z.B.: GigaCash & ProfiWin