Dieser Artikel von Wikipedia ist u.U. veraltet. Die neue Version gibt es hier. Das Zipfsche Gesetz nach dem Harvard -Professor für Linguistik George Kingsley Zipf ( 1902 - 1950 ) benannt korreliert die empirisch gefundenen Häufigkeit P von Worten eines ausreichend langen Textes deren Rang i ihrer Häufigkeit in einem Skalengesetz :
<math>P(i) = \frac{c}{i^a}</math>
Im einfachen Fall wird für den a ein Exponenten der Wert 1 angenommen womit er werden kann und es gilt
<math>P(i) i = const.</math>
Wird mit der relativen Häufigkeit in gerechnet so ist <math>c=1</math>.
Durch Logarithmierung beider Skalen lässt sich die Gleichung lineare Form bringen so dass sie sich Diagramm als Gerade darstellen lässt.
<math>\log(P(i)) = \log(c) - a \log(i)</math>
Als Erweiterung (auch Zipf-Mandelbrot-Gesetz) hat Mandelbrot Form
<math>P(i) = \frac{c}{(i+b)^a}</math>
vorgeschlagen (für das einfache Gesetz von ist <math>b=0</math> und <math>a=1</math>).
Wie jedes empirische Gesetz ist auch Zipfsche Gesetz nur näherungsweise gültig. Während es dem mittleren Bereich die Häufigkeitsverteilung sehr gut ist die Übereinstimmung bei sehr häufigen (siehe Stoppwort ") und sehr seltenen Wörtern geringer.
Das zipfsche Gesetz markierte den Beginn quantitativen Linguistik ( nzz.ch ).
Interessanterweise gilt diese Beziehung nicht nur Texte in menschlichen Sprachen sondern für so gut wie alle Symbolsequenzen mit langreichweitigen Korrelationen wie z.B. der DNA . Auch die Anfragewahrscheinlichkeit und Häufigkeit von ist Zipf-verteilt (weitere Beispiele siehe Pareto-Verteilung ).
Ein unabhäging vom Gesetz von Zipf Spezialfall ist das Gesetz von Benford betreffend die Häufigkeit von Anfangsziffern.