大量のテキストに使用された要素の頻度を集計し、そのデータを値が大きい順に並べると、その順位(ランク)と頻度の間には次の法則があることがわかっている。 順位×頻度≒定数 この法則を「ジップの法則」と呼ぶ。ジップ(Zipf)は、この研究を1929年から始めたそうである。その結果に関連する主な著書として、Zipf(1935, 1949)がある。当初はPrinciple of Least Effort 用語を用いていた。 ジップの発見した法則は、単語の使用頻度と順位との関係から導き出した法則であるが、言語に限らず何らかの頻度と順位との関係に適用される。 頻度、順位、定数をそれぞれf,r,cで表すと、ジップの法則は次の式で表される。定数cは、データから求めることになる。 表1に、福田総理の所信表明演説文における単語を出現頻度が高い順に並べ、その順位と単語の頻度データを示す。横軸をランク、縦軸を頻度と