Nグラムによるテキスト研究 師 茂樹 Nグラムとは Nグラムとは、確率・統計的自然言語処理の分野で広く用いられている言語モデルで、きわめて単純なモデルであり多くの欠点が指摘されているにもかかわらず、非常に強力な分析方法である。単語や文字(アイテムと総称)の生起が、直前のアイテムのみに依存していると考え、その確率を求めるものである。 近年、人文学におけるテキスト研究において、Nグラムが注目されてきている。これまで、テキスト研究における統計的な分析(計量文献学)においては、形態素分析が不可欠の作業とされており、実際、品詞をマークアップしたテキストデータベースによる研究によっていくつかの注目すべき成果が上がっている。しかし、形態素分析に基づくデータ処理には、次のような問題点が指摘されている(近藤みゆき [2001]参照)。 1語の単位を認定する基準が一通りではない。 複合語や強い共起性のある