tomoemonさんが日本語n-gramのデータを探されているようなので、探されているものとは違うような気もするけれど、自分が作ったn-gramデータをアップしておきます。 作成手順は以下の通り。 1.Web上その他から、文章を適当に100万字採集。一応、URL、ブログの日付部分、青空文庫のルビなど、集計する意味がないと思われる部分は採集しないようにした。できるだけジャンルが偏らないようにした……つもり。採集した文章のリスト→n-gram_text_list.ods 2.すべての半角文字を全角に変換する。※どうせ英数記号は集計しない。 3.「.」「,」を「。」「、」に変換する。※句読点に「、」「。」ではなく、「,」「.」を使っている文章もあるので。 4.『Kanji2na』で漢字とカタカナをひらがなに変換する。 5.かなと句読点以外(空白も含む)を〓に置き換え、改行の手前に〓を入れる。〓が