* [computer] wikipedia ダンプから Ngram と IDF データを作りました 小町さんの blog 記事経由で。 メモ。 以前もこの日記で書いたはずだが、 Wikipedia から生成した back-off N-gram の Julius 用バイナリが 公開されている。 * [computer] グルメ&レシピ・コーパス@May, 2010 以前、少し書いた料理関係の blog データ、 5 月の時点で形態素数約 2.2 億、文数約 960 万になった。 未解析のデータがまだかなりあるので、作業に着手できたら更に数割程度は増えるはず。 以下、参考として、上記 Wikipedia の back-off N-gram のサイトから引用。 コーパス形態素数