エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
きまぐれ日記: MeCab を使って N-gram を取り出す。
Senna や HyperEstraier といった最近の検索システムでは n-gram インデックスが使われることが多くなっ... Senna や HyperEstraier といった最近の検索システムでは n-gram インデックスが使われることが多くなってきました。正確には文字 n-gram ですが、(単語 n-gramとの対比) ようするに、テキスト中の n 以下までのすべての部分文字列を取り出して index に使う処理のことを言います。 n-gram の取り出しは、すごく簡単で、プログラミングしてもたいした量にはなりませんが、ここはあえて MeCab だけでやってみたいと思います。 まず、mecab-0.91 (src/tokenizer.cpp) に以下のパッチを当てます。(もしくは最新の CSVからソースを拾ってきます) 実際この記事を書くにあたって見つけたバグです。 4c4 < $Id: tokenizer.cpp,v 1.13 2006/05/03 07:56:28 taku-ku Exp $; --
2009/03/23 リンク