きまぐれ日記: MeCab を使って N-gram を取り出す。

暮らしカテゴリーの変更を依頼記事元:

chasen.org/~taku

6 usersがブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

bongkura ngram

MeCab

2009/03/23 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

きまぐれ日記: MeCab を使って N-gram を取り出す。

Senna や HyperEstraier といった最近の検索システムでは n-gram インデックスが使われることが多くなっ... Senna や HyperEstraier といった最近の検索システムでは n-gram インデックスが使われることが多くなってきました。正確には文字 n-gram ですが、(単語 n-gramとの対比) ようするに、テキスト中の n 以下までのすべての部分文字列を取り出して index に使う処理のことを言います。 n-gram の取り出しは、すごく簡単で、プログラミングしてもたいした量にはなりませんが、ここはあえて MeCab だけでやってみたいと思います。まず、mecab-0.91 (src/tokenizer.cpp) に以下のパッチを当てます。(もしくは最新の CSVからソースを拾ってきます) 実際この記事を書くにあたって見つけたバグです。 4c4 < $Id: tokenizer.cpp,v 1.13 2006/05/03 07:56:28 taku-ku Exp $; --

MeCab

ブックマークしたユーザー

makotokaga2009/06/15
bongkura2009/03/23
YTPX2006/07/24
heitatta2006/05/11
jazzanova2006/05/08
monolith2006/05/03

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - 暮らし

いま人気の記事 - 暮らしをもっと読む

新着記事 - 暮らし

新着記事 - 暮らしをもっと読む

設定を変更しましたx