[B! n-gram] hrsttのブックマーク

hrstt id:hrstt

n-gramに関するhrsttのブックマーク (2)

Debian に Tomcat + Apache Solr + 日本語検索対応環境を構築
※2012年1月18日　追記 Tomcat 7、Solr 3.5.0で日本語検索の環境構築を行ってみました。 Debian に Tomcat 7 + Apache Solr 3.5.0 + 日本語検索対応環境を構築(lucene-gosen使用) Tomcat上でsolrを動かすことはできた模様。このままでは日本語をうまく分割してインデックス化してくれません。たとえば、「日本語データ」というデータを登録した場合、日本や日本語、データというキーワードでヒットしてほしいと思いますが、「日本語データ」と全文一致しないと、ヒットとみなしません。そこで、N-gram解析モジュールと形態素解析モジュールを導入します。 N-gram解析モジュールの導入 https://sen.dev.java.net/servlets/ProjectDocumentList?folderID=755&expa
hrstt 2011/07/25
solr

n-gram

sen
リンク
HadoopでN-gramで転置インデックス作成
Hadoopのサンプルコードと言えばwordcountぐらいしか見かけないということで，転置インデックスのサンプルを作ってみました．転置インデックス作成をMapReduceのモデルで表すと以下になります．google論文に習った擬似コードで表します． Map: 単語ごとに文書名を出力しています．単語の分割をfor each wordとしていますが，日本語の場合単語の分割が問題ですが，今回は単純なN-gramで実装しました． map(String key, String value): //key: 文章名 //value: 文章の内容 for each word w in value: Em itIntermediate(w, key); Reduce: 重複を取り除くだけです．valuesでソートするとなお良いかもしれません reduce(String key, Iterato
hrstt 2011/07/21
Hadoop

n-gram
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx