タグ

n-gramに関するhrsttのブックマーク (2)

  • Debian に Tomcat + Apache Solr + 日本語検索対応環境を構築

    ※2012年1月18日 追記 Tomcat 7、Solr 3.5.0で日語検索の環境構築を行ってみました。 Debian に Tomcat 7 + Apache Solr 3.5.0 + 日語検索対応環境を構築(lucene-gosen使用) Tomcat上でsolrを動かすことはできた模様。 このままでは日語をうまく分割してインデックス化してくれません。 たとえば、「日語データ」というデータを登録した場合、 日や日語、データというキーワードでヒットしてほしいと思いますが、 「日語データ」と全文一致しないと、ヒットとみなしません。 そこで、N-gram解析モジュールと形態素解析モジュールを導入します。 N-gram解析モジュールの導入 https://sen.dev.java.net/servlets/ProjectDocumentList?folderID=755&expa

    Debian に Tomcat + Apache Solr + 日本語検索対応環境を構築
  • HadoopでN-gramで転置インデックス作成

    Hadoopのサンプルコードと言えばwordcountぐらいしか見かけないということで,転置インデックスのサンプルを作ってみました. 転置インデックス作成をMapReduceのモデルで表すと以下になります.google論文に習った擬似コードで表します. Map: 単語ごとに文書名を出力しています. 単語の分割をfor each wordとしていますが,日語の場合単語の分割が問題ですが,今回は単純なN-gramで実装しました. map(String key, String value): //key: 文章名 //value: 文章の内容 for each word w in value: EmitIntermediate(w, key); Reduce: 重複を取り除くだけです.valuesでソートするとなお良いかもしれません reduce(String key, Iterato

  • 1