タグ

kuromojiに関するsionsouのブックマーク (2)

  • Kuromojiについて - Qiita

    Kuromojiを使用するにあたっての雑記。ただのメモ。 はじめに Kuromojiは日形態素解析エンジンであるが、そもそも形態素解析とは何?ってとこから。 形態素解析とは 文を単語に区切り品詞を定める処理 以下の3つの処理を行っている 単語の分割 活用語処理(読みやすい形、意味のある形に変換すること) 品詞を定める といった順番で行っている。 形態素解析技術的な仕組み 単語辞書 形態素ラティス 最小コスト法 単語辞書 形態素解析を行うにあたって、単語を分割する必要があるがどこで切ればいいかというのが課題。 ここで単語辞書というものを使用している。 単語辞書というのは10万以上の単語帳のようなもので、入力された文章に対して想定されるすべての分け方パターンを抽出されるのに使用される。 ただ、毎回検索していては計算時間が膨大にかかってしまうためツリー状に辞書の持ち方をして管理をして

    Kuromojiについて - Qiita
  • ElasticsearchとKuromojiを使った形態素解析とN-Gramによる検索の適合率と再現率の向上

    ElasticsearchとKuromojiを使った形態素解析とN-Gramによる検索の適合率と再現率の向上:Elasticsearch+Hadoopベースの大規模検索基盤大解剖(2)(1/3 ページ) リクルートの事例を基に、大規模BtoCサービスに求められる検索基盤はどう構築されるものなのか、どんな技術が採用されているのか、運用はどうなっているのかなどについて解説する連載。今回は、テンプレートを利用したインデックス生成など、検索結果の品質を向上させるためのさまざまな取り組みを紹介する。 連載目次 リクルートの全社検索基盤「Qass」の事例を基に、大規模BtoCサービスに求められる検索基盤はどう構築されるものなのか、どんな技術が採用されているのか、運用はどうなっているのかなどについて解説する連載。初回の前回「リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか

    ElasticsearchとKuromojiを使った形態素解析とN-Gramによる検索の適合率と再現率の向上
  • 1