[B! 検索エンジン][solr] nihohiのブックマーク

nihohi id:nihohi

検索エンジンとsolrに関するnihohiのブックマーク (2)

Luceneスコアリングの大雑把な説明 | 関口宏司のLuceneブログ
一定期間更新がないため広告を表示しています
nihohi 2012/03/19
スコアについて概要

検索エンジン

lucene

solr
リンク
検索エンジンの常識をApache Solrで身につける
検索エンジンの常識をApache Solrで身につける：ビッグデータ処理の常識をJavaで身につける（1）（2/4 ページ）【2】言語同定器検索エンジンで複数の言語からなる文書集合のインデックスを生成する際、入力文書の記述言語によって処理が異なることがあります。例えば、日本語文書では単語の区切りがないため、トークナイザが文中に含まれる単語を確率的に推定して単語を切り出してあげる必要があります。一方で、英語の文は単語の区切りが自明であるため、トークナイザが行う処理はほとんどありません。このように、入力文書の記述言語が複数存在する状況では、入力文書の記述言語によって利用するトークナイザなどのコンポーネントを変更する必要があります。上記のように入力言語によって処理内容を変えるためには、そもそも入力クエリや文書が、どの言語で記述されているのかを同定する必要があります。「言語同定器」というコ
nihohi 2012/03/19
検索エンジン

lucene

solr
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx