サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
ノーベル賞
shimojimoji.hatenadiary.org
Solrには検索結果をClusteringのような機能がある。 price=10, 20 , .... ,100までの値を持つ 100件のデータ(同じ値を10件もつ) /solr/select/?q=*:*&facet=true&facet.field=price した結果は 10 10 10 10 10 10 10 10 10 10 のようになる。 この結果にprece:10の条件を追加して検索した結果が10件ですよーと表示される。 このように、絞込みのためのナビゲーションが可能になる。 ただ,price(値段)のデータは実際のデータだと 下のようにばらつきのあるデータになるだろう。 10, 20 , .... ,1000までの値を持つ100件のデータに対して同様にリクエストすると 1 1 1 1 1 1 1 1 1 1 ...(略) このようにまったく固まりになってくれない。。。。 そ
Solr(というかLucene)で日本語を使えるようにするには 大きくわけて、N-グラム(CJKAnalyzer)か形態素解析(JapaneseAnalyzer) を使う方法がある。 N-グラムは東京都で検索すると京都が引っかかったりと残念なので、 形態素解析を使いたいのだが、Lucene-jaでは形態素解析にsenを使わなきゃいけない。 senはバギーなので(辞書に登録する単語数が少ない場合は問題ない) Lucene-jaを改変してGoSen(senよりかはマシ)用のラッパーを作らなきゃいけない。 antを入れておきましょう(eclipseなら標準ではいってる) ダウンロード http://itadaki.svn.sourceforge.net/viewvc/itadaki/GoSen/ より落とす。SVNがない場合はしたのほうでtar.gz形式でダウンロードできる $GoSen_HOM
solrで同義語検索を行う方法。 同義語には以下のようなものがある 表記揺らぎ twitter <=> ついったー 省略形 United States of America <=> USA 類義語 検索 <=> 探索 ここでは、同義語とは なんらかのデータソース上(同義語辞書)で定義された2つの語とする。 つまり、辞書上に (twitter, ついったー)が同義語と定義されていれば同義語とする。 同義語検索とはここでは、 "twitter"で検索した際に、その同義語"ついったー"を含む文書を検索すること。 インデクス作成時に行う場合(a) 例えば "twitterに投稿しました。" のような文書は 通常時 "twitter に 投稿 し まし た 。" のようにパースされ。 単語 位置情報 twitter 1番目の単語 に 2番目の単語 投稿 3番目の単語 する 4番目の単語 ます 5番目
このページを最初にブックマークしてみませんか?
『shimojimoji.hatenadiary.org』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く