タグ

Luceneに関するCLSmoothのブックマーク (6)

  • Apache Solrを使った検索サジェスターの作り方まとめ - Qiita

    概要 Apache Solr(以下、Solr)で商品検索のサジェスターを作ったので、それを紹介します。 サジェスターを作るにあたり、どのようにスキーマやサーチコンポーネントを定義すれば良いのかを説明します。 なお、この記事はsolr 4.10.4を対象にした記事です。 それ以外のバージョンでは設定項目が変わってくる場合があります。 サジェスターとは サジェスターとは、ユーザーが検索用のフォームに単語を入力している途中に、その入力途中の単語を補完する機能です。 例えば、Google検索でサジェスターについて調べようとした時に、「さじぇ」と入力した時点で以下のように「さじぇ」に続く単語が候補として現れます。 このような機能を実装することによって、ユーザーがテキストを入力する手間が省けたり、入力間違いをした単語で検索をしてしまうことを防げたりする効果があります。 日語のサジェスターの難しいとこ

    Apache Solrを使った検索サジェスターの作り方まとめ - Qiita
  • ネットマネーラボ

    おまとめローンのおすすめをランキング形式で紹介!各社の金利比較と審査で通りやすい傾向についても徹底解説

    ネットマネーラボ
  • Luceneで使われてるFSTを実装してみた(正規表現マッチ:VMアプローチへの招待) - Qiita

    入力と出力のペアに対して,上のようなグラフを作るのが目標です.テーブルの出力のとこは数字が書いてありますが,文字列だと思ってとらえて下さい.map だと出力は1つに限られちゃいますが,ひとつの入力に対して出力が複数あってもいいです.たとえば入力 "feb" に対して,出力は "28" と "29" があります.(2月は28日と29日のときがありますね). ノードの部分が状態で,そこから出ている矢印が状態遷移になります.矢印には a/b というラベルがついていますが,a の部分が入力とのマッチを意味し,b の部分がそのときの出力を意味します. 上の例で示すFSTで,"aug"を処理するには,"aug"を頭から読んで,入力"a"に対応するの(9)から(3)への矢印を選択します.そのとき,出力として"3"を記録しておきます.そのあと,"u"に対して(3)から(2)への矢印を選択し,"1"を先ほど

    Luceneで使われてるFSTを実装してみた(正規表現マッチ:VMアプローチへの招待) - Qiita
  • Unix を使える学生は急速に減っている - 武蔵野日記

    午前3時から NLP(自然言語処理)若手の会シンポジウム・情報処理学会自然言語処理研究会関係の仕事を黙々とする。大学運営関係のお仕事は9月中旬までないので、いまのうちに溜まった仕事を片付け、9月の準備をしておき、10月以降に備えたい(授業が週3コマある)。 (2014-08-21 追記)タイトルだけ見て反応する人が多いので、よくあるコメントについて冒頭で説明しておく。 「最近の若い者はなっとらん」と言っているだけで、教育もしていないなら当然。→8月20日に追記したが、教員なので教育するのが仕事の一部であり、研究室に配属された学生は最初週20時間(1個2時間×10個)の勉強会に出てもらい、それぞれ合計すると演習を解いたりするのに週20時間かかるようなので、合計週40時間基礎勉強に使ってもらっている。(参考: 研究室の勉強会のスケジュール) 必要性がないとやらないのでは?→世の中の99%の人に

    Unix を使える学生は急速に減っている - 武蔵野日記
  • 情報検索の基礎からデータの徹底活用まで

    [data analytics showcase] B14: 文字情報の分析基盤 Mroonga by 株式会社インサイトテクノロジー 小幡 一郎

    情報検索の基礎からデータの徹底活用まで
  • 日本語「もしかして」検索について - 株式会社ロンウイット

    ロンウイットのSolrサブスクリプション・パッケージはバージョン0.9から、お客様からご要望の多かった日語の「もしかして検索」に対応しました。記事ではその新機能を詳しく紹介します。 「もしかして検索」とは? もしかして検索は、GoogleYahoo!の検索窓に、間違った(と思われる)検索語を入力したとき、以下の画面例のように「もしかして○○」(Googleの場合)あるいは「○○ではありませんか?」(Yahoo!の場合)という文言を検索結果ページに表示する機能です。 「○○」の部分にはその間違った検索語を訂正した正しい(と思われる)検索語がアンカーリンクで表示されます。そのため、もし訂正された検索語が正しかった場合、ユーザーは検索語を再入力することなく、リンクをクリックするだけで再検索できるようになります。「もしかして検索」は、ユーザーの省力化に大きく貢献する、大変優れた効果的な検索機

    日本語「もしかして」検索について - 株式会社ロンウイット
  • 1