2012年5月3日のブックマーク (2件)

  • 日本語「もしかして」検索について - 株式会社ロンウイット

    ロンウイットのSolrサブスクリプション・パッケージはバージョン0.9から、お客様からご要望の多かった日語の「もしかして検索」に対応しました。記事ではその新機能を詳しく紹介します。 「もしかして検索」とは? もしかして検索は、GoogleYahoo!の検索窓に、間違った(と思われる)検索語を入力したとき、以下の画面例のように「もしかして○○」(Googleの場合)あるいは「○○ではありませんか?」(Yahoo!の場合)という文言を検索結果ページに表示する機能です。 「○○」の部分にはその間違った検索語を訂正した正しい(と思われる)検索語がアンカーリンクで表示されます。そのため、もし訂正された検索語が正しかった場合、ユーザーは検索語を再入力することなく、リンクをクリックするだけで再検索できるようになります。「もしかして検索」は、ユーザーの省力化に大きく貢献する、大変優れた効果的な検索機

    日本語「もしかして」検索について - 株式会社ロンウイット
  • livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク

    突然ですが,mecabの辞書 (mecab-ipadic) をデフォルトのまま使って,mecab意外と使えねぇとか文句言ってる悪い子はおらんかね? mecab-ipadic は比較的お行儀のよい日語をベースに作られているので,そのままでは web上の口語文体のテキストはうまく扱えないことがあります。来は教師データを用意し,学習させるといった手法を使うのが正攻法だと思いますが,とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。 人間の話す言語には,動詞の語幹や名詞には日々新しく語彙が増えるけど,助詞や活用のルールは簡単には変化しない,という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は,名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。 ただ,辞書への単語追加はここにある通り簡単にできるのですが,単語