タグ

形態素解析に関するmodataのブックマーク (3)

  • 形態素解析と検索APIとTF-IDFでキーワード抽出

    形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基中の基ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ

    形態素解析と検索APIとTF-IDFでキーワード抽出
  • Webでの単語共起を調べるサイトを作った

    Webでの単語共起を調べるサイトを作った 2007-07-29-3 [Programming][NLP] ヤフー検索を用いてWebでの単語共起を調べるサイト 「Web単語共起」(http://yapi.ta2o.net/tangokyouki/) を作りました。 日語だけじゃなく英語もいけますよ。 Yahoo!ウェブ検索APIで検索結果100件を取ってきて、 日語の場合は形態素解析(MeCabを使用)をかけて、 単語の出現頻度をカウントして表示します。 Unigram は1語単位でのカウント、 Bigram は連続2語単位でのカウント、 Trigram は連続3語単位でのカウントを意味します。

    Webでの単語共起を調べるサイトを作った
  • NAVER まとめ サジェスト検索のしくみ « NAVER Engineers' Blog

    こんにちは、NAVER Japan 検索サービス開発1チームで開発を担当している金森です。 先日「NAVER まとめ」にトピック機能を追加しましたが、そのタイミングでまとめサービス内で使用しているサジェスト検索機能のリプレイスを行いました。 今回このブログでは、実装したサジェスト検索の仕組みと、日本語入力ならではの諸々の面倒くさい問題とその対応について紹介したいと思います。 目次 まとめにおけるサジェスト検索 使用した技術 全体的な検索の流れ サジェストのためのローマ字変換 拗音のローマ字変換 入力途中の文字 「いんてrねt」の対応 ローマ字変換のまとめ その他注釈など まとめ 今後の課題 1. まとめにおけるサジェスト検索 サジェスト検索は皆さんお馴染みのとおりの機能で、簡単に言うと「検索語の入力中に検索候補が表示されるもの」と言えるかと思います。 まとめサービスでは、Web版の画

  • 1