[B! 形態素解析] modataのブックマーク

modata id:modata

形態素解析に関するmodataのブックマーク (3)

形態素解析と検索APIとTF-IDFでキーワード抽出
形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。教科書に載っているような基本中の基本ですが、あらためてエッセンスを簡単な例で解説したいと思います。目的：キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します。TF-IDF という指標を用います。（この値が大きいほどその単語が代表キーワードっぽいということでよろしく。） TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ
modata 2013/12/19
形態素解析
リンク
Webでの単語共起を調べるサイトを作った
Webでの単語共起を調べるサイトを作った 2007-07-29-3 [Programming][NLP] ヤフー検索を用いてWebでの単語共起を調べるサイト「Web単語共起」(http://yapi.ta2o.net/tangokyouki/) を作りました。日本語だけじゃなく英語もいけますよ。 Yahoo!ウェブ検索APIで検索結果100件を取ってきて、日本語の場合は形態素解析(MeCabを使用)をかけて、単語の出現頻度をカウントして表示します。 Unigram は1語単位でのカウント、 Bigram は連続2語単位でのカウント、 Trigram は連続3語単位でのカウントを意味します。
modata 2013/11/06
形態素解析

web
リンク
NAVER まとめサジェスト検索のしくみ « NAVER Engineers' Blog
こんにちは、NAVER Japan 検索サービス開発１チームで開発を担当している金森です。先日「NAVER まとめ」にトピック機能を追加しましたが、そのタイミングでまとめサービス内で使用しているサジェスト検索機能のリプレイスを行いました。今回このブログでは、実装したサジェスト検索の仕組みと、日本語入力ならではの諸々の面倒くさい問題とその対応について紹介したいと思います。目次まとめにおけるサジェスト検索使用した技術全体的な検索の流れサジェストのためのローマ字変換拗音のローマ字変換入力途中の文字「いんてｒねｔ」の対応ローマ字変換のまとめその他注釈などまとめ今後の課題 1. まとめにおけるサジェスト検索サジェスト検索は皆さんお馴染みのとおりの機能で、簡単に言うと「検索語の入力中に検索候補が表示されるもの」と言えるかと思います。まとめサービスでは、Web版の画
modata 2011/11/25
まとめ

開発

形態素解析
リンク
1