タグ

TF-IDFに関するum-mttのブックマーク (7)

  • きまぐれ日記: キーワード抽出: tf-idf の意味づけ

    単語の重み付けの古典的な方法に tf-idf があります。文書中の各単語の tf-idf 値計算し、値でソートすると、その文書に特徴的な単語リストを得ることができます。 http://nais.to/~yto/clog/2005-10-12-1.html tf-idf は、単なるヒューリスティックスだと考えられていましたが、最近言語モデルに基づく情報検索手法がさかんに研究されるようになり、tf*idf の解釈が明らかになってきました。言語モデルに基づく手法は、ヒューリスティックスばりばりの手法と同性能にもかかわらず、文書のランキングに理論的で合理的な説明を与えることができます。 情報検索は、クエリ q に対し、もっとも適合する文書 d_opt を求めるタスクです。つまり、q が与えられたとき、文書 d が出現する確率 p(d|q) の最大化問題と解釈できます。 d_opt = argmax

  • []

    DUE: Tuesday 1/21 11:59pm HOW TO SUBMIT: All files should be submitted through WebSubmit. Only one of your team members needs to submit on behalf of the team. On the WebSubmit interface, make sure you select compsci290 and the appropriate lab number. You can submit multiple times, but please have the same team member resubmit all required files each time. To earn class participation credit, submit

  • technica » クリスマスに機械学習で彼女ができました。

    初めまして。 新卒でSpeeeに入社をして半年ちょっとが経ちました二次元エンジニアです。現在はソーシャルゲームチームのメインエンジニアとして働いています。彼女はいませんが、最近ANIMAXとAT-Xを契約して非常に生活が充実しています。 もちろん表題は釣りです。釣られてしまった方は腹筋してください。 さて、画面の中、学校、会社で気になる女の子を見つけたらどうしますか。 勇気ある方はきっとその子の趣味や好きな物を調べて、それを口実に接触を試みるでしょう。 彼女にこんなのあったよ!って新しいものを提供しましょう! ・・・ そうだ!機械学習だ!機械学習で彼女ができるんだ! という訳で、今回はアニメ好きの女の子を想定して、アニメの感想でscikit-leanを試してみました。 今回使用するもの 今回は主にpythonとscikit-learnを使ってごにょごにょ試してみたいと思います。 実行

    technica » クリスマスに機械学習で彼女ができました。
  • 機械学習ライブラリ scikit-learn で簡単ツイート分類 | ぱろすけのメモ帳

    皆様こんにちは。今日も元気に自分を見つめ直していますか?自分を見つめ直す手段として、過去の自分の発言を見返すことは有用だと考えられます。たとえば、Twitter を使っている方ならば、その過去ログを用いることが考えられるでしょう。Twitter の過去ログはライフログとして機能し、それを用いることにより、過去の出来事のみならず、考え方、感じ方、ふとした着想、などなどを読み取ることができます。しかしながら、過去のツイートを全部見返すのは非常に面倒ですね。たとえば僕のアカウントはトータルで4万ツイート以上あります。これは非常にめんどい。Twitter は情報量多くてだるいよね問題については、従来「再生核 Hilbert 空間を用い、脱ベイズ確率主義に立脚したあまりだるくないツイッター」などの試みが行われてきましたが、今なおその面倒さを軽減する手段については十分とはいえません。記事では、過去の

  • scikit-learn で TF-IDF を計算する - Qiita

    昨日触れた TF-IDF を求めるコードを実装します。機械学習については例によって scikit-learn を使います。 このような既知の計算については自力で実装するより完成度の高いライブラリを利用するべきでしょう。これにより車輪の再発明を避ける、品質を担保するという狙いがあります。 事前準備として、ホームディレクトリの docs ディレクトリに処理対象となる自然言語の文書を格納します。 import os import MeCab from sklearn.feature_extraction.text import TfidfVectorizer home = os.path.expanduser('~') target_dir = os.path.join(home, 'docs') token_dict = {} def tokenize(text): """ MeCab で分か

    scikit-learn で TF-IDF を計算する - Qiita
  • scikit-learnでtf-idfを計算する - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? この投稿は現実逃避アドベントカレンダー2013の4日目の記事です。 2日目の記事でBing APIを使ってフェッチしたhtmlを使うので、2日目を先に読んでおくと理解しやすいです。 稿を3行でまとめる scikit-learnというPythonのライブラリを調べた 2日目で保存したhtml内の語のtf-idfを計算した 語とtfidfのマッピングを確認した 参考 scikit-learn公式、テキストの素性抽出ドキュメント scikit-learnを使ってTweet中の単語のtfidf計算 完成品 Fork me! 理論 tfidfの

    scikit-learnでtf-idfを計算する - Qiita
  • 形態素解析と検索APIとTF-IDFでキーワード抽出

    形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基中の基ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ

    形態素解析と検索APIとTF-IDFでキーワード抽出
  • 1