タグ

miningに関するmichael-unltdのブックマーク (4)

  • 形態素解析と検索APIとTF-IDFでキーワード抽出

    形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基中の基ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ

    形態素解析と検索APIとTF-IDFでキーワード抽出
    michael-unltd
    michael-unltd 2008/07/09
    形態素解析と tf-idf を用いたキーワード抽出
  • セマンティック・マイクロブログ

    ソーシャルメディアとマイクロブログ SNSとソーシャルメディア SNS:個人のプロフィールや関心事などを(範囲を限定して)公開し社会的ネットワークを構成 ソーシャルメディア:社会ネットワークとコンテンツ・メッセージ共有の組み合わせ Ambient Intimacy(何気なくそこにあるような親しみ)の感覚 データの互換性、共有が課題 マイクロブログ(Microblogging) 限られた字数の最小限の=気軽に書けるコンテンツ ゆるやかで手軽なコミュニケーション Why We Twitterの考察では、日常会話+情報探索/共有 フットワークの軽さとモバイルとの相性 携帯端末からも簡単に読み書きできる → 発信する位置という新たなメタデータ マイクロブログのデータモデル コンテンツのモデル ポストの内容(文) ポストのメタデータ(タグ、返信など) サービスによってさまざまな形態 ポスト文中に

  • R - 機械学習の「朱鷺の杜Wiki」

    R体† 公式サイト (国内ミラー) 公式サイト R news:年に数度発刊されるニュースレター R seek:R 用にカスタマイズされた検索エンジン R-forge:パッケージなど関連ソフトの開発サイト mloss:R, mloss:r-cran 機械学習ソフトレポジトリ (Rタグ) Red-R:Rのビジュアルプログラミング環境 ↑ Tips† RjpWiki ここを見れば R のことはたいていわかります. RjpWiki:Rのヘルプ機能 RjpWiki:Tips紹介 RjpWiki:超訳のページ群 RjpWiki:リンク集 RjpWiki:グラフィックス参考実例集 RjpWiki:R-FAQ日語訳 RjpWiki:リンク集:ほとんどの国内サイトへのリンクだけでなく,Rの参考書の一覧もあります MATLAB / R Reference @ David Hiebeler R Graph

  • 自分マイニング! - Blogでよく使うフレーズは?

    自分マイニング! - Blogでよく使うフレーズは? 2005-01-18-3 [Blog] このBlogで私がよく使うフレーズを、SUFARYを使ってさくっと 調べてみました。自分マイニングです。 調査対象期間:2000年1月から今朝まで。 100回以上出現し6文字以上の文字列のみリストアップ: 順位出現回数フレーズ1204ということで2116というわけで3116たんだけど、4116インストール5110っています。6104インターネット ということで、1位は「ということで」でした。「わけ」より「こと」が 好きみたい。この結果をふまえると私の典型的な文章はこんな感じかな: ということで、結局インターネットというわけで、なんだったんだけど インストールしちゃっています。 ところで、今回使ったSUFARY は私が学生時代に作っていた 高速文字列検索エンジンです。[2003-09-29-4]や[

    自分マイニング! - Blogでよく使うフレーズは?
  • 1