タグ

キーワード抽出に関するtsupoのブックマーク (6)

  • twitterウェブサービス・アプリ - twittell.net

    twitterをもっと楽しくするウェブサービス・ツール つぶやき成分解析・ブログパーツなどを公開中! twitterツイーツアナライズは、自分のつぶやきから、重要なキーワードを解析して抽出するウェブツールです。初期値では、最新のツイート1件を対象に解析しますが、解析範囲を広げると最新8件のツイートから解析を行います。これで、最近のつぶやき傾向を知ることができます。 さらに、抽出されたキーワードから、他のユーザーのつぶやきを簡単に検索できます。twitterのつぶやきとつぶやきを繋ぐウェブサービスを目指しました。 さらに、詳しいご利用方法はこちら。 あなたのブログやサイトに、twitterでつぶやくボタンが設置できるブログパーツです。 設置しやすいように、さまざまなサイズのバナーをご用意しました。 このブログパーツは、ボタンがクリックされたページタイトルと、URLを自動で取得して、ツイッター

    tsupo
    tsupo 2010/01/09
    twitterアナライズ: 指定のユーザーのつぶやきから、重要なキーワードを解析して抽出 + 抽出したキーワードでtwitter内のつぶやきを検索 / ツイートスポット: 地図へのリンクを貼り付けてつぶやく
  • [ThinkIT] 第3回:テキストマイニング技術の全貌 (3/3)

    これまでの処理の結果を元にして、トピックス別の集計が可能になる。その結果、「どんなトピックスが何人から寄せられているのか」「全体のどのくらいの割合を示しているのか」を瞬時に把握することができる。 TRUE TELLERでは、単語ランキング、主な話題機能などで全体集計結果を提供し、テキストデータを俯瞰することができる。

    tsupo
    tsupo 2006/12/25
    TRUE TELLER / 単語ランキング、主な話題機能などで全体集計結果を提供し、テキストデータを俯瞰する / 文章は形態素解析、同義語の統一、統計処理を経て分析が可能になる
  • Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた

    « IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日 キーワード抽出モジュールを作ってみた 一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。 竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。 普通の Perl モジュールなので、 perl Makefile.PL && make && make install すれば使うことができます (15:50追記: すみません。 MeCab

    tsupo
    tsupo 2006/04/26
    実装にあたっては、連続する名詞を自動的に結合評価するようにした点がポイント/要約機能は未実装/時事問題や、専門性の高い文書についても、適切なキーワード抽出を期待できる
  • DNP、ブログの人気キーワード抽出システムを開発---人気語句の紹介サイトも

    大日印刷(DNP)は12月14日、ブログで話題となっている語句(トレンドキーワード)をRSSフィードから抽出するシステムを発表した。あわせて、DNPの子会社マイポイント・ドット・コムがこのシステムを利用し、トレンドキーワードを紹介するウェブサイト「BLOG360」を開設した。 この抽出システムは、約35万サイトのブログから発信されるRSSフィードを集め、その内容を解析することでトレンドキーワードの候補となる語句を選ぶ。こうした候補に独自アルゴリズムを適用してスコア計算し、スコア上位の語句をトレンドキーワードとして表示する。 BLOG360は同システムを使い、トレンドキーワードとして日替わりでトップページに掲載する。トレンドキーワードをクリックすると、そのキーワードにかかわるブログの一覧のほか、関連した商品情報や広告も表示する。 今後、DNPでは、抽出ルールの見直しなどを随時実施し、抽出精

    DNP、ブログの人気キーワード抽出システムを開発---人気語句の紹介サイトも
    tsupo
    tsupo 2005/12/14
    track word 対抗かと思ったけど、別物。どちらかというと、アサマシ系blog検索エンジンですね。
  • きまぐれ日記: キーワード抽出: tf-idf の意味づけ

    単語の重み付けの古典的な方法に tf-idf があります。文書中の各単語の tf-idf 値計算し、値でソートすると、その文書に特徴的な単語リストを得ることができます。 http://nais.to/~yto/clog/2005-10-12-1.html tf-idf は、単なるヒューリスティックスだと考えられていましたが、最近言語モデルに基づく情報検索手法がさかんに研究されるようになり、tf*idf の解釈が明らかになってきました。言語モデルに基づく手法は、ヒューリスティックスばりばりの手法と同性能にもかかわらず、文書のランキングに理論的で合理的な説明を与えることができます。 情報検索は、クエリ q に対し、もっとも適合する文書 d_opt を求めるタスクです。つまり、q が与えられたとき、文書 d が出現する確率 p(d|q) の最大化問題と解釈できます。 d_opt = argmax

    tsupo
    tsupo 2005/11/07
    tf-idf は、単なるヒューリスティックスだと考えられていましたが、……
  • [を] 形態素解析と検索APIとTF-IDFでキーワード抽出

    形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基中の基ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード

    tsupo
    tsupo 2005/10/12
    キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します
  • 1