タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

algorithmとsearchに関するnilabのブックマーク (2)

  • CNET Japan Blog - 先端研ブログ:画像処理的アプローチによるWeb情報処理

    Icon, Others そしてこれらをベースに自動的に画像要素を分類しました。 分類エンジンは SVMLight + RBF Kernel を使用。 SVM (サポートベクターマシン) は機械学習の手法の一つです。 あらかじめ与えられた正解例・誤り例から、何が正誤の判断の決め手になる要素なのかを自動的に学習し、その学習結果を用いて新たな事例に対して正誤の判断を与えます。 学習に使う特徴量(正誤判断の決め手となる要素の候補)として、ピクセル数・色数・DCT等の画像に基づくものと、周辺文字列・リンク有無等のテキストに基づくものを使用しています。 画像に基づく特徴量の一つとして、その画像に文字が含まれるか否かが重要です。 文字があれば見出しとして使われている画像の確率が高くなるわけですし。 ただし、OCRを用いても文字を認識するのは難しいので、「文字認識」ではなく画像パターンを用

    nilab
    nilab 2006/06/01
    CNET Japan Blog - 先端研ブログ:画像処理的アプローチによるWeb情報処理
  • [を] 形態素解析と検索APIとTF-IDFでキーワード抽出

    形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基中の基ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード

  • 1