タグ

researchに関するtotonのブックマーク (3)

  • CNET Japan Blog - 先端研ブログ:画像処理的アプローチによるWeb情報処理

    Icon, Others そしてこれらをベースに自動的に画像要素を分類しました。 分類エンジンは SVMLight + RBF Kernel を使用。 SVM (サポートベクターマシン) は機械学習の手法の一つです。 あらかじめ与えられた正解例・誤り例から、何が正誤の判断の決め手になる要素なのかを自動的に学習し、その学習結果を用いて新たな事例に対して正誤の判断を与えます。 学習に使う特徴量(正誤判断の決め手となる要素の候補)として、ピクセル数・色数・DCT等の画像に基づくものと、周辺文字列・リンク有無等のテキストに基づくものを使用しています。 画像に基づく特徴量の一つとして、その画像に文字が含まれるか否かが重要です。 文字があれば見出しとして使われている画像の確率が高くなるわけですし。 ただし、OCRを用いても文字を認識するのは難しいので、「文字認識」ではなく画像パターンを用

    toton
    toton 2008/12/15
    nlpだけでなく画像情報もwebページの分析に
  • OLL: オンライン機械学習ライブラリをリリースしました。 - DO++

    様々なオンライン学習手法をサポートしたライブラリ「OLL (Online-Learning Library)」をリリースしました。 プロジェクトページ 日語詳細ページ 学習、推定を行なう単体プログラムと、C++ライブラリからなります。(C++ライブラリ解説はまだ)。 New BSDライセンス上で自由に使えます。使った場合は感想や苦情などいただけると幸いです。 オンライン学習とは、一つずつ訓練データを見てパラメータを更新していく手法で、訓練データをまとめて見てから学習するバッチ学習(SVMs, 最大エントロピー法)と比べて非常に効率良く学習を行なうことができます。それでいながらSVMs, やMEsに匹敵する精度が出ます。 学習するデータの性質にもよりますが、例えば、英語の文書分類タスクで、15000訓練例、130万種類の素性の訓練データに対する学習が1秒未満で終わります(SVMsだと実装に

    OLL: オンライン機械学習ライブラリをリリースしました。 - DO++
  • | ^^ |Byozine:秒刊ネットマガジン:: 表で見る大手サイトアクセス数比べ!アクセス多すぎってレベルじゃねえぞ

    2007年01月22日 表で見る大手サイトアクセス数比べ!アクセス多すぎってレベルじゃねえぞ アクセス数というのは、今やテレビの視聴率と同じぐらい 価値があるもので、多ければ多いほどそれだけ広告料金も 跳ね上げることができる。逆に下がると管理者は焦るわけだ。 ということで、何処が一番多いのか調べてみた。 ■使用するツール ■AlexaTraffic Viewer AlexaTraffic Viewerというのを使います。(ページ一番下) 使い方は簡単! 調べたいドメインを入れるだけ。(ドメインもちの人のみ利用できる) さぁ早速アクセスが多いサイトを調べていきましょう。 ■起点となる秒刊のアクセス とりあえず起点となるのはうちのサイトとしておきます。 だいたい(40~60万PV) 2006年に急激に増えたのはVIPSRAR関連であると 考えてます。 ちなみにこのツールは全世界

  • 1