タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

crfに関するgotinのブックマーク (3)

  • CRF を使った Web 本文抽出

    CRF(Conditional Random Fields)を使って html から文を抽出する実装プロトタイプの紹介です。 http://www.slideshare.net/shuyo/web-using-crf の改訂版です。Read less

    CRF を使った Web 本文抽出
    gotin
    gotin 2011/11/25
  • Web本文抽出 using crf

    10. ExtractContentのアルゴリズム概略 • html をブロックに分割 • ブロックごとにスコアを計算 – 句読点が多い – 非リンクテキストが長い – 文っぽくないフレーズが含まれている • 連続するブロックを「大ブロック」にまとめる – スコアの高いものをつなげていく – スコアが低いとつながる確率は減衰していく • スコアが最大となる「大ブロック」が文 • 「ヒューリスティック」と言えば聞こえがいいが – 思いつきのアイデア+感覚による調整 11. ExtractContentのコード(抜粋) module ExtractContent # Default option parameters. @default = { :threshold => 100, :min_length => 80, :decay_factor => 0.73, :continuous_

    Web本文抽出 using crf
    gotin
    gotin 2011/11/25
  • WebDB Forum 2011 で「 CRF を使った Web 本文抽出」を発表してきました - 木曜不足

    昨年に引き続き、今年も WebDB Forum 2011 のサイボウズの企業セッションでの発表の機会をいただきましたので、「 CRF を使った Web 文抽出」について話をさせていただきました。 CRF を使った Web 文抽出 for WebDB Forum 2011 View more presentations from Shuyo Nakatani この発表は、過去に2回(自然言語処理勉強会@東京(TokyoNLP) 第1回、確率の科学研究会 第1回)で話をさせてもらったことと、WebDB Forum という場であること、さらに発表時間が 20分*1ということを考えて、今回は非常にスリムな内容になっています。 CRF についてはズバッとはしょって、その代わりに系列ラベリングを文抽出に使うというのはどういうことか、という図を入れましたので、さらっと読むには一番わかりやすいのでは

    WebDB Forum 2011 で「 CRF を使った Web 本文抽出」を発表してきました - 木曜不足
    gotin
    gotin 2011/11/07
  • 1