タグ

algorithmとscrapeに関するmanabouのブックマーク (1)

  • Web本文抽出 using crf

    10. ExtractContentのアルゴリズム概略 • html をブロックに分割 • ブロックごとにスコアを計算 – 句読点が多い – 非リンクテキストが長い – 文っぽくないフレーズが含まれている • 連続するブロックを「大ブロック」にまとめる – スコアの高いものをつなげていく – スコアが低いとつながる確率は減衰していく • スコアが最大となる「大ブロック」が文 • 「ヒューリスティック」と言えば聞こえがいいが – 思いつきのアイデア+感覚による調整 11. ExtractContentのコード(抜粋) module ExtractContent # Default option parameters. @default = { :threshold => 100, :min_length => 80, :decay_factor => 0.73, :continuous_

    Web本文抽出 using crf
  • 1