運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します。個別にライセンスが設定されている記事等はそのライセンスに従います。
10. ExtractContentのアルゴリズム概略 • html をブロックに分割 • ブロックごとにスコアを計算 – 句読点が多い – 非リンクテキストが長い – 本文っぽくないフレーズが含まれている • 連続するブロックを「大ブロック」にまとめる – スコアの高いものをつなげていく – スコアが低いとつながる確率は減衰していく • スコアが最大となる「大ブロック」が本文 • 「ヒューリスティック」と言えば聞こえがいいが – 思いつきのアイデア+感覚による調整 11. ExtractContentのコード(抜粋) module ExtractContent # Default option parameters. @default = { :threshold => 100, :min_length => 80, :decay_factor => 0.73, :continuous_
米スタンフォード大学は、今秋から同大学で行われているコンピュータサイエンスの講義のうち、3つのコースをオンラインで無料公開することを発表しました。 公開されるのは、「Machine Learning」(機械学習)、「Introduction to Databases」(データベース入門)、「Introduction to Artificial Intelligence」(人工知能入門)の3コース。どのコースも今年の10月に開講し12月に終了する3カ月間の予定。コースによっては実際の講義とほぼ同様の宿題も用意され、提出すると自動採点してくれるようです。 機械学習のコースを担当するAndrew Ng准教授は発表の中で次のようにコメントしています。 “Both in the United States and elsewhere, many people simply do not have a
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く