コンテンツ抽出のdom-basedモデルとは、domの構造を特徴量として利用するコンテンツ抽出の手法です。今回は、web2textというツールで使われている特徴量を、RandomForestで実行します。 特徴量一覧 上記特徴量のうち、いくつかを利用します。 データの準備 記事urlの一覧から取得したhtmlファイルから、以下を取り出します。 テキスト要素を持つノードのテキスト テキスト要素を持つノードのxpath そのテキスト要素が抽出したいコンテンツか否か 以下がcsvの例です。(ただし、このcsvは以前の記事のPascal VOCデータから生成しているため、抽出したくないコンテンツも若干含まれています。) #text,label,xpath "We use cookies to ensure that we give you the best experience on our we

