[B! Chrome][スクレイピング] kyo_agoのブックマーク

kyo_ago id:kyo_ago

Chromeとスクレイピングに関するkyo_agoのブックマーク (2)

PuppeteerでWebページからメインコンテンツっぽいところを抽出してみる - Qiita
最近、Webページからざっくりメインコンテンツっぽいものを探し出すプログラムを作成しましたので得られた知見についてまとめてみます。本文などの情報を利用せずに汎用的にメインコンテンツを探したかったので、Elementの位置、幅、高さ(以下rect)等の視覚的な情報を使用して抽出してみました。具体的には puppeteerでページをスクレイピングして各Elementの情報をまとめたツリー構造を作る Elementにスコアを付けて尤もらしいものをメインコンテンツとするというステップで抽出します。メインコンテンツを抽出する完全なコードについてはgistのサンプルを参照してください。ページのスクレイピング puppeteerを使ってページをスクレイピングします。最初にdomツリーを探索して必要な情報をjsonとて抽出します。視覚的な情最新のとして各Elementごとにrectの情報を取得します
kyo_ago 2017/12/09
await

js

development

browser

article

JavaScript

Chrome

スクレイピング
リンク
ヘッドレスブラウザ(Chrome)を使ってSPAをスクレイピングする - Qiita
一般的なスクレイピング手法とその問題点スクレイピングというと、HTTPクライアントライブラリを用いてHTML取得し、HTML/XMLパーサーで解析するというのが一般的だと思います。この手法の場合、以下の場合にうまく処理できません。ターゲットのページがJavaScriptにより動的にDOMを操作する場合 HTML/XMLパーサーが取得したHTMLを正しく解釈できない場合(正しくないHTMLでもブラウザはなんとか処理するが、パーサーライブラリは正確なHTMLでないと処理できないことがある) 特に問題になるのは前者でしょう。最近のWebサイトではJavaScriptでDOMを操作することは珍しくなくなってきています。SPAであればなおさら難しく、もはやこういった手法によるスクレイピングは不可能でしょう。ヘッドレスブラウザによるスクレイピング動的なDOMやパーサーがうまく解釈できないとい
kyo_ago 2017/07/03
api

API

ライブラリ

Chrome

スクレイピング

ブラウザ

chrome

HTTP

HTML
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx