タグ

webとscrapingに関するsbg3のブックマーク (3)

  • PythonでさくっとWebスクレイピングする (JavaScript読み込みにも対応しつつ) - Qiita

    はじめに Webページから特定の要素を抽出してごにょごにょしたいときってよくありますよね。 (あるECサイトのある商品の在庫や価格を5分毎にウォッチしていたいとか、文書分類のために文を正確に抽出したいだとか、などなど...) そういう要素抽出をWebスクレイピングと呼んだりしますが、そんなときにもPythonは便利です。 ところでそういう目的ぴったりの、クローラー/スクレイピング Advent Calendar 2014というのがあって、以下の記事がよくまとまっています。(ちょっと前にその存在に気づいた) http://orangain.hatenablog.com/entry/scraping-in-python まずはやってみよう 前述の記事の最後にある通りPythonスクレイピングするときにはrequestsとlxmlでだいたい事足ります。 ではさっそくテレ朝ニュースの以下のペー

    PythonでさくっとWebスクレイピングする (JavaScript読み込みにも対応しつつ) - Qiita
  • WebKit サーバーというものを作ってみた - IT戦記

    みなさん お久しぶりですヽ(´ー`)ノ夏休みの宿題終わりました? 毎日が夏休みの最終日みたいな生活してるあまちゃんです! さてさて 今日は WebKit サーバーというものを作ってみたので、紹介してみます。 WebKit って何? WebKit っていうのは Chrome や Safari の中に入ってるブラウザのエンジンのことです! 実はブラウザっていうのは、エンジン部分と見た目の部分(タブとかボタンとかね)に別れていて、意外と違うブラウザでもエンジン部分は同じものを使ってるってことも多いんですよ(*´ー`) ブラウザのサーバーってどういうこと? 要は、サーバーサイドでブラウザを起動して JavaScript を実行したり、 JavaScript が実行されないと読めないページから値を持ってくるのに使ったりしようという魂胆です。 今まではそういうのなかったの? 実は、今までは JavaS

    WebKit サーバーというものを作ってみた - IT戦記
  • Webサイトのサムネイル生成に。RubyでGeckoエンジンを操作する·MozShot MOONGIFT

    MozShotはRubyでGeckoエンジンによるWebサイトのサムネイル画像を保存するソフトウェア。 MozShotはRuby製のオープンソース・ソフトウェア。WebサイトのURLを指定してスクリーンショットを撮影するサービスはニーズが多い。やはり単なるタイトルやURLといったテキストの羅列に比べて、サムネイルが表示されることによるインパクトの大きさがある。 MOONGIFT 一般的な手法としては、Webブラウザをリモートで操作してその画面を画像として保存する方法をとる。レンダリングをGeckoエンジンで行うならばMozShotを使うのが良いだろう。 MozShotはLinuxでXサーバを使い、gtkmozembedを使ってWebサイトをレンダリングし、そのキャプチャを画像として保存する。デモのCGIインタフェースも用意されており、Apache + mod_ssiを使って三パターンのスク

  • 1