タグ

ブックマーク / bsks.sakura.ne.jp (2)

  • Webスクレイプ時におけるXPath取得方について - うせーのブログ運営ひとりごと

    勉強がてらamazonのベストセラーを引っ張ってきて、ジャンルごとに 商品のランキング 商品説明 商品レビュー(参考になった上位3人) を並べてHTML形式に成形する、ということをやってみた。 「引っ張ってきて」の部分はperlのWeb::Scraperモジュールを利用するのだが、スクレイピングするためには「ページのどの部分を拾ってくるか」を定義してやる必要がある。 use Web::Scraper; 今日のCPANモジュール 今回は、XPathを指定してスクレイピングすることにした。XPathの指定は上記リンクの通り、Firebugを利用してみた。 さて、このFirebugでのXPath抽出だが、amazonで試すと相当「ウソ」が返ってくることがわかった。 上記の要素を拾ってきたいとする。Firebugが返す値は /html/body/div[4]/table/tr/td[2]/div/

  • さくらインターネットのcron設定 - うせーのブログ運営ひとりごと

    さくらインターネットでのcron設定は基的にコントロールパネル(Webベースの管理ページ)から実施する…が、コントロールパネルからは最大5つしか登録できません。 ブログの自動更新のために複数のスクリプトを定期的に動作させるためには、5つではどうしても足りないので、コマンドラインで接続(できるのはスタンダードプラン以上)をして、cronを登録する必要があります。 # crontab -e 基的なことだが、これによって、5つ以上のスクリプトを仕掛けておくことができます。 【登録したスクリプトが動かない場合】 perlスクリプト等で、内部で(自分でインストールした)モジュールを使っている場合などは、cronにスクリプトを登録しただけでは動きません。 なぜなら、自分でインストールしたモジュールへはパスが通っていないから。であればcronの先頭でパスを通してしまいましょう。ついでにシェルやもろも

  • 1