タグ

crawlerに関するdiethのブックマーク (4)

  • あなたの知らない鬱陶しいWebクローラーに立ち向かう方法

    おことわり 技術側の話は少ないです。 記事の内容を真に受けた結果発生した損害などの責任は負いませんのでご了承ください。 まえがき. 記事のターゲット読者について 継続的に治安の悪いWebクローラーから大量にアクセスされていて悩んでいる人 タイトルに釣られて興味位で見に来た人 陶しいWebクローラーの開発者 継続的に 不定期ではなく一定のパターンで定期的にアクセスがあることを指します。 毎日、毎時、毎分、毎秒など。 治安の悪い いわゆるWebクローラー運用の「お作法」から道を外れていることを指します。 robots.txt無視、UA偽装、非常に短い時間でのバーストアクセスなど。 大量に Webクローラーからアクセスされていることを察知出来るほどのある程度まとまったアクセス量があることを指します。 未知のWebクローラーからWeb上の資源を守るのは非常に困難です。 第1部. 振る舞いか

    あなたの知らない鬱陶しいWebクローラーに立ち向かう方法
  • 一介のブロガーが技術書を書くに至った経緯。或いは自分戦略 - プログラマでありたい

    全部俺の15日目くらいです。昨年、今年と1冊づつ技術書をだしています。勉強会に行くと、たまに経緯を聞かれるので共有しておきます。 直接的なキッカケ 直接的なきっかけは、編集者からメールでお誘いがあったことです。Rubyのクローラー関係の記事をブログに幾つか書いていて、それを見た編集者が声を掛けてくれたという経緯です。当時はRubyでクローラーに関する情報も少なく、幾つかのワードで検索すると私の記事が常にトップに出るという状態でした。ということで1冊目のRubyによるクローラー開発技法は、著者である私の持ち込み企画ではなく、編集者の企画で書ける人を探していたというのがスタートです。 発売された当時は仕事やプライベートで勉強会やセミナー等で登壇していたことは何度もあったので、それ経由で声を掛けられたと思われることもありますが、実は全く関係なかったのです。また声を掛けられた当時は、完全に匿名でブ

    一介のブロガーが技術書を書くに至った経緯。或いは自分戦略 - プログラマでありたい
  • おうちカクテルで学ぶWebスクレイピング - Qiita

    クローラー/Webスクレイピング Advent Calendar 2015の16日目の記事です。 ・2015/12/16 追記 コメント欄にてriocamposさんにご指摘いただいた点を元に記事を修正しました。 ありがとうございます。 ・2017/07/06 追記 久々にコードを見たら酷いコードが残されていたのでリファクタリングしました。 GitHubにも置いてありますので、良ければ使ってみてください。 リファクタリングついでに、文章も修正して再アップロードしようと思います。 今回の目的 rubyでWebスクレイピングする際の処理を練習する。 ・特定のページからカクテル情報を収集する カクテル名 カクテルを作るのに必要な材料 作り方 ・持っている材料で作る事が出来るカクテルの列挙 準備 rubybundlerがあれば大体動くと思います。 ・ruby >= 2.1 ・bundler 大抵の

    おうちカクテルで学ぶWebスクレイピング - Qiita
  • クローラー/スクレイピング本がざくざく - プログラマでありたい

    2015年8月末に、クローラー/スクレイピングが2冊同時に発売です。Python版メインのものとJavaScript版メインのものです。なかなか市場のニーズ突いてきていますね。 実践 Webスクレイピング&クローリング-オープンデータ時代の収集・整形テクニック 作者: nezuq,東京スクラッパー(協力)出版社/メーカー: マイナビ発売日: 2015/08/28メディア: 単行(ソフトカバー)この商品を含むブログを見るJS+Node.jsによるWebクローラー/ネットエージェント開発テクニック 作者: クジラ飛行机出版社/メーカー: ソシム発売日: 2015/08/31メディア: 単行この商品を含むブログを見る 実践 Webスクレイピング&クローリング-オープンデータ時代の収集・整形テクニック 実践 Webスクレイピング&クローリング-オープンデータ時代の収集・整形テクニックは、Py

    クローラー/スクレイピング本がざくざく - プログラマでありたい
  • 1