タグ

ブックマーク / blog.takuros.net (12)

  • Node.jsでスクレイピングするならば - プログラマでありたい

    昔、Rubyでクローラー/Webスクレイピングを書きました。今でもちょくちょくとスクレイピングのコードを書いたりはするのですが、実行基盤についてはサーバの運用管理が面倒くさいのでAWS Lambdaを使うことが多いです。そうなると、Lambdaは基的にはRubyが使えないので、言語はPythonかNode.jsを利用することになります。Pythonもいいけど、今後のことを考えるとNode.js力を高めておきたいと考えています。ということで、Node.js縛りでスクレイピングの仕方です。 スクレイピング対象のページの種類 私の中の勝手な定義ですが、スクレイピングには3種類あります。 1. 静的サイト/JavaScript不要なページに関するスクレイピング 2. 対話型サイト/JavaScript不要なページに関するスクレイピング 3. JavaScript前提のページに関するスクレイピ

    Node.jsでスクレイピングするならば - プログラマでありたい
  • まさに実践入門!!「Amazon Web Services 実践入門」 - プログラマでありたい

    舘岡さん(@iara)さんに、Amazon Web Services 実践入門を頂きました。ありがとうございます!! 早速読んでみましたが、実践入門という名前に違わず入門なのに実践的という内容にまとまっていました。その辺りは、著者陣の経験の深さがにじみ出ています。著者陣は、舘岡さんを筆頭に、今井さん、永淵さん、間瀬さん、三浦さん、柳瀬さんとAWS界隈のスーパースターたちです。それぞれの所属する会社は、日で5社しかないAWSのプレミアパートナー、従来の情報システム部の常識をスーパーのパックの刺身のツマほどの価値しか認めず常に大胆かつ合理的な方法でAWSを利用し周囲を驚かせるハンズラボ、オンラインによる名刺管理という業界を作りリーダーとして君臨するSansanの中の人とAWSを知り尽くした人々によって書かれています。 Amazon Web Services 実践入門が実践的な理由 書で取り

    まさに実践入門!!「Amazon Web Services 実践入門」 - プログラマでありたい
  • クローラー/スクレイピング本がざくざく - プログラマでありたい

    2015年8月末に、クローラー/スクレイピングが2冊同時に発売です。Python版メインのものとJavaScript版メインのものです。なかなか市場のニーズ突いてきていますね。 実践 Webスクレイピング&クローリング-オープンデータ時代の収集・整形テクニック 作者: nezuq,東京スクラッパー(協力)出版社/メーカー: マイナビ発売日: 2015/08/28メディア: 単行(ソフトカバー)この商品を含むブログを見るJS+Node.jsによるWebクローラー/ネットエージェント開発テクニック 作者: クジラ飛行机出版社/メーカー: ソシム発売日: 2015/08/31メディア: 単行この商品を含むブログを見る 実践 Webスクレイピング&クローリング-オープンデータ時代の収集・整形テクニック 実践 Webスクレイピング&クローリング-オープンデータ時代の収集・整形テクニックは、Py

    クローラー/スクレイピング本がざくざく - プログラマでありたい
  • 実行計画が解れば怖くない。SQL実践入門 - プログラマでありたい

    技術評論社さんから、SQL実践入門を献いただきました。ありがとうございます。 SQL実践入門の主題 このの目的は、「パフォーマンスの良いSQLの書き方、特に大量データを処理するSQLの性能向上の方法を理解すること」とあります。そのパフォーマンス向上の為の解として、SQLが内部的にどう処理されているかを表す実行計画の読み解き方を、いろいろなケースを上げながらひたすら解説しています。そして、何故その実行計画になるのか、データ構造やDBの動きとともに説明しています。ということで、実行計画大事という基かつ当たり前のことを、正面から取り扱っている良質のSQLです。 SQL実践入門の構成 SQL実践入門の章立ては、下記の通りです。 第1章:DBMSのアーキテクチャ──この世にただ飯はあるか 第2章:SQLの基礎──母国語を話すがごとく 第3章:SQLにおける条件分岐──文から式へ 第4章:集約

    実行計画が解れば怖くない。SQL実践入門 - プログラマでありたい
  • Excel VBA+IEでのスクレイピング - プログラマでありたい

    書くと宣言しながら、すっぽかしていたクローラー/スクレイピング Advent Calendar 2014の11日目です。ExcelVBAで、IEの操作が出来ます。またその中の機能にDOM操作があります。この二つがあれば、Excelだけでスクレイピングできますよという話です。 何を隠そう、私が初めてスクレイピングに手を染めたのはこのExcel VBAスクレイピングでした。毎月定期的に所定のデータを観測するという仕事があって、面倒くさくて仕方がない私は記録用のExcelを魔改造して勝手に取得するようにしました。1時間くらい掛かってた作業も、ボタンポチになったので随分楽になったと記憶しています。(結局、ボタンを押すのも面倒くさくなって、毎日サーバサイドで動かすようにしましたが) スクレイピングの手始めにピッタリのExcel VBAスクレイピングです。環境の用意が簡単なので、ノンプログラマーでも

    Excel VBA+IEでのスクレイピング - プログラマでありたい
  • プログラミング・レスで5分でサックリWebスクレイピング「kimonolabs」 - プログラマでありたい

    Rubyによるクローラー開発技法」で付録か何かで書こうか悩んだ末に書かなかったのが、kimonolabsの話です。kimonolabsは、クローラー/スクレイピングをオンラインで実行できるWebサービス(SaaS)です。クローラーを書いておいて何ですが、9割の人は自分でクローラーを作らずに、この手のサービスを利用すれば事足りると思います。(書かなかった理由は、Ruby縛りサービスの継続性とスケジュールの問題です。主に最後) kimonolabsとは? kimonolabsは、先述のとおりWebスクレイピングをしてくれるSaaSです。会員登録してChromeの拡張をいれれば、すぐに使えるようになります。一般的に、Webスクレイピングする場合は、次のような手順が必要です。 対象ページのダウンロード ダウンロードしたページから、特定の箇所を抜き出す 抜き出したデータの保存 対象ページのダウン

    プログラミング・レスで5分でサックリWebスクレイピング「kimonolabs」 - プログラマでありたい
  • 『Rubyによるクローラー開発技法』を書きました - プログラマでありたい

    勉強会やスライドで紹介していましたが、Ruby×クローラーという題材で、『Rubyによるクローラー開発技法』というを書かせて頂きました。RubyEmacsの鬼であるるびきちさんとの共著です。 Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例 作者: るびきち,佐々木拓郎出版社/メーカー: SBクリエイティブ発売日: 2014/08/25メディア: 大型この商品を含むブログ (1件) を見る このを書いた理由 そもそものキッカケは、るびきちさんのエントリーにある通り、SBクリエイティブの編集者さんが、クローラーの作成経験のある人を探していて、私の書いた「オープンソースのRubyのWebクローラー"Anemone"を使ってみる」を読んで打診してくださったというのが始まりです。 私自身も、Webからデータを収集して分析するということは、趣味として長年やってきました。一

    『Rubyによるクローラー開発技法』を書きました - プログラマでありたい
  • プラレール・レイアウト・パターン。折り返し編 - プログラマでありたい

    プラレール用の電池の考察の記事を書いたように、最近はもっぱら子供とプラレールで遊んでいます。作っているとついつい、プラレールのレイアウトに凝りだしてしまいます。レイアウトを作る上で、無意識のうちに満たしたいと思っている要件があるようで、考えてみたら次の3点がありました。 自動で、ずっと走りつづける 切り替えポイントを使う 構築した全てのレールを利用する 自動で、ずっと走りつづける 1つ目の「自動で、ずっと走りつづける」という要件は、出発点と終点で終わらないということです。つまりループしているということです。この要件を満たす最低限の構成は、次のレイアウトです。 構成 1/2直線レール 4 曲線レール 8 切り替えポイントを使う 上記の例は、簡単ですね。ただ、この構成だと飽きるのが早いです。そこで2つ目の要件である「切り替えポイントを使う」が出てきます。具体的には、ターンアウトレールや8の

    プラレール・レイアウト・パターン。折り返し編 - プログラマでありたい
  • あらためてRuby製のクローラー、"anemone"を調べてみた - プログラマでありたい

    3年ほど前に、Ruby製のクローラー"anemone"を紹介しました。その当時から完成度が高く、Rubyでクローラーを使う場合はanemoneを利用してきました。最近、他に新しくて良いのがないか調べましたが、機能面の網羅性という意味でanemoneを超えるものは見つけられませんでした。そこで改めてanemoneのソースを読んでみたところ、クローラーが必要とする機能を必要最小限で実装され、やはり中々良い出来です。冬休みの宿題ではないですが、勉強の意味を兼ねてソースを追っていくことにします。 Anemoneが利用しているライブラリ一覧 anemoneが利用しているライブラリは、4種類に分類できます。 Ruby標準or一般的なライブラリ データ取得で利用しているライブラリ データ解析で利用しているライブラリ データ保存で利用しているライブラリ この分類別に構造をみるとわかりやすいので、順番に追っ

    あらためてRuby製のクローラー、"anemone"を調べてみた - プログラマでありたい
  • 今まで読んで良かった本 100冊 - プログラマでありたい

    今まで読んできて良かったなぁというをまとめてみました。せっかくなので100冊をまとめて一挙公開です。趣旨としては名著を紹介する訳ではなく、考え方の上で参考になったを紹介するという方針です。しかしロクに記録していないし記憶も定かではないので、当に良いと思ったものでも抜けているものも多数あると思います。また技術書については、専門外の人には意味が無いので省いています。 一般的にを勧めるうえで、100冊並べるというのは一番効率が悪い方法です。書評ブログとしては、1冊もしくは類似の2〜3冊くらいを紹介するのが一番効率が良いのです。でも、私は意地悪なので、を1冊紹介してくださいと言われると、10冊紹介するようにしています。暇な時に眺めてください。 歴史関係の 私がジャンルとして一番好きなのは、歴史関係のです。時間が許す限り延々と読んでいたいですが、そうも言っていられないのが現実です。面白

    今まで読んで良かった本 100冊 - プログラマでありたい
  • オープンソースのRubyのWebクローラー"Anemone"を使ってみる - プログラマでありたい

    Webサイトの調査をしようと思い、サイトクローラーが必要になりました。 各言語ごとに色々あるので何を使うか悩むところですが、Rubyでお手軽にということでAnemoneを採用しました。 ちなみに他の言語だと、下記のうちのどれかが良いのではないでしょうか? Java:Nutch、S2Robot Perl:Gungho 余談ですが日語で検索する場合、WEBクローラーで検索するかWEBスパイダーで検索するか悩みます。英語だとWeb SpiderかWeb Crawlerです。どちらかといえばWeb Spiderが一般的のようです。日だとWEBクローラーの方が目的のものに辿り着きやすいような気がします。うーん、悩ましい。 Anemoneのインストール手順 Anemoneは、nokogiriを使います。 nokogiriが入っていれば、すんなりインストールも出来ると思います。 ちなみにnokogi

    オープンソースのRubyのWebクローラー"Anemone"を使ってみる - プログラマでありたい
  • ワインの品種。まずは3つだけ覚えておけば大丈夫 - プログラマでありたい

    プログラマ系ブログですが、ワインの記事が好評で生き方に迷っています。さてワインを選ぼうとする時の最初の障壁は、品種だと思います。ワインのリストは大抵の場合、銘柄の他に生産地と品種が書いています。銘柄を知らないとしたら、生産地と品種(と値段)で選ぶしかありません。でも、ワインのブドウの品種は多すぎてとてもじゃないけど覚えられませんよね?そんな人に、最低限覚えておいて欲しい赤ワイン用の3つの品種を紹介します。 覚えておくと良い品種は、3種類だけ ワインのブドウの品種は、基的にはフランスのボルドー&ブルゴーニュの系列とイタリア&スペインの系列がメインです。そして、イタリア&スペインの品種はかなり細分化しているので最初は覚えるのを諦めて、フランス系の品種を覚えましょう。アメリカ・チリ・オーストラリア・ニュージランド・南アフリカで栽培される品種は、フランスとほぼ同じです。そうすると、品種をみるだけ

    ワインの品種。まずは3つだけ覚えておけば大丈夫 - プログラマでありたい
  • 1