これからの構成管理は Ansible で! DevOps の要! Infrastructur as Code!
はじめに JavaScriptで動的に生成されるWebページの場合、goqueryに直接URL渡しても正しい値でスクレイピングができない。 そのため、WebDriverを使ってブラウザに表示された実際のHTMLをgoqueryに渡してスクレイピングする必要がある。 環境 Ubuntu 16.04.3 go 1.8.3 インストール ChromeDriver # インストール export WD_VER=2.32 wget -O /tmp/chromedriver.zip http://chromedriver.storage.googleapis.com/${WD_VER}/chromedriver_linux64.zip sudo unzip /tmp/chromedriver.zip chromedriver -d /usr/local/bin/ sudo chmod +x /usr/
スクレイピング等を行う場合、スクリプト言語が大きく威力を発揮します。 例えばブログの様にタイトルと本文の組が反復される様なページをスクレイピングする場合 URLからHTMLを得る HTMLからDOMオブジェクトを得る エントリとなるDOMノードを検索する エントリノードでループする エントリノードからタイトルとなるDOMノードを探索しテキストを得る エントリノードから本文となるDOMノードを探索しテキストを得る この様になるかと思います。こういった処理を一般的なコンパイル型言語を使って実行しようとすると エラーチェック 反復処理 検索処理 といったコードをゴリゴリ書かなければいけなかったりします。もちろんそれ専用のライブラリを使えば出来きますが、コンパイル型言語ではなかなか良い物がないのは事実です。javascriptに到っては jQuery を使えば簡単に出来ますが、コンパイル型言語向け
きっかけ 仕事で「関連するライブラリのバージョン一覧」を定期的に調べる必要があって最初はgithubをちまちま手動でアクセスして確認してたんですが、対象が15個以上あるとこれがもう途中で切れそうになる… そういうときこそ自動化だ!ということで最初はRubyで、そしてJavaScript(+node.js)で、そして調子に乗ってgo言語で書いてみたのがこいつです。 (2015 12/08追記) ↓コメント欄を。mattnさんがAPIを使ってスクレイピングいらずの方法を教えてくださいました! 参考にした記事 HTML解析 goqueryでお手軽スクレイピング! Go言語で jQuery ライクな操作が出来る goquery を試した。 Go routine お気楽 Go 言語プログラミング入門 やったこと まずはWeb Scrapingから goqueryを使うと割と簡単、というか他の既存HT
私は大学時代に、興味本位でJavaScriptを始めて、それ以来ウェブページを幾つか作成してきました。JavaScriptは常にC言語やJavaの合間の楽しい息抜きでしたが、アニメーションや、ユーザをあっと言わせるようなちょっとしたことを提供するといった、特殊な目的にかなり限られた言語だと考えていました。JavaScriptは覚えやすく、開発者に具体的な結果をすぐにもたらしてくれるので、コーディングする方法を学びたいと思っている人に私が教えた最初の言語でした。JavaScriptにHTMLとCSSを少し組み合わせれば、ウェブページが出来上がります。プログラミング初心者には喜ばれます。 その後、あることが2年前に起こりました。当時、私は、主にサーバーサイドのコードとAndroid用のアプリのプロトタイプに取り組む研究職に近い立場にいました。すぐにNode.jsの存在が目に留まりました。バック
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く