"poltergeist/PhantomJS"の説明とかは省きます。 ※詳しく知りたい人はググってみてくださいw それぞれをインストールします。 次にPhantomJSをインストールします。 CentOSにPhantomJSをインストールする http://konboi.hatenablog.com/entry/2013/07/05/173957 phantomjsをインストールしてみる http://nigohiroki.hatenablog.com/entry/2012/12/14/004915 2.実装 require 'nokogiri' require 'capybara' require 'capybara/poltergeist' class Hoge def self.scrape_include_js_contents #poltergistの設定 Capybara.re
I recently upgrade to the 10.10 Yosemite beta, but I'm having trouble getting Nokogiri installed. I'm using RVM and Ruby 1.9.3. I've also followed the steps here and tried following the instructions on Nokogiri's homepage. I've installed libxml2 (2.9.1) and libxslt (1.1.28) via homebrew, and have tried using the command line tools from both my Xcode 5 install and Xcode 6 beta. gem install nokogiri
CapybaraとPhantomJS、Nokogiriを利用してのクローラー・スクレイピングの紹介です。 PhantomJSとは? PhantomJSは、ヘッドレスブラウザと呼ばれるWebKitのエミュレータです。ヘッドレスブラウザとは、GUIではなくCUIから利用できるブラウザでプログラムから呼ばれます。UIのテストツールとしてSeleniumのようなサービスがあります。Seleniumはブラウザを直接操作するので、環境依存や動作が重いといった幾つかの問題点があります。そこでよく利用されるのがPhantomJSです。Seleniumに比べて、軽量というメリットがあります。RubyからPhantomJSを扱うライブラリとして、Poltergeistがあります。 Capybaraとは? Capybaraは、WebシステムのUI層のテストをサポートするためのライブラリです。主にDSL機能とDr
ruby のNokgiri をもっと簡単に使いたい。 PHPのSimpeXMLに負けてる気がします。JSON.load にも負けてる気がします。 NokogirのSlopを見つけた doc = Nokogir::Slop("<book><title>日常に潜む数理曲線</title></book>") doc.book.tile.text #=> 日常に潜む数理曲線 これが出来る。 もういちいち、searchで降りて行かなくていいんです。オブジェクトしてアクセ出来るようになってとても便利なんです。 実際にやってみた 次のような。XMLがあるとき users.xml <?xml version="1.0" encoding="utf-8"?> <users> <user> <loginId>takuya@mmmm.jp</loginId> <passwd>************</pass
タイトルの通りです。 ことの発端は、株主優待の改廃をいち早く知るにはどうしたらいいだろうと悩んだ結果、一番早い情報を得るにはどうしてもスクレイピングが必要だったので自分でbotを作ってしまおうと思ったのがきっかけです。 使ったもの ruby 1.9.3p484 Rails 4.0.2 Nokogiri 1.6.1-x86-mingw32 sqale MySQL 5.5.27 Railsアプリケーションの作成 sqaleに申し込んでアプリケーションを作成します。 Getting Startedのマニュアルを元にRailsinstallerを使ってruby、Railsのインストール、公開鍵の登録、アプリケーションの作成を済ませます。今回は kabunews というアプリケーション名にしました。 Nokogiriのインストール Nokogiriはruby製の有名なスクレイピングツールです。 以下
Nokogiriでゴリゴリやってます。やっと使い方分かってきました。 Nokogiriだとデフォルトでも割と文字化けしないなと思ったんですがさすがに色んなサイトを対象にしようとすると化けました。ので何とかします。 他にいい方法があったら是非教えて下さい。 (注意:下に追記があります。binaryで読み込んでkconvのtoutf8、charsetにutf-8を指定でほぼ起きなくなりました。) require 'open-uri' require 'nokogiri' uri = "http://www…" page = URI.parse(uri).read charset = page.charset if charset == "iso-8859-1" charset = page.scan(/charset="?([^\s"]*)/i).first.join end document
Overview Overview API Support Tutorials Changelog About Nokogiri¶ Nokogiri (鋸) makes it easy and painless to work with XML and HTML from Ruby. It provides a sensible, easy-to-understand API for reading, writing, modifying, and querying documents. It is fast and standards-compliant by relying on native parsers like libxml2, libgumbo, and xerces. Guiding Principles¶ Some guiding principles Nokogiri
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く