Rubyでスクレイピングをしてみよう! Scrapingでできること ・店舗一覧、商品一覧を抽出する ・ニュースサイトからヘッドライン一覧を抽出する ・ページのURLを全て抽出する などなど今まで煩わしかったことが解消できます! Rubyの開発環境 すでにRubyをインストール済みであればこの章を飛ばしてもらって大丈夫です。 1.rbenvのインストール 1.gitが入っているか確認しましょう。入っていなければインストール。 http://git-scm.com/download/mac sudo yum -y install git 2.rbenvをgithubからclone,インストールしましょう git clone https://github.com/sstephenson/rbenv.git ~/.rbenv 3.環境変数を作成しrbenvの環境を整えましょう。 # PATH に
はじめに こんにちは.私はWebスクレイピングが大好きなのですが、Rubyでもっと簡単にスクレイピングができればと思い、ライブラリを書いてみました. ようやくREADMEとUSAGEが書けたので公開しようと思います. ソースはGithubで公開しています. 特にドキュメントの英語が大変怪しいので、つっこみいただけると喜びます. tac0x2a/yasuri gemでも公開しているので、以下のコマンドで簡単にお試しできます. 簡単なサンプルと解説を書いてみました. Yasuriでお手軽スクレイピング よろしければ使ってみてください>< Yasuri とは Yasuri (鑢) は簡単にWebスクレイピングを行うための、"Mechanize" をサポートするライブラリです. Yasuriは、スクレイピングにおける、よくある処理を簡単に記述することができます. 例えば、 ページ内の複数のリンクを
Mechanizeはスクレイピングを補助するRubyライブラリだ。 MechanizeはCookieのやり取りをはじめ、Webサイトとのインタラクションを自動化してくれる。 Net::HTTPやopen-uriでは面倒なWebサイトへのアクセスを、Mechanizeを使えば簡単にRubyで記述することができる。 以下では拙作のhttp://bestgems.org/を対象として、Mechanize 2.7.0の基本的な使い方を説明する。 初期化とWebページの取得MechanizeでWebページを取得するのは簡単だ。 Mechanizeクラスをnew()し、get()を呼びだせばWebページを取得できる。 WebページはMechanize::Pageオブジェクトになっている。 require 'mechanize' agent = Mechanize.new page = agent.ge
何度かBeautifulSoupについては書いているのですが、未だに使い方が覚えられずにイライラします。仕方が無いのでまとめて置く事にしました。BeautifulSoupはHTMLから情報を取得するだけ無く、HTMLの編集もできますが、ここではスクレイピング用途のみに絞っています。 使用するのは以下のHTMLです。 このHTMLを使って色々と情報を取得したのが以下です。覚えるべきはfindAllだけです。注意する必要があるのは、textを指定した場合にタグオブジェクトが取れずに、テキストオブジェクトが取れるので、一旦parentで親のタグ取りましょうという事と、正規表現で条件指定する場合は、re.compileで正規表現オブジェクトを渡すという事位ですか。 #!/usr/bin/python # -*- coding: utf-8 -*- import re import urllib f
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く