[B! ruby] ooyabuhのブックマーク

ooyabuh id:ooyabuh

rubyに関するooyabuhのブックマーク (4)

ネストの深い(多重)ループを抜け出す - Rubyのthrow/catch
Rubyの標準メソッドにthrow/catchはネストの深いループ(多重ループ)を一発で抜けだしたい場合などに使えそうですので、紹介します。
ooyabuh 2014/01/21
“catch(:break_loop) do 3.times do |i| 3.times do |j| puts "i, j = #{i}, #{j}" throw :break_loop if i == 2 and j == 1 end end end puts "loop out"”

ruby
リンク
橋本商会 » HerokuのSinatraにバックグラウンドワーカーを詰め込んで節約
Webアプリと同じプロセスにworker入れてお金が節約できる。 Webアプリは “リクエスト来る→サーバーで処理→レスポンス返す” というのを繰り返すわけだが、サーバーでの処理に時間がかかる場合にそこを別のプロセスに任せて、先にレスポンスを返しておいて、あとで結果は取りに来てよ、という実装をする事がある。時間がかかる処理は2つに大別できる。動画をエンコードするとか。CPU負荷が高くて時間がかかるのでWebサーバーとは別の場所で動かしたい Twitter APIを10回ぐらい使った結果をまとめて返すとか。CPU負荷は低いけどIO待ちが長い 2の方について、HerokuのRuby環境で安く上げる方法をまとめる。手法 HerokuのcedarスタックでRuby使う時はwebサーバーとしてThinが起動する。 ThinはEventMachineの中で動いてるので、EM::defer等が使え
ooyabuh 2014/01/05
heroku

delayed_job

ruby
リンク
Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる！ - 病みつきエンジニアブログ
今まで何度もスクレイピングとかクローリングをしてきたので、マエショリストの端くれとしてコツを公開すべきかなあ、と思い、公開します。今日の題材は、CNET Newsです。私はウェブ文書にタグ付けをするという研究をしているのですが、そのための教師データとしてクローリングをします。 photo by Sean MacEntee 要件定義 CNET Newsから全ニュースを保存し、その本文をデータベースに保存します。これは、次のようなフローに書き下すことができます。全URLを取得し、データベースに保存データベースにある全URLをダウンロードする保存した全ページを解析して、本文をデータベースに保存するという流れです。これらは独立していますから、それぞれどの言語で解析しても構いません。しかし後述しますが、「あとから追いやすくする」「適材適所」といったあたりを気をつけて、言語選択をするべきだと
ooyabuh 2014/01/02
スクレイピング

ruby
リンク
RubyのNokogiriを使ってサイトをスクレイピングする - Think Big Act Local
Rubyのライブラリ「Nokogiri」を使ってみました。 Nokogiriとは HTMLやXMLをパースするためのRubyライブラリ XPathやCSSセレクタを使ったパースが可能公式：http://nokogiri.org/ 試した環境 ruby 1.9.3 簡単なサンプル Qiitaにあがっていたものを拝借 - Nokogiriで文字化けを防ぐ - Qiita sample.rb # -- coding: utf-8 require "open-uri" require "rubygems" require "nokogiri" # スクレイピングするURL url = "https://www.walmart.com.br/" charset = nil html = open(url) do |f| charset = f.charset f.read end doc = No
ooyabuh 2013/12/30
ruby

Nokogiri

スクレイピング
リンク
1