検索条件: criteria input Show Results with: criteria input Show Results with: criteria input Show Results with: Show Results with: In In ログイン してフルアクセスする
Webサイトの調査をしようと思い、サイトクローラーが必要になりました。 各言語ごとに色々あるので何を使うか悩むところですが、Rubyでお手軽にということでAnemoneを採用しました。 ちなみに他の言語だと、下記のうちのどれかが良いのではないでしょうか? Java:Nutch、S2Robot Perl:Gungho 余談ですが日本語で検索する場合、WEBクローラーで検索するかWEBスパイダーで検索するか悩みます。英語だとWeb SpiderかWeb Crawlerです。どちらかといえばWeb Spiderが一般的のようです。日本だとWEBクローラーの方が目的のものに辿り着きやすいような気がします。うーん、悩ましい。 Anemoneのインストール手順 Anemoneは、nokogiriを使います。 nokogiriが入っていれば、すんなりインストールも出来ると思います。 ちなみにnokogi
とある不動産投資物件のデータをクロールするために 作ったクローラ 備忘録として残しておく。 Ruby習いたてで書いたので色々修正するところもありそう。 #! ruby -Ks # ○○○サイトクローラー # # 利用方法:コマンドラインより実施 # ruby site_crawler.rb 引数1 # # 引数1:なし →Typeのすべてを取得 # 引数1:種別名称 →Typeに一致するものだけを取得 # 例) ruby site_crawler.rb 投資用マンション ##投資用マンションのみ取得 # 例) ruby site_crawler.rb ##すべて取得 # # 出力されるCSVは、Shift-JIS タブ区切り 改行コード:CRFL require 'rubygems' require 'mechanize' requ
2ちゃんねるのスレッド(dat落ち含む)タイトルを取得する。 #!/usr/bin/ruby -KU -w require 'net/http' require 'kconv' def getfile(url) content='' begin res = Net::HTTP.get_response(URI.parse(url)) if res.code == '200' content=res.body.toutf8 end rescue end content end def scanhref(url,re) getfile(url).scan(re) end scanhref( 'http://menu.2ch.net/bbstable.html', /<A HREF=(http\S+).*?>(.+?)<\/A>/ ).each do |url, title| scanhref(
This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.
Photo by pnoeric いま、PhotoShareで使うために、高速なEvent Driven方式のネットワークライブラリ、EventMachineを調べています。 このEventMachine、ほとんどの場合はサーバを作るときに使われていますが、HTTPクライアントの機能も実装されており、実はクローラの様な物を作るときにも利用することができます。 今回はこっちを使いたかったのですが、ググってもほとんど情報が出てこなかったので、Seattle.rbで相談したところ、Aaronさん(RubyKaigi 2008でプレゼンしているのをustで見てコンタクトしました)からサンプルが貰えたので、それを元に、同時接続する様にしてみました。 このコードだけだと役には立ちませんが、情報が少なかったので参考に上げておきます。 require 'rubygems' require 'eventma
URI#+が賢いって話を以前書いたんだけど、 さらにこんな振る舞いをすることをさっき知った。 uri = URI.parse('http://fg-180.katamayu.net') (uri + 'http://twitter.com/yazu').to_s #=> "http://twitter.com/yazu" ところで、//a/@hrefをぶっこ抜くと大体 /abc/def.html ghi.html ../jkl.html http://mno.pqr.com という感じで形式がばらけてるんだけど、 今いるページのURIと+するだけでこれがキレイになってしまう。 current_uri = URI.parse('http://example.com/123/') (current_uri + '/abc/def.html').to_s #=> "http://example.
南極1号(なんきょくいちごう)は、日本の第1次南極地域観測隊の越冬隊(1957年)が(公式には記録されていないが[1])昭和基地へ持ち込んだダッチワイフ。日本では「ダッチワイフ」と言えば「南極越冬隊」を連想する者も多いほど[2]、ダッチワイフの象徴的存在である。 形状[編集] 大きさは等身大で[3]、上半身は石膏製のマネキン人形をヘソの辺りで輪切りに断ち切っており、下半身は別のソフトな材質で作られていた[4]。両脚は大腿部から切断されており、これは業者が脚まで作る造作を面倒がったためである[3]。女性器はゴム・プラスチック製になっており[3]、陰毛も付けてある[3]。腰・臀部の内部には4リットルの金属缶が埋め込まれてあり、使用時には適温の湯で満たしてネジで蓋をし、温まったところで膣に滑剤を塗って使用することになる[3]。使用後は缶の湯を抜き[4]、各部の消毒と洗浄もしなければならない[3]
2011年10月22日18:53 【閲覧注意】死ぬ程洒落にならない怖い話を集めてみない?『オリンパスのリストラ方法』 Tweet 335: なまえないよぉ~:2011/10/18(火) 11:06:49.29 ID:Ma0aziuI0 なまえないよぉ~ 怖い話っつーか迷信みたいなものなんだけど... 地中海のなんとかって島では歩いてるとよく誰かに名前を呼ばれるんだって でもそこで、振り向いたり返事したりしたらアウト 名前を呼ばれた人はそのままその誰かにどこかへ連れてかれてしまうんだと でもそいつは一回呼んで無視されるとあきらめるらしい だから、そこの人達は道で人に話しかけるときは二回名前を呼ぶらしい 逆に言うと二回名前を呼ばれない限りは絶対に振り返ってはいけないんだって みなさんも地中海の方に旅行に行くときは気をつけて... 71:本当にあった怖い名無し:2011/10
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く