タグ

rubyに関するtmftakeのブックマーク (8)

  • gems: Webクローラ anemone を使ってみる | DriftwoodJP

    ブログの調査を自動化できないかと思い、anemone を調べてみました。 chriskite/anemone · GitHubAnemone – Ruby Web-Spider Framework公式サイトのサンプルをいろいろといじったり調べたりしたところ、ひとまず下記の2点を解決する必要がありそう。 クロールの対象ページが多くても、動作に支障がないようにしたい。指定した URL 以下にクロールを限定したい。 anemone と MongoDB をインストールするanemone の標準では、メモリーにデータを保存するため、アクセス先のページが多いと支障が出てくるとのこと。 これを回避するためにストレージを利用するようで、定番は MongoDB のようなので、先人に習ってインストールを行います。 仕事帳: Webクローラフレームワーク Anemone の紹介ruby – Getting al

    gems: Webクローラ anemone を使ってみる | DriftwoodJP
  • Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - 病みつきエンジニアブログ

    今まで何度もスクレイピングとかクローリングをしてきたので、マエショリストの端くれとしてコツを公開すべきかなあ、と思い、公開します。 今日の題材は、CNET Newsです。私はウェブ文書にタグ付けをするという研究をしているのですが、そのための教師データとしてクローリングをします。 photo by Sean MacEntee 要件定義 CNET Newsから全ニュースを保存し、その文をデータベースに保存します。これは、次のようなフローに書き下すことができます。 全URLを取得し、データベースに保存 データベースにある全URLをダウンロードする 保存した全ページを解析して、文をデータベースに保存する という流れです。これらは独立していますから、それぞれどの言語で解析しても構いません。しかし後述しますが、「あとから追いやすくする」「適材適所」といったあたりを気をつけて、言語選択をするべきだと

    Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - 病みつきエンジニアブログ
  • プログラマーは"一線"を超えると急激に伸びる - Linux/Ruby 小崎氏(後編)

    プログラマーのスキルはある一定のラインを超えたところで急激に伸びるんです。そのラインは早く超えるには、OSSの開発に参加していろんな人が書いたソースコードをたくさん読むというのは有効な手段の一つだと思います」――こう語るのはLinuxカーネルおよびRubyの現役コミッターである小崎資広氏だ。 小崎氏には前回、LinuxカーネルやRubyの開発に関わった経緯や、コミュニティ活動を円滑にするポイントをうかがった。今回は、これからOSSコミュニティに参加しようと考えている若手エンジニアに向けたアドバイスをお願いしよう。 関連インタビュー 【インタビュー】コミュニケーション力向上に役立ったOSS活動 - Linux/Ruby 小崎資広氏 【インタビュー】言語は思考にも影響を及ぼす、だからRuby開発を選んだ--まつもとゆきひろ氏 【インタビュー】Rubyが大きくなれたのは、私に隙があるからかな

    プログラマーは"一線"を超えると急激に伸びる - Linux/Ruby 小崎氏(後編)
  • Twitterが、Ruby on RailsからJavaVMへ移行する理由

    オライリーが主催するイベント「Open Source Convention 2011」が7月25日から米国ポートランドで開催されました。 その中で、TwitterがなぜRuby on RailsベースのシステムをJavaVMベースへ移行しようとしているのかを解説したセッション「Twitter: From Ruby on Rails to the JVM」が行われ、ビデオが公開されています。 13分程度の短いセッションのポイントをまとめて紹介します。 世界最大のRuby on RailsによるWebサイトをJavaVMへ移行 Twitterのアプリケーションサービスグループ、Raffi Krikorian氏 Twitterは世界中からのツイートをリアルタイムで扱っている。リアルタイム処理が、ツイッターにおけるもっとも難しい処理だ。 Twitterは、おそらく世界最大のRuby on Rail

    Twitterが、Ruby on RailsからJavaVMへ移行する理由
  • Ruby/Rubygems使い方まとめ - 俺の基地

    ネットワークからパッケージを探して一覧で出す hogeってキーワードに引っかかるパッケージ一覧出す gem search --remote hoge 省略形 gem search -r hoge ▲ ▼

  • Matzにっき(2009-09-30) - 名誉市民

    _ 名誉市民 ひさしぶりの更新。 松江市名誉市民なるものに選ばれたそうで、ありがたい限りである。 で、FAQを掲載しておく。 松江市名誉市民FAQ 今回選ばれたのは誰ですか? 私(まつもと)と、人間国宝の和紙職人、安部栄四郎さん、前市長の宮岡寿雄さんです。 残り二人は故人という。阿部さんの場合は、お住まい(八雲村)が平成の合併前は松江市ではなかったからでしょう。 そういえば、安部さんの記念館はつい先日訪問しました。 技術の開発や後進の育成に熱心な方だったんですねえ。 直接は目立たない素材(和紙)に一生をかけるところなど、 素材である言語開発者として共感しました。 名誉市民の特典はなんですか? えー、なんなんでしょう(笑)。少なくとも金銭的な価値はないですね。 あえて言えば、その名の通り「名誉」でしょうか。ありがたいことです。 なにか「証明するもの」はあるかもしれません。 あ、記事に「顕彰状

    tmftake
    tmftake 2009/09/30
    おめでとうございます。
  • Ruby Scraping - Mechanize

    自動google検索。 require 'rubygems' require 'mechanize' agent = WWW::Mechanize.new # インスタンス生成 agent.user_agent_alias = 'Mac Safari' # User-Agentの設定 page = agent.get('http://www.google.com/') # ページ取得 search_form = page.forms.with.name('f').first # "f"という名前のフォームを探す search_form.q = 'Hello' # テキストボックス"q"に"Hello"を入力 search_results = agent.submit(search_form) # フォームのsubmitボタンを押す puts search_results.body # 結果

  • Rubyist Magazine - 0004-RubyOnRails

    『るびま』は、Ruby に関する技術記事はもちろんのこと、Rubyist へのインタビューやエッセイ、その他をお届けするウェブ雑誌です。 Rubyist Magazine について 『Rubyist Magazine』、略して『るびま』は、日 Ruby の会の有志による Rubyist の Rubyist による、Rubyist とそうでない人のためのウェブ雑誌です。 最新号 Rubyist Magazine 0058 号 バックナンバー Rubyist Magazine 0058 号 RubyKaigi 2018 直前特集号 Rubyist Magazine 0057 号 RubyKaigi 2017 直前特集号 Rubyist Magazine 0056 号 Rubyist Magazine 0055 号 Rubyist Magazine 0054 号 東京 Ruby 会議 11 直

  • 1