rubyに関するtSU_RooTのブックマーク (4)

  • Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - 病みつきエンジニアブログ

    今まで何度もスクレイピングとかクローリングをしてきたので、マエショリストの端くれとしてコツを公開すべきかなあ、と思い、公開します。 今日の題材は、CNET Newsです。私はウェブ文書にタグ付けをするという研究をしているのですが、そのための教師データとしてクローリングをします。 photo by Sean MacEntee 要件定義 CNET Newsから全ニュースを保存し、その文をデータベースに保存します。これは、次のようなフローに書き下すことができます。 全URLを取得し、データベースに保存 データベースにある全URLをダウンロードする 保存した全ページを解析して、文をデータベースに保存する という流れです。これらは独立していますから、それぞれどの言語で解析しても構いません。しかし後述しますが、「あとから追いやすくする」「適材適所」といったあたりを気をつけて、言語選択をするべきだと

    Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - 病みつきエンジニアブログ
  • コンピューターにダジャレを教える

    駄洒落の歴史は古い。適当な言葉の語源を調べていると江戸時代の駄洒落に行き当たることがあるし、平安時代の短歌にも今で言う駄洒落みたいなのがいっぱい入っている。 人類はいったい何年、駄洒落を作っているのだ。そろそろ駄洒落くらい機械に作らせて、空いた時間で二度寝とかしようぜ。 インターネットユーザー。電子工作でオリジナルの処刑器具を作ったり、辺境の国の変わった音楽を集めたりしています。「技術力の低い人限定ロボコン(通称:ヘボコン)」主催者。1980年岐阜県生まれ。 『雑に作る ―電子工作で好きなものを作る近道集』(共著)がオライリーから出ました! 前の記事:野良バーコードを読む > 個人サイト nomoonwalk 駄洒落といってもいろいろあるが、今回言ってるのはこういうやつである。 ・江戸川乱歩(エドガー・アラン・ポー) ・ハイファイ新書(解体新書) ・水曜どうでしょう(金曜ロードショー)

    コンピューターにダジャレを教える
    tSU_RooT
    tSU_RooT 2013/09/23
    Ruby使っとる
  • library test/unit

    要約 ユニットテストを行うためのライブラリです。 test/unit は minitest/unit を使って再実装されましたが、完全な互 換性がある訳ではありません。1.9 系で test/unit を使いたい場合は、以下の test-unitRubyGems でインストールしてください。(ドキュメントでは、 1.9 系については minitest/unit で再実装された test/unit につい て記述しています) Test::Unit - Ruby用単体テストフレームワーク: http://test-unit.rubyforge.org/index.html.ja 使い方 Test::Unit は以下のように使います。 まずテスト対象のソース(foo.rb)が必要です。 class Foo def foo "foo" end def bar "foo" end end 次

  • assertの基本から - ザリガニが見ていた...。

    前回の日記と順番は前後してしまったが、今まで適当に使っていたassertについても見直してみた。 assertのマニュアルページ Test::Unit - Rubyリファレンスマニュアル Rails Edge API documentation http://caboo.se/doc/classes/Test/Unit/Assertions.html http://caboo.se/doc/classes/ActionController/Assertions.html http://caboo.se/doc/classes/ActionController/Assertions/DomAssertions.html http://caboo.se/doc/classes/ActionController/Assertions/ModelAssertions.html http://cab

    assertの基本から - ザリガニが見ていた...。
  • 1