タグ

2014年1月1日のブックマーク (2件)

  • 2014-01-01

    あけましておめでとうございます。 今年もちきりんブログをよろしくお願いいたします! お正月なのでお年玉の話。 子供にとってお年玉ってのは、もらってすぐに使えば毎月のお小遣いでは決して買えないモノが手に入る “使い甲斐の非常に大きな額” です。 ところが親の勧めに沿って “とりあえず貯金” してしまうと、大人になった後、「お年玉で何を買ったか」全く記憶に残りません。 この理由は、お金の価値の上昇スピードと、人の稼ぐ能力の上昇スピードの違いにあります。 小学校の時に 5000円もらったとしましょう。 小学生にとって 5000円は、自力ではとても手に入れられない大きな額です。 欲しくて欲しくてたまらなかった(でも親には買ってもらえなかった)何かを買っておけば、「やったー!!! うれしい!!!」という強い記憶が残るでしょう。 ところが数年が過ぎて高校生になると、貯金していた 5000円は最早そこ

    2014-01-01
  • Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - 病みつきエンジニアブログ

    今まで何度もスクレイピングとかクローリングをしてきたので、マエショリストの端くれとしてコツを公開すべきかなあ、と思い、公開します。 今日の題材は、CNET Newsです。私はウェブ文書にタグ付けをするという研究をしているのですが、そのための教師データとしてクローリングをします。 photo by Sean MacEntee 要件定義 CNET Newsから全ニュースを保存し、その文をデータベースに保存します。これは、次のようなフローに書き下すことができます。 全URLを取得し、データベースに保存 データベースにある全URLをダウンロードする 保存した全ページを解析して、文をデータベースに保存する という流れです。これらは独立していますから、それぞれどの言語で解析しても構いません。しかし後述しますが、「あとから追いやすくする」「適材適所」といったあたりを気をつけて、言語選択をするべきだと

    Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - 病みつきエンジニアブログ