2014年12月7日のブックマーク (3件)

  • インターネット上の遺跡や幻想郷について

    少し古い情報だと埋没していたり消滅していたりということがよくある。 例えばもともとのサイトの運営が立ち行かなくなってしまってサービス終了だとかアップローダーが消えたせいで欲しかった情報が手に入らなかったりとか人がいろんな理由で削除したとか(体感的にはこれが最も多い)法に抵触するため削除されてしまったとか有用な情報へたどり着くための手がかりが消えているだとかそういうことが結構ある。 それによって誰もが求めるような情報は一瞬で見つかるけど、それほど多くの人が探さない情報を入手するには多くの時間を費やすことになる。車輪の再発明や諦めるという選択肢が生まれてくる。それはあんまり良くないことなんじゃないかと思う。 最も生き残りやすい情報はテキストである。ただしブログはいつの間にかサービス終了されることがある。昔から生き残っているブログもあるけど。それでも突然死ぬことはよくある。 そうして情報は遺産

    shogo_okamoto
    shogo_okamoto 2014/12/07
    お金にならないものは、あっという間にどんどん消えてゆくインターネット。
  • Ruby+Mechanizeで対話型のスクレイピング - プログラマでありたい

    クローラー/スクレイピング Advent Calendar 2014の6日目です。あと、全部俺Advent Calendarも開催中です。 リクエストがあったので、Mechanizeを使ったスクレイピング方法についてです。Mechanizeは、対話型の処理を得意とするスクレイピングの補助ツールです。対話型とは、例えばIDとパスワードを使ってログインするようなサイトなので、それぞれ項目に入力して次のページに遷移するような行為です。 Mechanizeのサンプルソース 下記は、Amazonアソシエイトサイトから売上を取得するサンプルです。 require 'mechanize' uri=URI.parse('https://affiliate.amazon.co.jp/') agent = Mechanize.new agent.user_agent_alias = 'Mac Safari'

    Ruby+Mechanizeで対話型のスクレイピング - プログラマでありたい
    shogo_okamoto
    shogo_okamoto 2014/12/07
    RubyはJavaに比べるとスクレイピングの環境が充実しているよう
  • 人間とボットを「ワンクリック」で判別できるグーグルの新技術

    shogo_okamoto
    shogo_okamoto 2014/12/07
    そういう不毛なbot差別は止めるべき。