タグ

ブックマーク / qiita.com/shogookamoto (1)

  • Javaですべての上場企業のと地方自治体のサイトをスクレイピングして大変だったこと - Qiita

    私は主にJavaを使って大量のサイトからクロールとスクレイピングをしています。 作っているサイトは happyou.info です。上場企業と官公庁と地方自治体とその他1万サイトくらいスクレイピングしています。 このエントリでは、技術的なこと特にめんどうくさかった点を書き残しておきたいと思います。基的なことかもしれませんが、私自身忘れそうなところもあるので。 1.上場企業は企業が入れ替わる 上場企業は毎日企業が入れ替わります。新規上場、上場廃止、合併、分社化、企業名変更は毎日のことです。この変化にキャッチアップするのが難しかったです。 日取引所グループ 「よし上場前からきっちりスクレイピングして事前に準備しておくぞ」と思っても、上場にあわせてサイトをリニューアルしたりする企業も多いので油断なりません。 官公庁のサイトは、民間企業に比べるとはるかに移転が少なく落ち着いています。 地方公共

    Javaですべての上場企業のと地方自治体のサイトをスクレイピングして大変だったこと - Qiita
    sky-y
    sky-y 2016/03/29
    すごく参考になる。スクレイピングの具体的な事例集であり、企業や自治体がオープンデータを提供する必要性と重要性を示している。
  • 1