タグ

Webとscrapingに関するHeavyFeatherのブックマーク (2)

  • feezch.infoで使われているあやしい技術を解説します - デー

    feezch.infoで使われている一部の技術を解説しようと思います。 Railsnginxの設定の話は、僕が書くことでもないので、一般的なウェブサービスではあまり使われてなさそうな2ちゃんねるに関連した技術やあやしめ技術をいくつか選んでみました。 主に画像関連です。 クローラー周りも、とてもよく考えられたすばらしい仕組みを持っているのですが、特にあやしくなく当にすごいので、ここでは省略します。 以下がもくじです。(リンクはつけ方が分からなかったので、ついてないです) 画像URLのルール集『ImageViewURLReplace.dat』を使って投稿内容から画像URLを抽出しダウンロードする グロ画像ブラックリスト『NGFiles.txt』でグロ画像をブロックする ウェブブラウザがリファラを送らないように画像にリンクする グーグルの新機能『Search by Image』を使ってサムネ

    feezch.infoで使われているあやしい技術を解説します - デー
  • サーバサイドJavaScriptとjQueryでスクレイピング

    jQuery でスクレイピングできたらセレクタ使えるし便利かなーと思ったりしたんですが、Rhino と env-js を使うと超簡単にできたのでレポートしてみます。 Rhino と env-js って何ぞい? Rhino ってのは Java で書かれた JavaScript エンジンです。Rhino を使うとコマンドラインから JavaScript を実行できます。 Rhino には DOM が無いので単体では jQuery を実行することはできませんが、env-js という DOM ライブラリを使用するとこの辺はクリアできます。 env-js の中に jQuery を使ったサンプルがいくつか入ってますので、Java とか JavaScript とか詳しい方はそちらを見てもらった方が早いと思います。 使ってみる まず env-js をビルドしないといけないのでその辺の手順から説明します。

    サーバサイドJavaScriptとjQueryでスクレイピング
  • 1