feezch.infoで使われている一部の技術を解説しようと思います。Railsやnginxの設定の話は、僕が書くことでもないので、一般的なウェブサービスではあまり使われてなさそうな2ちゃんねるに関連した技術やあやしめ技術をいくつか選んでみました。主に画像関連で... 続きを読む
http://www.mext.go.jp/a_menu/saigaijohou/syousai/1303723.htmこのあたりからデータを取得できるわけだが、なぜか PDF なので、うんざりする。こんなもんどうみても excel かなにかでつくってるんだから生データを提供しろといいたい。まあ文句をいっていても... 続きを読む
First thoughts on things that might be useful, one day… Blog About Search Prompted in part by a presentation I have to give tomorrow as an OU eLearning community session (I hope some folks turn up – the 90 minute session on Mashing Up the P... 続きを読む
Private Gist All pages are served over SSL and all pushing and pulling is done over SSH. No one may fork, clone, or view it unless they are given this private URL. Every gist with this icon () is private. Public Gist Anyone may fork, clone, o... 続きを読む
jruby + celerity で解決します。Celerity | Easy and fast functional test automation for web applications 論よりコード某銀行のインターネットバンキングにログイン→リアルタイム為替レートを得る*1 $KCODE = 'u' require 'rubygems' require 'celerity' ... 続きを読む
Private Gist All pages are served over SSL and all pushing and pulling is done over SSH. No one may fork, clone, or view it unless they are given this private URL. Every gist with this icon () is private. Public Gist Anyone may fork, clone, o... 続きを読む
11:18 | なんか技術的におかしなことを言っている人がいたら追記していくかも知れません。 クロール頻度が妥当かどうかの話ウェブサーバーはマルチスレッド、マルチプロセスなどで複数のリクエストを同時に処理できるようになっているのが一般的であるため「前... 続きを読む
00:02 | こんにちは、趣味や業務で大手ポータルサイトのサービスで稼働しているいくつかのクローラの開発とメンテナンスを行っているmalaです。さて先日、岡崎市立中央図書館Webサイトをクロールしていた人が逮捕、勾留、実名報道されるという事件がありました... 続きを読む
岡崎市立中央図書館Webサイトから新着図書データを自動で取得するプログラムを実行し、同サイトの一部機能を利用できない状態にしたため、逮捕された容疑者が事件について解説。岡崎図書館事件まとめ 岡崎市立中央図書館Webサイトから新着図書データを自動で取... 続きを読む
CookingPadをダウンロードしてくださった皆様、ありがとうございます。昨日の段階でダウンロード数が2万を超え、現在無料アプリランキングの2位に入っています。あらためてクックパッドの人気に驚いています。しかし、ここで水を差すようなことを言って申し訳な... 続きを読む
Paul Dix, of Feedzirra fame, strikes again! This time with Typhoeus (Github repo), a high-speed, parallel HTTP request library for Ruby. At first glance, you could be forgiven for wondering what the point is when we already have John Nunemake... 続きを読む
● [エッグ][Merb][DB] CouchDBを用いた2009新人公演4月におけるあっすーの干され問題の検証 4/4〜5 に開催された「2009新人公演4月」は、セットリストの充実ぶりと、それに負けないメンバーの熱演によって成功を納めた。もちろん全ての観客が本公演に満足した... 続きを読む
スクレイピングして何すんだと言われましても、スクレイピングがしたくてしょうがないmattnです。 今日、WWW::Mechanize::Plugin::Web::Scraperというcpanモジュールを(otsuneさんのブクマ経由で)見つけました。モジュール名の通り、WWW::MechanizeからWeb::Scr... 続きを読む
Twitter が SPAM アカウント削除施策とかをやりまくってるせいなのか、あまりに「バキニゲ」を連呼したりして remove されたせいなのか、following と followers の数が何もしてなくても結構変動してしまうことがある。 なので、following とか followers の差... 続きを読む
TKらんく 福岡県内ランキング SKY‐HIGH ★写メコンRank★彡 ★学йёт★ 学☆Rank 中学ホムペRANK [地域別]福岡らんく ふくおか@らんく Ι?筑豊(・∀)+゚ ふりーぺランキング 小学生HPらんく EZ学生中心の語り場EZ 巣`ャット倶楽部 姉妹学生写メコン 優... 続きを読む
URLとXPath指定で極悪ぶっこ抜きを行うツールexthtmlのおぼえがき 未来の自分向け http://fuba.moaningnerds.org/src/exthtml.pl いろいろ依存してるモジュールがあるけど、ぜんぶCPANにあるので適当にとってきてください。 基本的な使い方としては-xでxpath, ... 続きを読む
http://fuba.moaningnerds.org/src/exthtml.pl値がとれるだけでは退屈、ページ辿りたいし、その先も辿りたいので機能追加。ずいぶんたくましくなりました。あとはキャッシュができればいいですねー。追加したオプションn次のページ(別に次じゃなくてもいいけど... 続きを読む
perlドキュメントねー,と思ったら use Web::Scraper; - 今日のCPANモジュール みたいな素敵なチュートリアルがあったのでいまさらながら使えるようになりました。サンプル群も参考になりました。 はてブのホッテントリから,タイトル,URL,キーワード,タグを... 続きを読む
perlのWeb::Scraperみたいな記述で、ページの中からデータを取り出すwebscraper.jsという小さなjavascriptのライブラリを書きました。 ブックマークレット データを取り出したいページでブックマークレットでwebscraper.jsを読み込んでFirebugコンソールで使い... 続きを読む
AutoPagerizeのSITEINFOに含まれている、次のページへのリンクを示すXPathはAutoPagerize以外の用途でも使うことができます。 CPANにこのSITEINFOをパースすめたるの HTML::AutoPagerize - Utility to load AutoPagerize SITEINFO stuff というモジュールがある... 続きを読む
Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます... 続きを読む
Announcing JscRUBYt! - no more win32 problems (?) Posted by admin Thanks to Paul Nikitochkin a.k.a. pftg, scRUBYt! made a great leap to ensure win32 compatibility. Paul created JscRUBYt! - the JRuby version of scRUBYt! which should be easy to... 続きを読む