タグ

2007年5月2日のブックマーク (13件)

  • tips - クローラーのアクセスを「まとめる」 : 404 Blog Not Found

    2007年05月02日12:30 カテゴリTips tips - クローラーのアクセスを「まとめる」 これ、503返す前にもう一度アクセスログを見た方がいいと思う。 [を] PerlPHPGooglebotを一定の確率ではじく 「Googleのクローラ(Googlebot)のアクセス数が多すぎてサーバに 負荷がかかりすぎる問題」に悩まされています。たとえば、/foo.cgiへのアクセスが多いとする。この場合、単に/foo.cgiではなく、/foo.cgi?query=fooや/foo.cgi?query=barにbotたちは来ていないだろうか。それが結果としてアクセスを増やしていないだろうか。 この場合なら、対処はむしろ503を返すのではなく、CGIのEntry Pointへの301を返すことなのではないか。こんな感じで。 my $q = CGI->new(); # ... if (

    tips - クローラーのアクセスを「まとめる」 : 404 Blog Not Found
  • using API; - Yet Another MECAPI: MECAPIの高速版

    Yet Another MECAPI - MeCab Web Service MeCabのWebService, MECAPI を182倍高速にしてみました。(2.68qps → 488qps) 開発元のブログ:きまぐれ日記: MECAPIを182倍高速にしてみた MeCabの作者自身による高速版。apache moduleではなく自作HTTPServerを作って動かしているところがすごい。 JSONPにも対応。 たつを氏によるPerl実装のMECAPI。 MECAPI - MeCab Web Service (MeCab API) Trackback: http://usingapi.com/archives/143/trackback No Comments » コメントはお気軽にどうぞ Name (required) Mail (will not be published)

  • mimitako.net [13]

  • きまぐれ日記: MECAPIを182倍高速にしてみた

    MeCabのWebService, MECAPI を182倍高速にして<みました。(2.68qps → 488qps) http://api.chasen.org/mecapi/ - Perlによる実装はやめて、完全に C++ で書き直し - CGI ではなくて、C++ による自作 HTTPServer - mecab のプロセスを prefork することで永続化 たつをさんのオリジナルMECAPIの機能はまだ完全に実装しておらず、基的な機能しか提供しておりませんが、随時サポートしていきたいと思います。 補足: 実際はネットワークのレイテンシーがあるので、外部ホストから計測すると体感としては、10倍程度の 高速化だと思います。 オリジナルMECAPI: Server Software: Apache/2.0.53 Server Hostname: chasen.org Server P

  • Matzにっき(2007-04-24)

    << 2007/04/ 1 1. エープリルフール 2. [Ruby] オブジェクト指向機能を取り除いた Ruby-- が登場!? 2 1. [教会] セミナリー1日目 2. LMLML 3. [Ruby] 最速配信研究会 - なんだかいろいろ申し訳ない気分になった話 4. [Ruby] Headius: ActiveRecord 100%, Performance Doubling, Java Support Improving 3 1. [Ruby] Bitwise Magazine:: What's Right With Ruby? 2. [OSS] オープンソースソフトウエアがビジネスの成長を加速 3. Passion For The Future: なぜ株式投資はもうからないのか 4 1. [Ruby] Rails 1.2と1.1、速いのはどっち? - Railsbenchによる

    joan9
    joan9 2007/05/02
    > なんともヘンな言語Enchiladaの紹介。
  • perl - Re: HOOO がひどすぎる件 : 404 Blog Not Found

    2007年05月02日15:45 カテゴリLightweight LanguagesCulture perl - Re: HOOO がひどすぎる件 p5pを読んでいない人も少なくないと思うので、中継。 にぽたん無料案内所 - HOOO がひどすぎる件 perl をリリースしやがった。 バージョンは 0.0017 で。 上記の件に関しては、以下の措置がとられました。 From: andreas.koenig.7os6VVqR at franz.ak.mind.de Subject: Re: Files of HOOO scheduled for deletion Date: May 02, 2007 15:28:31 JST To: hooo at cpan.org Cc: perl5-porters at perl.org Message-Id: <878xc7wxgw.fsf at k7

    perl - Re: HOOO がひどすぎる件 : 404 Blog Not Found
    joan9
    joan9 2007/05/02
  • ライブドアブログ|無料で豊富な機能が充実

    絵日記 グルメ ライフスタイル・暮らし ペット 旅行海外 日記 ニュース スポーツ ビジネス・経済 趣味・創作 音楽 書籍・雑誌 漫画・アニメ ゲーム 受験・学校 ヘルス・ビューティ IT・家電 学問・科学 まとめ

    ライブドアブログ|無料で豊富な機能が充実
    joan9
    joan9 2007/05/02
  • 売春を禁じる理由 - 池田信夫 blog

    Greg Mankiw's Blogより: ワシントンで高級コールガール組織が摘発され、その顧客だったとされる国務省の副長官が辞任した。「D.C.マダム」の顧客名簿には、ブッシュ政権のエコノミストなど多数の著名人が含まれているという。この肩書きから、だれでも一番に連想するのはマンキューだから、これは「私じゃない」という言明だろう。彼によれば、経済学者は通常、女にもてないので色事には縁がないが、売春を合法化すべきだという意見は多い。 麻薬と違って、売春そのものは(性病さえ予防すれば)人体に有害ではないので、禁止する理由はない。かつてそれが女性の人権を侵害したのは、絶対的貧困によって売春を「強制」されたからであって、自由意思で不特定多数とセックスすることを犯罪とすべきではない。むしろこれを非合法化していることが犯罪の温床になり、暴力団の資金源になっているのだ。 このエコノミストがだれか知

    joan9
    joan9 2007/05/02
  • http://headlines.yahoo.co.jp/hl?a=20070501-00000002-maip-bus_all

    joan9
    joan9 2007/05/02
  • http://www.tokyo-np.co.jp/article/national/news/CK2007050102013004.html

    joan9
    joan9 2007/05/02
  • プログラミングの6大10項目リスト

    Jeff Atwood / 青木靖 訳 2007年3月22日 以下に私の選ぶプログラミングの6大10項目リストを挙げておく。取り上げた順序には特に意味はない。このエントリを簡潔なものにしておきたいので、それぞれの項目は短い要約を引用するに留める。興味を引くものがあれば、ぜひリンクをたどってオリジナルの作者の考えについてもっと詳しく読むことをお勧めする。 [ 訳注: 要約だけで意味が取りにくいものに簡単な説明をつけた。] ジェラルド・ワインバーグの「エゴレスプログラミングの十戒」 自分が誤りを犯すということを理解し、受け入れること 。 自分と自分のコードは別物である。 どんなに「空手」を学ぼうと、いつでもあなたよりもっと詳しい人間がいる。 相談せずにコードの書き直 しをしない。 自分より無知な人に対しても尊敬と敬意と忍耐を持って接すること。 世界で唯一変わらないのは変わるということだけ。 唯

    joan9
    joan9 2007/05/02
  • Perl、PHPでGooglebotを一定の確率ではじく

    PerlPHPGooglebotを一定の確率ではじく 2007-05-01-2 [Programming] 「動的生成ページへのGooglebot(Googleのクローラ)のアクセス数 が多すぎてサーバに負荷がかかりすぎる問題」に悩まされています。 robots.txt の Crawl-delay は効かないし[2007-03-21-1]、 Googleウェブマスターツールでクロール率を低く設定しても ある回数よりも下がらないしで困っていました。 アクセス禁止にすれば完全解決なのですが、 それにより検索されなくなるのはファインダビリティが下がって嫌なので、 とりあえずランダムで 503 を返すことで対処しました。 ときどき503が出ることにより、しばらくするとGooglebotが 「サーバが混んでいるんだな」と思ってくれるみたいで、 結果としてクローラのアクセス数が激減、かつ、検索結果

    Perl、PHPでGooglebotを一定の確率ではじく
  • Baidu(百度)のクローラのお行儀がとても良くなった

    Baidu(百度)のクローラのお行儀がとても良くなった 2007-03-30-2 [WebTool] robot.txt で、 User-agent: * Crawl-delay: 10 とだけ設定しているサイトがあるのですが、アクセスログを見ると、 百度(Baidu)のクローラ「Baiduspider+」がこれに従ってきちんと 10秒の間隔をあけてアクセスに来ているのが確認できました。 非常にお行儀が良くなっています。素晴らしい。 私が管理しているサイトのいくつかは、歴史的経緯により、 元気が良すぎるBaiduをアク禁にしているんのですが[2006-10-18-1]、 お行儀の良さを確認したので徐々に解除することにします。 ということで、今現在、私のサイトに関して一番お行儀の悪いクローラ の座は Baidu から Googlebot に明け渡されました(ref. [2007-03-21-

    Baidu(百度)のクローラのお行儀がとても良くなった