rawwellのブックマーク - はてなブックマーク

サイボウズ・ラボ : ：人材募集

rawwell 2010/06/07

リンク

Kazuho@Cybozu Labs: Q4M Version 0.4 で高速なクローラを書いてみた

« Parallel::Prefork - Perl でマルチプロセスなサーバを書く方法 | メイン | Japanize for IE バージョンアップのおしらせ » 2008年04月07日 Q4M Version 0.4 で高速なクローラを書いてみた本日、MySQL 5.1 のプラガブルストレージエンジンとして動作するメッセージキューQ4M のバージョン 0.4 をリリースしました。本バージョンでは、条件付購読 (conditional subscription) という、特定の条件を満たす行だけをメッセージキューから読み込む機能に対応したのですが、これを使って、クローラを書いてみました。使い方は以下のとおりです。 # url テーブルを作成 % mysql -p test mysql> CREATE TABLE url ( id int(10) unsigned NOT NULL

rawwell 2009/05/31

"また、Q4M を使ったこのクローラは、かなり高速でもあります。Perl ベースのイベントドリブン型クローラのフレームワークであるGungho と比較した場合、手元の環境におけるパフォーマンスの差は以下のようになりました。"

リンク

Kazuho@Cybozu Labs: Q4M - MySQL 上で動作するメッセージキュー

« ウェブアプリケーションにおけるHDDの正しい使い方 | メイン | Pathtraq リニューアルのおしらせ (リアルタイム検索機能の追加ほか) » 2008年01月15日 Q4M - MySQL 上で動作するメッセージキュー数年来ずっと「RDBMSに統合されたメッセージキューがほしい」と言ってきたわけですが、昨年末にストレージエンジンをプラグインとして開発できる MySQL 5.1 が RC になっていることに気づき、自分で作ってみました。 Q4M (Queue for MySQL) は MySQL 5.1 のプラガブル・ストレージ・エンジンとして動作するメッセージキューであり、堅牢・高速・柔軟であるよう設計されています。昨年12月遅くに開発が開始され、まだ非常に原始的ですが、かなり高速に動作します。 q4m.31tools.com 自分の英語を日本語訳するというのも変なものですが

rawwell 2009/05/31

"Q4M は MySQL のストレージエンジンとして動作するので、MySQL に接続できるあらゆるプログラミング言語から利用することができます。また、Perl むけには、既に dmaki さんによって Perl 用のラッパーモジュール (Queue::Q4M) が開

リンク

Kazuho@Cybozu Labs: メッセージキュー事始め with Q4M

« YAPC::Asia 2008 で Pathtraq について話してきました | メイン | MySQL のクエリ最適化における、もうひとつの検証方法 » 2008年05月27日メッセージキュー事始め with Q4M 今日、奥が開発し Pathtraq でも使っているメッセージキュー Q4M について説明する機会があったので、自分の頭を整理しながらスライドに起こしてみました。メッセージキューとはそもそも何か、という所から始まって、Q4M の内部構造と使用方法、さらには、ウェブサービス等でキューを使うべきいくつかのシナリオについても書いてありますので、よろしければご覧ください。

rawwell 2009/05/30

"Q4M については、パフォーマンスチューニングの結果、オンメモリなら１秒間に万単位のメッセージを転送できるようになってきています。"

リンク

Kazuho at Work: Q4M Presentation Slides at MySQL Conference

Today at MySQL Conference & Expro 2009, I did a presentation introducing / explaining Q4M. Thank you to people who came to listen. The presentation slides I used can be found on slideshare (slideshare). Tomorrow (Apr 23) from 6:10pm, I will be doing another presentation at Percona Performance Conference, held at the same location, to describe the techniques (mainly MySQL UDFs) used to squeeze maxi

rawwell 2009/05/30

"Today at MySQL Conference & Expro 2009, I did a presentation introducing / explaining Q4M."

mysql

リンク

Kazuho@Cybozu Labs: 高速なCometサーバを書いてみた件

« Pathtraq 最新ランキングガジェットを公開しました | メイン | Q4M (Queue for MySQL) 0.3 リリース » 2008年03月10日高速なCometサーバを書いてみた件もう昨年の２月になりますが、Comet について調査を行いました。その際の成果をまとめたスライドは既に公開していた (Comet の正しい使い方) のですが、同時に実際に作ってみた実装についても、オープンソース化することとなりました。コードは CodeRepos に置いておきますので、どうぞご覧ください。 (Revision 7754: /lang/perl/fastr) 使い方は example ディレクトリ以下を見ていただくとして、ベンチマークの結果とチューニング手法について、記録と記憶に残っている範囲からまとめておきたいと思います。パフォーマンスについてまず、パフォーマンスに

rawwell 2009/05/30

"もう昨年の２月になりますが、Comet について調査を行いました。その際の成果をまとめたスライドは既に公開していた (Comet の正しい使い方) のですが、同時に実際に作ってみた実装についても、オープンソース化すること

リンク

IIR の階層的クラスタリングを試す (nakatani @ cybozu labs)

Pathtraq で Web ページの自動分類を手がけてみて。 Web ページは日々どんどん変わっていくのでフィルタは常に更新されなければいけないんですが、そのためには適切なタイミングに、適切な学習データを用意しなければならない。大変。メンテナンスフリーが理想ですが、もちろん難しい。現実的なところとしては「追加学習が必要なことを検知して、適切な学習データの候補を提案してくれる」というものが作りたいなあ……などなど考えているわけです。そこらへんも含めて、自然言語処理とか機械学習とかそこら辺のお勉強をしてるんですが、実際に手を動かさないとわかんないですよねー。というわけで、 "Introduction to Information Retrieval" の Chapter 17 "Hierarchical clustering" に沿って、ドキュメントの分類器を作ってみました。ポイン

rawwell 2009/04/19

リンク

Kazuho@Cybozu Labs: ウェブサービスにおける SSD 導入にむけて〜検索サービスの可能性

« Filter::SQL でデータベースを叩くワンライナーを簡単に書く方法 | メイン | ウェブサービスにおけるダメージコントロール (MySQL のスロークエリを自動的に kill する方法) » 2008年10月28日ウェブサービスにおける SSD 導入にむけて〜検索サービスの可能性実際に試してみた結果については、ウェブサービスの SSD 化について話してきましたをご参照ください。検索エンジンや小さな行が多いデータベース等で使用する目的での SSD (Intel X25-M) のベンチマーク結果については、Kazuho at Work: Benchmarking SSD for MySQL をご覧ください (InnoDB の話をしていますが、Senna / Tritonn でも基本的に同じ) Sun が SSD 製品の投入を表明 (マイコミジャーナル) したり、Google

rawwell 2008/10/30

どういうところで SSD を使うべきなのでしょう。今回は、Tritonn (MySQL+Senna) のストレージとしての SSD の使用を検討することにしました。全文検索アルゴリズムは一般にランダムリードが頻発するため、索引をメモリにキャッ

あとで書く

リンク

西尾泰和のブログ @ Cybozu Labs: Python2.4以降での高速なソート

どうも、ご無沙汰です。このブログをはじめた当初は「1日1エントリー公開しよう」などともくろんでいたのですが、はやくも2週間以上間が空いてしまいました。今回の話はCPythonにバージョン2.4から追加された機能についてです。みなさんは、例えば「タプルの入ったリストを、そのタプルの2番目の要素でソートしたい」とか「Entryオブジェクトのリストを、その属性updateTimeの値に従ってソートしたい」という場合、どうしていますか？まずは2.3以前から可能だった「sortメソッドに比較用の関数を渡す方法」の実行にかかる時間を調べてみます。 # sortメソッドに比較用の関数を渡す方法 d.sort(lambda x, y: cmp(x[1], y[1])) 実行時間の測定にはtimeitモジュールを使います。 (10.10 timeit -- 小さなコード断片の実行時間計測)

rawwell 2008/10/16

あとで書く

リンク

はてなブックマーク

タグ

ブックマーク / labs.cybozu.co.jp (9)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス