はてなが扱うデータ量は日々増加している。単一マシンで扱いきれない量のデータを現実的な時間で処理する類の要件も多い。大規模データを扱いながらウェブサービスを提供していくにあたって、どのようなアプローチを取るか、またどのようなアルゴリズムの知識が基礎として必要か、その詳細について解説する。 今日・明日は大阪で関西オープンフォーラムです。自分も明日のスピーチ枠を一ついただいています。 この夏にインターンの学生向けに色々講義をした中でも評判の良かった大規模データの取り扱い方について、アレンジを加えたものを発表したいと思っています。 ちょうどブックマークのベータ (http://bbeta.hatena.ne.jp/) リリースしたところで、やや大変な目にあったりした直後ですので語れる苦労が少しはあります。