過去の記事 第1回: Nutch + HBaseを動かすまで 第2回: Nutchの動作を解説 背景・前提 HBaseじゃなくてMySQLを使えば? Nutch + HBaseのクローラーが動作するようになったが、正直1台で動かすならMySQLを使ったほうが色々楽だし、データの抽出も楽。 HBaseを使ったほうがいい場合というのは、データが非常に多い場合ってのが共通認識らしい。1台で扱えなくなる位の大規模なデータ。その場合、当然HBaseも複数台で動かすことになる。 今は、データが100GBに満たない程度だし1台なんだけど、そもそも今回は勉強も兼ねているし、今後データが増えてくるとも限らないので、引き続きHBaseを使っていく。 HBaseの動作モード HBaseには以下の3種類の動作モードがある。詳しくはこのへん。 スタンドアローン 擬似分散モード 分散モード Nutch + HBase