実際にHadoopで処理を実装していきながら「Hadoopは、誰にだって扱える」を体感しましょう。今回は、Hadoop Streamingとは別のHadoopの利用方法となる「Hiveの使い方」を解説します。
About reserved postingIf you register a secret article by the day before the same day, it will be automatically published around 7:00 on the same day. About posting periodOnly articles submitted after November 1 of the year can be registered. (Secret articles can be registered anytime articles are posted.)
ここでは例として、以下の 3ノードを利用して分散処理できるよう設定します。 当例は 3ノードのみですが、Hadoop は大規模なデータを大規模なノード構成で処理する場合に、より真価を発揮します。 1) dlp.srv.world (マスターノード) 2) node01.srv.world (スレーブノード) 3) node02.srv.world (スレーブノード)
こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析や機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。 今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式:MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。 ビッグデータ活用の市場が日々大きくなるに従って、数百テラ~ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要
前回の続きで、セットアップ後のHive演習記録。参考書の通りにやっただけなんだが… 前提として、演習に使うサンプルデータは以下からダウンロードし、Hadoopマシンに転送。 解凍後必要なデータをhiveユーザのホームディレクトリ配下に配置している。 http://gihyo.jp/book/2012/978-4-7741-5389-6 こんな感じ。 $ ls -l /home/hive/sales_sample -rw-r--r-- 1 hive hive 7500 Sep 5 19:20 itemlist.tsv -rw-r--r-- 1 hive hive 405179 Sep 5 19:20 sales_detail.tsv -rw-r--r-- 1 hive hive 95769 Sep 5 19:20 sales.tsv -rw-r--r-- 1 hive hive 3428 S
総合研究大学院大学 複合科学研究科 情報学専攻 卒 博士(情報学) 自然言語処理や機械学習、データ分析に関する研究内容とwebシステムの開発と運用について書いています。 シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。 ご興味ある方はご連絡ください。 インストールは簡単なようで結構たくさんエラーが出るかもしれません。 hadoopではまずstart-all.shを実行した時 localhost: Permission denied (publickey,gssapi-keyex,gssapi-with-mic).となるのは、 ssh localhost でログイン出来ない状態と同じです。 ユーザのアカウントと鍵の設定が必要です。 start-all.sh実行して jobtracker running as process 00000. localhost: sta
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く