[B! Hadoop] calpoのブックマーク

calpo id:calpo

Hadoopに関するcalpoのブックマーク (6)

Hadoop Streaming で外部ファイルを扱う方法のまとめ - (ﾟ∀ﾟ)o彡 sasata299's blog
2010年05月06日09:21 Hadoop Hadoop Streaming で外部ファイルを扱う方法のまとめ Hadoop Streaming での外部ファイルの扱いもだいぶ固まってきました。発表資料のスライドではこの辺の話を書いたことがあるんですが、ブログには書いてなかったので一度きっちりまとめておこうかなーっと。というわけで今回は Hadoop Streaming での外部ファイルの読み込みについてまとめますよ！(*ﾟДﾟ)=3 ﾑﾊｰそもそも外部ファイルの読み込みと言っても、この二つのパターンがあります。 1) 外部ファイルが master 上にある（つまりローカルディスクにある）場合 2) 外部ファイルが別ファイルシステム（S3 だったり HDFS だったり）にある場合外部ファイルが master 上にある場合まず、この場合はとても簡単です。例えば hoge.txt と
calpo 2013/11/06
-file -cacheFile -mapper -reducer オプション

Hadoop

HadoopStreaming
リンク
HiveでJSON形式のログを構造化する
fluentの勉強会に参加したら、まわりがモヒカンばっかりで消毒されそうになったタムタムです。先日のMixi Engineers' Seminar #3でMixiがJSONデータをHiveで集計しているよーという発表をしていて、Fluentのtail + apacheもjsonとしてデータが飛んでいるとの事で、相性は悪くないよねーというわけでサンプルを作ってみました。（スライドを見ていた感じではこんな感じだったはず）まずサンプルデータを用意します。適当に100件ほど作りました。 (nameが名前でexam{1|2|3}は何かのテストの点数です） {"name" : "Irma", "exam1": 58, "exam2": 73, "exam3":85} {"name" : "Dorothy", "exam1": 50, "exam2": 39, "exam3":11} {"name
calpo 2013/10/03
hiveでJSONが入ってるカラムから個別からむに型キャストしてviewで参照

hive

hadoop

分析
リンク
mixi の解析基盤とApache Hive での JSON パーサの活用の紹介 - mixi engineer blog
こんにちは．最近ピクルス作りで精神統一をしている，たんぽぽグループ解析チームの石川有です．このブログではお馴染みのたんぽぽグループですが，"No More 「刺身の上にタンポポをのせる仕事」 - 単純作業の繰り返しで開発者の時間を浪費しないために。"というミッションを持っています．その中で解析チームは，データ解析基盤の構築，データマイニング，データ解析の社内コンサルティングを行ない技術からの改善を担当しています．今回の記事では，mixi における解析基盤について簡単に触れたあと，その基盤における「刺身の上にタンポポをのせる仕事」をどう減らすかの２点について書きます． mixi の解析基盤まずは解析環境について，簡単にお話します．2012-08 現在 mixi では，主な解析用のツールとしては，Apache Hadoop, Hive を利用しています．またあわせて，自分など一部の人は，
calpo 2013/10/02
JSONを丸ごと絡むに入れて、JSONの各項目に対してhiveでアクセスができる

Hadoop

分析
リンク
NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
業界トップのエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成２１年度産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業）」という
calpo 2011/06/03
Hadoop
リンク
Google Code Archive - Long-term storage for Google Code Project Hosting.
Code Archive Skip to content Google About Google Privacy Terms
calpo 2011/05/04
MapReduceがどんなものなのか気軽に試してもらえることを目的としています。具体的には、SVNからEclipseにチェックアウトするだけで、MapReduceプログラムをスタンドアロンモードで実行出来るようにしています。

Hadoop
リンク
Hadoop MapReduceプログラムを解剖する
オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します（その他には、Pig、Hive、JAQLといったものがあります）。しかし、意外と初心者には分かりにくいと筆者は感じます。本記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト本体からでさえも、新APIを使ったサンプルが提示されていません。本記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。
calpo 2010/12/03
"サンプルコードを使って、MapReduceの構造を理解する"

Hadoop

あとで読む
リンク
1