[B! tips][hadoop] restartrのブックマーク

restartr id:restartr

tipsとhadoopに関するrestartrのブックマーク (10)

http://documentation.datameer.com/display/DAS1/Hadoop+Cluster+Configuration+Tips
restartr 2010/10/08
*サーバー

hadoop

configuration

tips
リンク
Hadoop Streaming で外部ファイルを扱う方法のまとめ - (ﾟ∀ﾟ)o彡 sasata299's blog
2010年05月06日09:21 Hadoop Hadoop Streaming で外部ファイルを扱う方法のまとめ Hadoop Streaming での外部ファイルの扱いもだいぶ固まってきました。発表資料のスライドではこの辺の話を書いたことがあるんですが、ブログには書いてなかったので一度きっちりまとめておこうかなーっと。というわけで今回は Hadoop Streaming での外部ファイルの読み込みについてまとめますよ！(*ﾟДﾟ)=3 ﾑﾊｰそもそも外部ファイルの読み込みと言っても、この二つのパターンがあります。 1) 外部ファイルが master 上にある（つまりローカルディスクにある）場合 2) 外部ファイルが別ファイルシステム（S3 だったり HDFS だったり）にある場合外部ファイルが master 上にある場合まず、この場合はとても簡単です。例えば hoge.txt と
restartr 2010/06/03
-file / -cacheFile の使い分け

*開発

hadoop

tips
リンク
Blog | Cloudera
restartr 2010/05/12
Hadoop M/R, hive, pigでファイル転送する方法。hiveの"add file xxx"はdistributed cache。

*開発

hadoop

tips

mapreduce

hive

pig
リンク
http://allthingshadoop.com/2010/04/28/map-reduce-tips-tricks-your-first-real-cluster/
restartr 2010/05/06
*サーバー

hadoop

configuration

tips

mapreduce
リンク
Amazon Elastic MapReduceでHadoop Streamingする時にライブラリをrequireする方法 - Stellaqua - ＴＯＭの技術日記
ちょっと元データの件数が大量にある処理をしたいという要件があって、普通に逐次処理していくと恐ろしく時間が掛かるので、「こんな時こそHadoop!」って事で、久々にHadoopをいじくっていました。ただ、自宅サーバでやろうとすると、いくら分散処理できるとは言っても結局処理するのは物理的には1台な訳で、メモリを使い切ってスワップしまくってウンともスンとも言わなくなってしまうという、とっても悲しい状況になってしまいました。「そんな時はAmazon先生にお願い!」って事で、Amazon Elastic MapReduceを試していたんですが、ちょっとハマってしまったところがあったので、備忘録がてら記事にしようかと思います。 Mapper/Reducer以外のファイルが使えない! 以前にAmazon Elastic MapReduceを試した時は、MapperとReducerが1ファイルだけの簡
restartr 2010/04/27
requireするには、 'jar cvf lib.jar -C lib/ .'で作成したjarアーカイブを"--cache-archive"で指定すればOK。

*開発

tips

phpunit

hadoop
リンク
Runtime error - Meta Search
Error message : Directory is not found or not writable (DATA_DIR) Directory is not found or not writable (DIFF_DIR) Directory is not found or not writable (BACKUP_DIR) Directory is not found or not writable (CACHE_DIR) Site admin: whitestar Copyright © 2006-2023 whitestar. All Rights Reserved. Icons powered by famfa mfam. PukiWiki 1.5.0 Copyright © 2001-2006 PukiWiki Developers Team. License is GPL
restartr 2010/04/08
*サーバー

hadoop

tips
リンク
blog.katsuma.tv - hadoop Archive
HiveでのSQLことHQLの小ネタ。HQLでは基本的にSQLはほぼ完璧に利用できますが、たまにハマりポイントもあります。その１つが並び替えのORDER BY。 ORDER BYとSORT BY HQLの文法的にORDER BYは有効ですが、実際は並び替えは行われません。（無視されているような感じ）Hiveでは代わりに「SORT BY [column]」を利用することになります。ただし、ここでも罠があって、SORT BYは結果がreducerの数に依存します。(各reducerがsort処理をしたものがマージされるものになるので、全体としてはおかしな結果を得ることになります) 通常、reducerは複数走っているはずなので、結局SORT BYを利用してもORDER BYと同等の結果を得ることができません。では、どうするか？と言うと明示的にreducerの数を1に指定してからSORT B
restartr 2010/04/06
このテーブルを分ける（カラムを厳選した中間テーブルを作成する）のはHQLの最適化でかなり有効で、SORT BY以外でもかなり有効なケースが多くあります。

*サーバー

hadoop

hive

tips

最適化
リンク
blog.katsuma.tv
前回、紹介したHiveについての続き。 Hiveは内部で扱うメタデータを「metastore」というデータで保持しています。テーブルやパーティションなどの情報、またレコードが実際に保持されてある場所などのメタデータは全部このmetastoreにまとまっています。このmetastoreは、次の3種類の方法で保存することができます。 Embeded metastore Local Metastore Remote Metastore Embeded metastore Embeded metastoreは主にテスト用途に利用されます。テスト用途なので、単一プロセスからの接続しか許可されていません。そのため、コンソールを複数起動して、それぞれのコンソールから別のMap&Reduceを走らせる…なんてことができません。ただし、Hiveは初期設定がこのEmbededモードになっているので、特に設定
restartr 2010/03/08
mysqlでmetastoreを管理すると同一ホスト内から同時に複数接続可能になる。（Local Metastoreなら接続はひとつのみ)

*サーバー

hadoop

hive

tips

configuration
リンク
Hadoopを使いこなす(2)
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、前回のHadoopの記事に引き続き、MapReduceのカスタマイズポイントを解説していきます。前回の記事の図や、表などを参照しながら読み進めていただければと思います。 MapperやReducerの流れの制御 Mapperの実行の流れは、デフォルトでは、初期化処理を行った後、map関数を繰り返し実行し、終了処理を行うようになっていますが、この流れ自体を制御することができます。古いAPIでは、MapRunnerを通じてこの流れを制御できますが、0.20.0からの新しいAPIでは単純にMapperクラスのrun関数をオーバーライドすることで、行えます。デフォルトのrun関数は以下の通りです。 public vo
restartr 2010/03/07
MapReduceRunner, Partitioner, Combiner, DistributedCache, Comparator, OutputFormat, Writableの仕様とカスタムポイントについて。

*開発

mapreduce

hadoop

tips
リンク
Hadoopを使いこなす(1)
まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed
restartr 2010/03/07
flowの説明と、InputFormatのカスタマイズによるファイル分割の最適化の勘所について。

*開発

mapreduce

hadoop

tips
リンク
1