[B! Hive][Hadoop] wyukawaのブックマーク

1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話

Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ / Hadoop / Spark Conference Japan 2019 講演者：関山宜孝（Amazon Web Services Japan）昨今 Hadoop/Spark エコシステムで広く使われているクラウドストレージ。本講演では Amazon S3 を例に、Hadoop/Spark から見た S3 の動作や HDFS と S3 の使い分けをご説明します。また、AWS サポートに寄せられた多くのお問い合わせから得られた知見をもとに、Hadoop/Spark で S3 を最大限活用するベストプラクティス、パフォーマンスチューニング、よくあるハマりどころ、トラブルシューティング方法などをご紹介します。併せて、Hadoop/Spark に関係する S3 のサービスアップデート、S3 関連の Hadoop

wyukawa 2016/02/19

リンク

SQL on Hadoop 比較検証【2014月11日における検証レポート】

Impala Meetup 2014/10/31 @Tokyo 講演資料【注意事項】本資料で紹介している検証結果は2014年当時のものです。当該ソフトウェアは成長や改善が早く、現時点のバージョンでは大きく異なる機能や性能となっています。 SQL on Hadoopの最新情報に基づくサービスやシステムインテグレーションにご興味をお持ちの方は、NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス（電子メール： hadoop [AT] kits.nttdata.co.jp）にご相談ください。Read less

wyukawa 2014/11/05

リンク

Amebaにおけるログ解析基盤Patriotの活用事例

Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ / Hadoop / Spark Conference Japan 2019 講演者：関山宜孝（Amazon Web Services Japan）昨今 Hadoop/Spark エコシステムで広く使われているクラウドストレージ。本講演では Amazon S3 を例に、Hadoop/Spark から見た S3 の動作や HDFS と S3 の使い分けをご説明します。また、AWS サポートに寄せられた多くのお問い合わせから得られた知見をもとに、Hadoop/Spark で S3 を最大限活用するベストプラクティス、パフォーマンスチューニング、よくあるハマりどころ、トラブルシューティング方法などをご紹介します。併せて、Hadoop/Spark に関係する S3 のサービスアップデート、S3 関連の Hadoop

wyukawa 2013/12/02

スケジューラーは自作みたいただけどレポーティングはどうしてるのかな

hadoop
hive

リンク

Apache HiveにおけるJSON連想配列処理の最適化 - mixi engineer blog

あけましておめでとうございます．平野啓一郎著「葬送」がようやく読み終わった技術部の石川有です．ショパンの死を題材とした内容が難解で重く，すべて読み終えるのに都合５ヶ月ぐらい掛かっていたのではないかと思います．本当にとても重い内容ですが，濃厚で至福な時間を過ごせました．さて「重い」と言えば，「大規模データ解析」という言葉が頭に思い浮かびますよね．以前の記事「mixi の解析基盤とApache Hive での JSON パーサの活用の紹介」の通り，ミクシィの解析基盤として Apache Hive を利用しています．また Apache Hive で"No More 「刺身の上にタンポポをのせる仕事」 - 単純作業の繰り返しで開発者の時間を浪費しないために。"を実現するための Hive の JSON パーサを活用しています．新年最初のエントリーは，Apache Hive で JSON 連想

wyukawa 2013/01/09

良いエントリ。SEQUENCEFILE + GZip (+BLOCK) は圧縮率高いけどSELECT TIME 2（HDFSブロックサイズを超えたデータに対するSELECT）が遅いなあ。

リンク

Programming Hive

Read it now on the O’Reilly learning platform with a 10-day free trial. O’Reilly members get unlimited access to books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers. Need to move a relational database application to Hadoop? This comprehensive guide introduces you to Apache Hive, Hadoop’s data warehouse infrastructure. You’ll quickly learn how to us

wyukawa 2012/09/26

352ページもあるのか。目次みる限りインデックスの話もあるしHCatalogの話もあるし盛りだくさんな感じですな。

Hadoop
hive

リンク

「カジュアル」な規模のデータクラスター上でのデータ解析処理 « NAVER Engineers' Blog

今年はさだまさしさんのデビュー40周年ということで、記念コンサート「さだまつり」も絶賛開催中の折も折、残暑も厳しい中皆様いかがお過ごしでしょうか。大平です。さだまさし氏は経験の豊富な方ですので彼の歌や発言から学ぶことは大変多いのですが、個人的に非常に感銘を受けているのは「歌はコンサートで成長する」という言葉です。歌い手として、「歌」という作品を作って公開・販売するだけが仕事ではなく、実際にコンサートなどでお客さんに届け、お客さんの反応を参考にしたり日々の演奏活動の中で試行錯誤を繰り返して、内容をブラッシュアップし洗練させていく過程を指して先の言葉があるのだと思います。実際にさだまさし氏の曲はCDに収録されているものと実際にライブで演奏されるものとでアレンジが大きく異なり、かつ作品としても質が向上しているものが少なからず存在します。 …あまりさだまさしの話を続けると本当に上長に叱られますの

wyukawa 2012/09/11

すばらしいエントリですな。最初さだまさしに関するログ解析かと思ったら違ったけどw

hadoop
Hive

リンク

Hadoop Pig の使いどころ - Tech-Sketch

「PigとHive何が違うの？」「Difference between Pig and Hive? Why have both?(PigとHive何が違うの？)」という質問を、先日、StackOverFlowで見かけました。恐らくHadoopを触ると一度は疑問に思う事ではではないでしょうか。 PigとHiveは、共にSQLライクな記法でMapReduceを書けるDSLですが、利用者数においてはHiveに軍配が上がっているようにみえます。一方で、「Pigをもっと早く試せば良かった」というお話を伺うこともあり、有用（かもしれない）ツールであれば、正しく理解しておいた方がよさそうです。というわけで、ここではPigの活用を探ります。 Pigの性能 Pigが今一つ利用されていないのは、SQLとの親和性に加え、性能面で、「Java MapReduce＞Hive＞Pig」という傾向があるからで

wyukawa 2012/08/28

へー、PigってHiveより遅いんだ。ただメタデータが要らないので導入しやすいよな。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (9)

HiveとHadoopに関するwyukawaのブックマーク (7)

お知らせ

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

今週のはてなブックマーク数ランキング（2024年10月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス