タグ

Hiveとhadoopに関するwyukawaのブックマーク (7)

  • 1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話

    Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ / Hadoop / Spark Conference Japan 2019 講演者: 関山 宜孝 (Amazon Web Services Japan) 昨今 Hadoop/Spark エコシステムで広く使われているクラウドストレージ。講演では Amazon S3 を例に、Hadoop/Spark から見た S3 の動作や HDFS と S3 の使い分けをご説明します。また、AWS サポートに寄せられた多くのお問い合わせから得られた知見をもとに、Hadoop/Spark で S3 を最大限活用するベストプラクティス、パフォーマンスチューニング、よくあるハマりどころ、トラブルシューティング方法などをご紹介します。併せて、Hadoop/Spark に関係する S3 のサービスアップデート、S3 関連の Hadoop

    1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
  • SQL on Hadoop 比較検証 【2014月11日における検証レポート】

    Impala Meetup 2014/10/31 @Tokyo 講演資料 【注意事項】 資料で紹介している検証結果は2014年当時のものです。当該ソフトウェアは成長や改善が早く、現時点のバージョンでは大きく異なる機能や性能となっています。 SQL on Hadoopの最新情報に基づくサービスやシステムインテグレーションにご興味をお持ちの方は、NTTデータ 基盤システム事業部 OSSプロフェッショナルサービス(電子メール: hadoop [AT] kits.nttdata.co.jp) にご相談ください。Read less

    SQL on Hadoop 比較検証 【2014月11日における検証レポート】
  • Amebaにおけるログ解析基盤Patriotの活用事例

    Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ / Hadoop / Spark Conference Japan 2019 講演者: 関山 宜孝 (Amazon Web Services Japan) 昨今 Hadoop/Spark エコシステムで広く使われているクラウドストレージ。講演では Amazon S3 を例に、Hadoop/Spark から見た S3 の動作や HDFS と S3 の使い分けをご説明します。また、AWS サポートに寄せられた多くのお問い合わせから得られた知見をもとに、Hadoop/Spark で S3 を最大限活用するベストプラクティス、パフォーマンスチューニング、よくあるハマりどころ、トラブルシューティング方法などをご紹介します。併せて、Hadoop/Spark に関係する S3 のサービスアップデート、S3 関連の Hadoop

    Amebaにおけるログ解析基盤Patriotの活用事例
    wyukawa
    wyukawa 2013/12/02
    スケジューラーは自作みたいただけどレポーティングはどうしてるのかな
  • Apache HiveにおけるJSON連想配列処理の最適化 - mixi engineer blog

    あけましておめでとうございます. 平野啓一郎著「葬送」がようやく読み終わった技術部の石川有です.ショパンの死を題材とした内容が難解で重く,すべて読み終えるのに都合5ヶ月ぐらい掛かっていたのではないかと思います.当にとても重い内容ですが,濃厚で至福な時間を過ごせました. さて「重い」と言えば,「大規模データ解析」という言葉が頭に思い浮かびますよね.以前の記事「mixi の解析基盤とApache Hive での JSON パーサの活用の紹介」の通り,ミクシィの解析基盤として Apache Hive を利用しています. また Apache Hive で"No More 「刺身の上にタンポポをのせる仕事」 - 単純作業の繰り返しで開発者の時間を浪費しないために。"を実現するための Hive の JSON パーサを活用しています. 新年最初のエントリーは,Apache Hive で JSON 連想

    Apache HiveにおけるJSON連想配列処理の最適化 - mixi engineer blog
    wyukawa
    wyukawa 2013/01/09
    良いエントリ。SEQUENCEFILE + GZip (+BLOCK) は圧縮率高いけどSELECT TIME 2(HDFSブロックサイズを超えたデータに対するSELECT)が遅いなあ。
  • Programming Hive

    Read it now on the O’Reilly learning platform with a 10-day free trial. O’Reilly members get unlimited access to books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers. Need to move a relational database application to Hadoop? This comprehensive guide introduces you to Apache Hive, Hadoop’s data warehouse infrastructure. You’ll quickly learn how to us

    Programming Hive
    wyukawa
    wyukawa 2012/09/26
    352ページもあるのか。目次みる限りインデックスの話もあるしHCatalogの話もあるし盛りだくさんな感じですな。
  • 「カジュアル」な規模のデータクラスター上でのデータ解析処理 « NAVER Engineers' Blog

    今年はさだまさしさんのデビュー40周年ということで、記念コンサート「さだまつり」も絶賛開催中の折も折、残暑も厳しい中皆様いかがお過ごしでしょうか。大平です。 さだまさし氏は経験の豊富な方ですので彼の歌や発言から学ぶことは大変多いのですが、個人的に非常に感銘を受けているのは「歌はコンサートで成長する」という言葉です。歌い手として、「歌」という作品を作って公開・販売するだけが仕事ではなく、実際にコンサートなどでお客さんに届け、お客さんの反応を参考にしたり日々の演奏活動の中で試行錯誤を繰り返して、内容をブラッシュアップし洗練させていく過程を指して先の言葉があるのだと思います。実際にさだまさし氏の曲はCDに収録されているものと実際にライブで演奏されるものとでアレンジが大きく異なり、かつ作品としても質が向上しているものが少なからず存在します。 …あまりさだまさしの話を続けると当に上長に叱られますの

    wyukawa
    wyukawa 2012/09/11
    すばらしいエントリですな。最初さだまさしに関するログ解析かと思ったら違ったけどw
  • Hadoop Pig の使いどころ - Tech-Sketch

    「PigとHive何が違うの?」 「Difference between Pig and Hive? Why have both?(PigとHive何が違うの?)」 という質問を、先日、StackOverFlowで見かけました。恐らくHadoopを触ると一度は疑問に思う事ではではないでしょうか。 PigとHiveは、共にSQLライクな記法でMapReduceを書けるDSLですが、利用者数においてはHiveに軍配が上がっているようにみえます。 一方で、「Pigをもっと早く試せば良かった」というお話を伺うこともあり、有用(かもしれない)ツールであれば、正しく理解しておいた方がよさそうです。 というわけで、ここではPigの活用を探ります。 Pigの性能 Pigが今一つ利用されていないのは、SQLとの親和性に加え、性能面で、「JavaMapReduce>Hive>Pig」という傾向があるからで

    wyukawa
    wyukawa 2012/08/28
    へー、PigってHiveより遅いんだ。ただメタデータが要らないので導入しやすいよな。
  • 1