[B! hive][hadoop] sbg3のブックマーク

Impalaのパフォーマンスガイドラインとベストプラクティス(翻訳) - Qiita

Clouderaのドキュメントに書かれているImpala Performance Guidelines and Best Practices が非常に素晴らしい内容なので翻訳した。内容は Apache Impala (incubating) (以下 Impala) をターゲットとして記述しているが、パーティション設計などについては Hive にそのまま適用できる内容なので、Impala を使用していない人でも読んで損はないと思う。環境 CDH 5.7.0 (Impala 2.5.0) 本文このドキュメントは、Impalaを利用するCDHクラスタのための、計画、実験、パフォーマンスチューニング時に利用可能なパフォーマンスガイドラインとベストプラクティスです。この情報は全て、Impala ドキュメンテーションの他のページでより詳細に記載されているものです。これらの情報はクックブックとして

sbg3 2016/04/27

リンク

今日からはじめるお手軽 Hive データ移行 - mixi engineer blog

こんにちは．昨年知人のオーケストラ演奏会で聴いたメンデルスゾーン交響曲第４番「イタリア」が大好きな，技術部の石川有です．そんな「イタリア」大好きな私ですが Hive のデータ移行も大好きという体で，今回の記事ではオンプレミスで Hive を頑張って運用している方たちに向けて，どうしてもというときの Hive のデータ移行方法を紹介したいと思います．弊社では最近，Cloudera's Distribution including Apache Hadoop 3 update 2 (CDH3u2) から CDH 4.1.2 にバージョンアップを行なっています．このようにオンプレミスで Hive を運用している方たちの中には，すでに持っているデータをうまく移行したいという方も多いかと思います． Hive には現状 MySQL の mysqldump のような機能が提供されていないのでバ

sbg3 2013/02/01

リンク

Apache HiveにおけるJSON連想配列処理の最適化 - mixi engineer blog

あけましておめでとうございます．平野啓一郎著「葬送」がようやく読み終わった技術部の石川有です．ショパンの死を題材とした内容が難解で重く，すべて読み終えるのに都合５ヶ月ぐらい掛かっていたのではないかと思います．本当にとても重い内容ですが，濃厚で至福な時間を過ごせました．さて「重い」と言えば，「大規模データ解析」という言葉が頭に思い浮かびますよね．以前の記事「mixi の解析基盤とApache Hive での JSON パーサの活用の紹介」の通り，ミクシィの解析基盤として Apache Hive を利用しています．また Apache Hive で"No More 「刺身の上にタンポポをのせる仕事」 - 単純作業の繰り返しで開発者の時間を浪費しないために。"を実現するための Hive の JSON パーサを活用しています．新年最初のエントリーは，Apache Hive で JSON 連想

sbg3 2013/01/08

hadoop
hive

リンク

データ解析用ワークフローフレームワーク Honey の紹介 - mixi engineer blog

最近，もっぱら上原ひろみさんの曲をエンドレスに聴いて癒しを得ています．もちろんピクルス作りも最高です．みなさんは何で癒しを得ていますでしょうか．こんにちは，技術部の石川有です．以前，「mixi の解析基盤とApache Hive での JSON パーサの活用の紹介」で mixi における Hadoop/ Hive の活用の仕方について記事を書かせていただきました．今回の記事では，ちらっと触れていた Hive などで定期実行する必要のある処理をワークフローとして定義するフレームワークについて書きます．本文章の構成まず最初に，今回ご紹介するデータ解析用ワークフローフレームワーク Honey とは何か，なぜ作ったのかを説明します．つぎに，どのような構成や機能があるのかを簡単に説明します．それから具体的なデータ解析処理を記述する方法について説明します．その中で，定型的な処理を YAML とし

sbg3 2012/11/23

リンク

mixi の解析基盤とApache Hive での JSON パーサの活用の紹介 - mixi engineer blog

こんにちは．最近ピクルス作りで精神統一をしている，たんぽぽグループ解析チームの石川有です．このブログではお馴染みのたんぽぽグループですが，"No More 「刺身の上にタンポポをのせる仕事」 - 単純作業の繰り返しで開発者の時間を浪費しないために。"というミッションを持っています．その中で解析チームは，データ解析基盤の構築，データマイニング，データ解析の社内コンサルティングを行ない技術からの改善を担当しています．今回の記事では，mixi における解析基盤について簡単に触れたあと，その基盤における「刺身の上にタンポポをのせる仕事」をどう減らすかの２点について書きます． mixi の解析基盤まずは解析環境について，簡単にお話します．2012-08 現在 mixi では，主な解析用のツールとしては，Apache Hadoop, Hive を利用しています．またあわせて，自分など一部の人は，

sbg3 2012/08/13

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

hiveとhadoopに関するsbg3のブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス