並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 113件

新着順 人気順

CDHの検索結果1 - 40 件 / 113件

  • ログ収集、大量データ操作の要、Fluentd、CDHの最新バージョンを知る

    ログ収集、大量データ操作の要、Fluentd、CDHの最新バージョンを知る:イベントリポート ログ、アクセス解析、インフラ運用 2014年1月23日、アイティメディアにて@ITが新たに企画した「@特勉」(@IT 特集連動勉強会)が開催された。第1回のテーマは「ログ、データ解析、インフラ技術」。濃厚なセッションをかいつまんで紹介する。 2014年1月23日、アイティメディアにて@ITが新たに企画した「@特勉」(@IT 特集連動勉強会)が開催された。第1回のテーマは「ログ、データ解析、インフラ技術」として、ログ収集が行える「Fluentd」やオープンソースのHadoopディストリビューション「CDH」の最新情報や、ソーシャルゲームやWebアクセスにおけるデータ解析手法など、@ITならではの濃いセッションが多数行われた。その様子を2回に分けて紹介しよう。 セッション1:Fluentdの次期バージ

      ログ収集、大量データ操作の要、Fluentd、CDHの最新バージョンを知る
    • CDH4 Configurations with YARN, Capacity Scheduler and Hive | 外道父の匠

      CDH4 Configurations with YARN, Capacity Scheduler and Hive 前回の続きで、私がCDH4で利用している外道式設定ファイルの紹介です。 非常に手間暇かけて作成したものなので墓の下まで持って行きたいところですが、某所からの圧力と社会のために、恥ずかしながら放出したいと思います。 はじめに 言うまでもなく、参考・利用においては自己責任でお願いします ホスト名・ファイルパスは適当に変換してください descriptionの日本語は私のメモですので怪しかったらググってください 英文のみの場合はまだ未検証だったり説明するまでもないものになっています 2ヶ月以上これで運用していますが、まだまだ変わると思うので更新日付を書いておきます ファイルはUTF-8です Hadoop設定 CDH3からCDH4への設定変更リスト core 公式 core-def

        CDH4 Configurations with YARN, Capacity Scheduler and Hive | 外道父の匠
      • Hadoop CDH4メモ(Hishidama's Hadoop2.0 CDH4 Memo)

        CDH4(Cloudera's Distribution including Apache Hadoop v4)のインストールについて。 CDH4の概要 CDH(Cloudera's Distribution including Apache Hadoop)は、Hadoopのディストリビューション。 CDH4はHadoop2.0(旧Hadoop0.23)がベースとなっている。 CDH4のHadoopはMapReduce v1(MRv1)とYARN(MRv2)の二種類ある。 MRv1は従来と同じくJobTrackerやTaskTrackerを使用して動作する。 YARNは新しい方式で、ResourceManager・NodeManager(やApplicationMaster/Container)を使用して動作する。 (Hadoop0.23ではインストールは一種類で、パラメーターmapred

        • How to convert non-HA NameNode to QJM HA on CDH4 | 外道父の匠

          CDH3から始めてCDH4.1までアップグレードして利用し続けていますが、この過程でNameNodeの構成は変更せずに運用してきました。 当然、CDH4からの公式HA構成に関心はあったのですが、複数の更新を同時に行うと危ないとか、英語マニュアル読むのめんどくせー感からミドルレンジに距離を置いていたところに、もりす先生がトライしてくれて、乗るしかないビッグウェーブ到来。待つべきものは他人の検証とはよく言ったものですなぁ。 タイトルはNameNode構成の切り替え、となっていますが、これから新しくQJM HAで組む人にも役に立つ内容となっていますゆえ、私が血反吐を吐いてまとめた情報を是非ご覧くださいませ。 リンク CDH4.1におけるクォーラムベースジャーナリング Quorum-Journal Design CDH4.1オーバービュー Software Configuration for Qu

            How to convert non-HA NameNode to QJM HA on CDH4 | 外道父の匠
          • データセンター技術への投資としては「過去最大」:米インテルがクラウデラに出資、Hadoopディストリビューション「CDH」へ統合 - @IT

            米インテルがクラウデラに出資、Hadoopディストリビューション「CDH」へ統合:データセンター技術への投資としては「過去最大」 米インテルは2014年3月27日、Apache Hadoopディストリビューションプロバイダーの米クラウデラ(Cloudera)への出資を発表した。インテルのHadoopディストリビューションは、クラウデラの「Cloudera's Distribution including Apache Hadoop」(CDH)に統合する予定だ。 米インテルは2014年3月27日、Apache Hadoopディストリビューションプロバイダーの米クラウデラ(Cloudera)への出資と、広範な戦略提携を発表した。インテルは同社の筆頭戦略株主となり、取締役に就任する。 クラウデラへの出資は、インテルがデータセンター技術に行う投資としては過去最大級。Hadoopをベースとするクラウ

              データセンター技術への投資としては「過去最大」:米インテルがクラウデラに出資、Hadoopディストリビューション「CDH」へ統合 - @IT
            • DMMのビッグデータ基盤の裏側を大公開!CDHクラスタ移行・Presto導入・Digdag導入により得られた効果とは? - DMM inside

              DMMのビッグデータ基盤の裏側を大公開!CDHクラスタ移行・Presto導入・Digdag導入により得られた効果とは?

                DMMのビッグデータ基盤の裏側を大公開!CDHクラスタ移行・Presto導入・Digdag導入により得られた効果とは? - DMM inside
              • CDH (Hadoop) 入門 - MicroAd Developers Blog

                はじめに 初めまして。マイクロアド21年新卒インフラ担当の森( id:bosq )と申します。 7月に新卒研修を終えてからは、基盤開発グループにて日々勉強しています。 配属後は新しいことのインプットが多いため、今回は学んだことの整理とアウトプットを兼ねて、マイクロアドのデータ基盤で利用しているHadoopについて紹介したいと思います。 はじめに 分散処理基盤 Hadoop / CDH とは Hadoop エコシステム データストレージ (HDFS) と リソース管理 (YARN) HDFS (Hadoop Distributed File System) YARN (Yet Another Resource Negotiator) ノードの役割 分散処理エンジン (MapReduce, Tez, Spark) MapReduce Apache Tez Apache Spark クエリエンジ

                  CDH (Hadoop) 入門 - MicroAd Developers Blog
                • CDH4 NameNode HA (QJM)でクラスタ構成 - たごもりすメモ

                  CDH4と延々格闘してたが、ようやくひととおり設定が終わったのでまとめ。 特にNameNode HA QJM版はドキュメントもけっこうグチャグチャで何をどうすればいいのかの把握が困難だった。また Auto Failover は設定するとマトモに動かなかったので無効にした。そのうち調べてもいいけど、実運用上も特に要らなそうだし、まあいいかな、と。 で、手順と設定のポイントについていくつか。なおNameNode Federationは使ってないので知らん。使うならクラスタ名の指定とかに影響があるはず。 セットアップ順序 基本的にはこのドキュメントを読む。 Redirecting... が、通常のセットアップとの関係やどういう順序で全体を進行すればいいかがいまいちちゃんと書いてなくて不明なところが多い。簡単に概要をまとめると以下のようになる。パッケージ名はyumでのものなので適当に読み替えを。

                    CDH4 NameNode HA (QJM)でクラスタ構成 - たごもりすメモ
                  • CDH4説明会に行って参りました。 - 急がば回れ、選ぶなら近道

                    CDH4説明会に行って参りました。 日時:2012年7月6日(金) 場所:ベルサール八重洲 タイトル: 進化するHadoop:CDH4とCloudera Enterprise4.0のご紹介 アジェンダは以下の通り。 18:30 開場 19:00 開会のご挨拶(ジュゼッペ小林さん) 19:10 CDH4とCloudera Enterprise4.0(川崎さん) 〜エンタープライズにおけるHadoopの標準〜 19:50 CDH4はなぜエンタープライズに適しているのか(嶋内さん) 〜新しく導入された技術から読み解く〜 20:30 懇親会 21:00 閉会 以下、内容と感想をまとめておきます。スライドはあとで上がるそうなので、セミナーの詳細はそちらを参考にした方がよろしいかと。 あとはメモも上げられているので、こちらを見ると詳細がわかるかと。 http://d.hatena.ne.jp/gara

                      CDH4説明会に行って参りました。 - 急がば回れ、選ぶなら近道
                    • CDHの歴史とCDH5新機能概要 #at_tokuben

                      @特勉(@IT 特集連動勉強会) で発表させていただきました、CDH5についての資料です。 http://atnd.org/events/46924

                        CDHの歴史とCDH5新機能概要 #at_tokuben
                      • Clouderaの品質保証・CDHのテスト工程について by Andrew bayer

                        2012/7/31に実施したCloudera QAセミナーより 「Clouderaの品質保証 CDHのテスト工程について」 Cloudera Kitcen team / Andrew Bayer

                          Clouderaの品質保証・CDHのテスト工程について by Andrew bayer
                        • 稼働中のCDHクラスタからCloudera Managerに移行した話 - Qiita

                          こちらはSpark, SQL on Hadoop etc. Advent Calendarの12日目です はじめに Cloudera ManagerはCloudera社が提供するHadoop(CDH)クラスタをGUIで管理・監視ができるアプリケーションです。 (以下一部Cloudera Manager = CMと略します) 職場にて元々CDH4.3を利用してHadoopクラスタを運用していたのですが 運用が2-3名 障害時に停止や再起動の手順を把握している人そのくらい(ドキュメントは一部用意してあるが…) 日々の運用や開発に手一杯で監視が甘い GangliaとCloudForecastとNagiosなど組み合わさってとっちらかる 時々とんでもない値を設定しててハマる などなどありまして、「もうちょい楽して開発に集中したい」というモチベーションが高まりCloudera Managerを採用し

                            稼働中のCDHクラスタからCloudera Managerに移行した話 - Qiita
                          • NTTデータ、Hadoopの商用ディストリビューション「CDH3」を販売開始 - ニュース:ITpro

                            NTTデータは2011年5月30日、オープンソースソフトウエア(OSS)の分散バッチ処理ソフト「Hadoop」の商用ディストリビューション「Cloudera's Distribution including Apache Hadoop v3(CDH3)」の販売を、6月2日に開始すると発表した。価格は1ノード当たり年額25万円からで、5ノードから販売する。 NTTデータは2010年10月に、CDH3の開発元である米クラウデラと提携している。CDH3は、米アパッチソフトウエア財団が管理するHadoopのディストリビューションに対して、クラウデラによる機能追加や品質強化を加えたディストリビューションである。また、Hadoopを活用するために必要となるシステム連携ツールなどがパッケージ化してある。 CDH3が含むツールとしては、リレーショナルデータベース管理システム(RDBMS)のデータをHado

                              NTTデータ、Hadoopの商用ディストリビューション「CDH3」を販売開始 - ニュース:ITpro
                            • Clouderaトレーニングコース受講者向けCDH4説明会でとったメモを公開しよう - #garagekidztweetz

                              ツイートSource: cloudera.com via garage-kid on Pinterest Clouderaトレーニングコース受講者向けCDH4説明会にお呼ばれしたので、行って参りました。 今日はそのときわたしがとったメモを公開しようと思います。 〜Clouderaトレーニングコース受講者様向けCDH4説明会 概要〜 ▼ 日時:2012年7月6日(金) ▼ 会場:ベルサール八重洲 3階ルーム4 (http://www.bellesalle.co.jp/bs_yaesu/access.html) ▼ タイトル: 進化するHadoop:CDH4とCloudera Enterprise4.0のご紹介 Cloudera のトレーニングを受けた人に対するインセンティブのようなものとして開催された催しでした。 雨の中にも関わらず、50名近い参加者があったことは正直にすごいな、とわたしは思

                              • 完全分散モードのHadoop JobTracker導入(Ubuntu10.04、CDH3) | mwSoft

                                概要 今回はJobTrackerとTaskTrackerの導入を行ないます。ClouderaのCDH3を利用。 本項を実行するにはNameNodeとDataNodeが稼動している必要があります。また、最低でも2台(できれば3台以上)のパソコンが必要になります。 NameNodeとDataNodeのインストールについては下記を参照してください 完全分散モードのHadoop NameNode導入(Ubuntu10.04、CDH3) 今回やること NameNode導入の項で、NameNode(HDFS親)とDataNode(HDFS子)が動いている状態ができました。 導入済みの構成 親 : NameNode 子 : DataNode 今回はNameNodeが入っているマシンでJobTracker(MapReduce親)を、DataNodeが入っているマシンでTaskTracker(MapRedu

                                • HadoopのCDH4で完全分散環境構築した - もち日記

                                  基本的には、Clouderaの http://www.cloudera.com/content/support/en/documentation/cdh4-documentation/cdh4-documentation-v4-latest.html ここにある、ドキュメントにそってやっただけ。 意外とすんなりできました。 英語のドキュメントしかねぇから、英語の勉強もかねて 和訳したのをどっかで公開するのもありかと思ったけど 著作権的にアウトだった。。。 閑話休題 HDFS、MapReduce、HBaseが動くまでの手順をまとめてみる。 この記事に全部詰め込む予定だから、だいぶ長くなるかも。 マシン構成は、マスタ1台、スレーブ2台。 NameNodeHA試すために、この後、マスタを1台追加する予定だけど それはまた別のお話。 まずはネットワーク周りの設定。 ホスト名の設定 # hostna

                                    HadoopのCDH4で完全分散環境構築した - もち日記
                                  • CDH4でHiveServerを使う際の注意点 - たごもりすメモ

                                    CDHでHadoopを使っている良い子のみんな、hiveserverまわりで罠があるので気をつけましょう! という話。ふたつあるので順番に。 hive-server 再起動時にログがtruncateされる hiveserverがなんかおかしかったりすると、原因究明はやるとしてとりあえず再起動、という運用をしてしまう気持ちはよくわかります。が、やってしまうとその日の分のログが消える(!)ので注意が必要だ。 原因は /etc/init.d/hive-server *1の hive_start() 中の以下の部分。 log_success_msg "Starting $desc (${NAME}): " $SU -c "cd $HIVE_HOME ; $exec_env nohup \ $EXE_FILE --service $service_name $PORT \ > $LOG_FILE 2

                                      CDH4でHiveServerを使う際の注意点 - たごもりすメモ
                                    • cdh-twitter-exampleで遊ぶ

                                      この記事はHadoop Advent Calendar 2013, 13日目のエントリです。ブログなんざ書いたことないので勝手が良く分かりませんが@sudabonさん@kernel023さんのお前も何か書けやコラという圧力に負けてBloggerにページを用意してみました。 Hadoopの利用目的としてデータの分析に取り組んでいる、もしくはこれから取り組もうとしているユーザは多いのではないかと思います。中でもログ分析と並んでソーシャルメディアの分析は各社が積極的に取り組もうとしているテーマであり、私が勝手にTwitter分析3部作と呼んでいる以下のブログを読まれた方も多いのではないでしょうか: http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/ http://blog.cloudera.com/b

                                        cdh-twitter-exampleで遊ぶ
                                      • CDH5対応のSparkをビルドする方法 - nobusueの日記

                                        このエントリはSpark, SQL on Hadoop etc. Advent Calendar 2014 - Qiitaの12/6担当分です。 CDH5対応のSparkバイナリはどこに? Sparkアプリケーションの開発を行っていると「Hadoopクラスタに接続してxxする」というケースがあると思います。いちいちアプリケーションのJARをアップロードするのは面倒なので、できれば「手元のマシン(Macとか)からリモートのHadoopクラスタに接続してxx」したいところです。 しかし、Hadoopエコシステムのプロダクトはライブラリの依存関係がシビアなため、バージョンやディストリビューションが異なると接続できないことが多いです。(しかも状況によって発生するエラーが異なるので原因究明が大変です。特に、自分のようにHadoopの経験が浅い人間は素直にディストリビューションの標準構成に従っておいた

                                          CDH5対応のSparkをビルドする方法 - nobusueの日記
                                        • Notes of upgrading from CDH4.1 to CDH4.4 | 外道父の匠

                                          ついつい CDH4.1 から CDH4.4 にアップグレードしてしまいましたので、手順を省いて注意点などを記しておきます。 機能的には What’s New in CDH4.4.0 まで見てもメリットよりリスク不安の方が高いのですが、Hadoop新担当者の運用鍛錬という名目でゴリッとやってもらって、私はその後ろで煽ってました。 手順について How to upgrade from CDH4.0 to CDH4.1 for Debian | 外道父の匠 と流れは同じで、 ジョブを止めて Hadoopを止めて アップグレードして Hiveメタストアを更新して 再開して動作確認する(ログ保存/ジョブ) だけなので難しいことは特にありません。 QJM HAも特になにもなかったです。 なので、細かいメモだけ書いておきます。 NameNode WARNログ 挙動に支障はないのですが、読み書き両方ともに

                                            Notes of upgrading from CDH4.1 to CDH4.4 | 外道父の匠
                                          • CDH ってどうなの?を知るために「Hadoopエンタープライズソリューションセミナー」に行ってきた - #garagekidztweetz

                                            ツイートCloudera’sDistribution including Apache Hadoop Cloudera’sDistribution including Apache HadoopThe most popular way to adopt Apache Hadoop in the enterprise. Hear from Doug Cutting on Cloudera’s Distribution including Apache Hadoop An open system… …simplified for use in trial or production …proven at scale in the enterprise …designed to work with your preexisting investments 今日は、 CDH (上述)に関する理解を

                                              CDH ってどうなの?を知るために「Hadoopエンタープライズソリューションセミナー」に行ってきた - #garagekidztweetz
                                            • hadoop アドベントカレンダー 2011 1日目 CDH hadoop/hive/hbase を eclipse プロジェクトとしてインポートする - 科学と非科学の迷宮

                                              hadoop アドベントカレンダー 2011、1日目及びその他空いているところ全部を担当する @shiumachi です。 最初はサポートの話を書こうと思ったのですが、せっかくのアドベントカレンダーの初日なので少しだけ技術的なことを書くことにします。 あと最初に断っておきますが、私の書く記事は基本的に全て CDH ベースです。 (バージョンは CDH3u2) 今日は eclipse プロジェクトへのインポート方法を紹介します。 ドキュメント化されてるようで実はされてないっぽいので備忘録代わりに記載します。 ファイルのダウンロード、展開 ここから DL してください。 hadoop の場合は hadoop-0.20.2-cdh3u2.tar.gz です。 展開は普通に tar xf してください。 ant の実行 ant eclipse-files と叩いてください。すぐに終わります。 ec

                                                hadoop アドベントカレンダー 2011 1日目 CDH hadoop/hive/hbase を eclipse プロジェクトとしてインポートする - 科学と非科学の迷宮
                                              • CDHとApache Spark

                                                CDH(Cloudera’s Distribution including Apache Hadoop)にApache Sparkが仲間入り 本日Clouderaから公開されたプレスリリース(英語)によると、ClouderaとDataBricksがパートナー提携し、CDHにApache Sparkがサポートされるようになるとのことです。 (更新)日本語のプレスリリースが出ています。 Cloudera、新たなパートナープログラムCloudera Connect:Innovatorsを発表 〜ハイスピードデータアナリティクスのためDatabricks社とタイアップし、Sparkをサポート〜 Apache SparkはMapReduceを使用せずに分散処理を行う仕組みです。詳しい資料(Spark/Shark)が @oza_x86さんから公開されています。 この資料をご覧になれば、下記は読む必要あ

                                                  CDHとApache Spark
                                                • 米国籍を取得して日本に帰国は得策か? - CDH

                                                  「トク」する永住権者の税務知識 この記事の目的は、米国の長期永住者がCovered Expatriateの判定を嫌ったために、永住権の放棄をせずに、米国市民権を取得して日本に永久帰国した場合に、考えないといけない点を列記してみました。 1. 背景 永住権を放棄すると「特定された出国者」(Covered Expatriate)になり、出国税を払ったり、適格年金を受け取る際に3割、強制的に米国の所得税を源泉されて、毎年フォーム8854をIRSに提出しないといけない。それなら米国籍を取得して、日本に住めば良いと考える人が最近増えています。 通常米国籍は、永住権を5年間以上維持していれば取得権利が生じます。Covered Expatriateに判定される人は、米国市民権を取得する権利もあるのです。 2. 日本の国籍法 国籍法十一条一項は「日本国民は、自己の志望によって外国の国籍を取得したときは、日

                                                    米国籍を取得して日本に帰国は得策か? - CDH
                                                  • CDH4にいったん挫折した - たごもりすメモ

                                                    CDH3で使ってる設定ファイル群を基本的にそのまま(ノードリストなどだけ書き換え)でCDH4の検証クラスタを作ろうとしてみた。 ら、以下のような事情でいろいろ面倒くさかったのでいったん挫折したのが本日あったこと。 使う環境変数がいろいろ変わってる YARN_HOGE とか HDFS_HOGE みたいなのを使うようになっている 基本的には HADOOP_CONF_DIR などから組み立てるようになっている ただしその処理は libexec/hadoop-config.sh で行われる $HADOOP_CONF_DIR/hadoop-config.sh を自分で用意して使っている場合は libexec/hadoop-config.sh が読まれないので新しい変数の組み立てができない このため各種の環境変数がセットされずいろいろコケる たいへん困った。設定ファイル群をイチから作り直す覚悟が必要な

                                                      CDH4にいったん挫折した - たごもりすメモ
                                                    • How to upgrade from CDH3 to CDH4 for Debian | 外道父の匠

                                                      イベント2つを経て、何から書くか迷うところですが、先に @tagomoris との約束を果たすためにCDH3からCDH4への具体的なアップグレード手順を紹介します。 この約束を果たすと、@ryu_kobayashi が Huahin Framework をCDH4対応してくれるというパーフェクトフローになっておりますが、JobTrackerがResourceManagerになってるので大変そうですね! はじめに 公式 CDH4 Installation Upgrading from CDH3 to CDH4 Deprecated Properties 過去記事 Upgrade CDH3 to CDH4 注意点その1 Upgrade CDH3 to CDH4 注意点その2 OSについて Debian Squeeze です。LennyにはCDH4は存在しませんし、無理矢理もほぼ不可能です。 C

                                                        How to upgrade from CDH3 to CDH4 for Debian | 外道父の匠
                                                      • VirtualBoxとCDH5でお手軽Apache Spark検証環境の構築 - データサイエ「ソ」ティストは語る

                                                        ということで、実際には1台のコンピュータ上なうえ、仮想化のオーバーヘッドもあるので「分散並列」で「高速」な処理はできないのだけど、動作検証ができる環境の作り方。 前提 仮想マシンホスト CPU: Intel Core i7 4770(8コア) メモリ: 24GB OS: Windows 7 Professional VirtualBox: 4.3.10 r93012 ゲストOS: CentOS 6.5 64bit もっとも、上記の環境はあくまで手元がそうだから、というだけで、VirtualBoxは最新版をインストールすればよいし、ゲストOSもCDHがインストールできるならUbuntuでもSLES(Suse)でもなんでもよい。 VirtualBoxで仮想マシンを作成 CDH5*1をインストールし、Sparkを動かすための仮想マシンを作る。CPU4コア、メモリ8GBを割り振る。ディスクは80G

                                                          VirtualBoxとCDH5でお手軽Apache Spark検証環境の構築 - データサイエ「ソ」ティストは語る
                                                        • Hive on Tez を CDH で動かす - Qiita

                                                          Tezとは まずはTezの説明です。 TezはYARN上で動作するバッチ処理用のフレームワークで、Hortonworksが主導して開発しています。 Tezに近い位置付けのものには、リアルタイム処理用のSliderがあります。 HortonworksはSliderの上でStormを動かすことを計画しています。 Hive on Tezとは Hive on Tezは、上記のTezの上でHiveを動かすものです。 Hive 0.13からTez対応のパッチが入っていて、動かす準備はできています。 しかし、ClouderaはCDH 5.2でHive 0.13に対応したものの、Tezをパッケージングしませんでした。 そのため、そのままのCDHではHive on Tezが動きません。 Hive on TezをCDHで動かす方法 Tezはライブラリであるため、CDHのHive 0.13と組み合わせれば動作す

                                                            Hive on Tez を CDH で動かす - Qiita
                                                          • Sqoop User Guide (v1.3.0-cdh3u6)

                                                            Sqoop is a tool designed to transfer data between Hadoop and relational databases. You can use Sqoop to import data from a relational database management system (RDBMS) such as MySQL or Oracle into the Hadoop Distributed File System (HDFS), transform the data in Hadoop MapReduce, and then export the data back into an RDBMS. Sqoop automates most of this process, relying on the database to describe

                                                            • CDH5.4 Hiveでのカラムずれ問題 - イクジニアブログ

                                                              ビールはキリン党のにいやんです。こんばんわ。 一番搾りが好きですが、プリン体がラガーの方が少ないと聞き、ラガーに浮気しようかと・・・ さてさて、先日CDH5.4のアップデート方法を書いて、特に問題なかったぜ!って思ったのですが。 後から大問題が確認されました。。。 なんとHiveのバグを思いっきり踏んでいたらしく、selectした際のカラムずれが起きてました...orz バグは以下のチケットにあがっています。 [HIVE-9613] Left join query plan outputs wrong column when using subquery - ASF JIRA どのようなバグかざっくりいうと、 「left outer joinを繰り返すと、select したのと違うカラムが表示される場合がある」 という、なんとも悲惨なバグです。 すでにチケットはクローズされ、Hive1.2

                                                                CDH5.4 Hiveでのカラムずれ問題 - イクジニアブログ
                                                              • CDH4.2(Hive 0.10)のmetastoreは CDH4.1.x (Hive 0.9) 以前と互換性がなかった件 - たごもりすメモ

                                                                hiveserver が /tmp 下に消されると困るファイルを置く問題、hive 0.10に上げれば直るらしい! と思ったのでうっかり yum update hadoop hive したら Hive 0.10 のmetastoreが Hive 0.9 と非互換なので動かなくなりました。 CDH4.1.x使ってる人はいま yum update すると CDH 4.2 が容赦なくインストールされるので超危険です。気をつけましょう。 ドキュメントを改めて確認にいったらひっそりと書いてありました。 There are no incompatible changes for Hive between CDH4.0 and CDH4.2.0 Redirecting... えー? こちらのblog postによると非互換だと言うんですが。Impalaの話だけど、hive metasotreの話。コメン

                                                                  CDH4.2(Hive 0.10)のmetastoreは CDH4.1.x (Hive 0.9) 以前と互換性がなかった件 - たごもりすメモ
                                                                • Ubuntu 10.04 LTSにsun-java6-jdk+CDH3をインストール - DT日記

                                                                  UbuntuでHadoop(CDH3)を使ってみたいなー、ってときにJavaを入れようとしてJava Development Kit Installation - Cloudera Supportの言ふとほりにしても残念なことになってしまひます。 Java SE Downloadsによると、実はUbuntuコミュニティからパートナーのアーカイブにJavaパッケージについての重要なお知らせなんてアナウンスが出てゐて、2011年12月にリポジトリから削除されちゃったんですね。 つまり、Webで「Ubuntu sun-java6 インストール」とか検索して出てくるサイトで紹介されてるadd-apt-repository "deb http://archive.canonical.com/ RELEASE partner"みたいなコードで導入する方法は全滅してしまひました。なむさん。 Ubuntu

                                                                    Ubuntu 10.04 LTSにsun-java6-jdk+CDH3をインストール - DT日記
                                                                  • CDH3のインストール - wyukawa's diary

                                                                    至る所に書かれてますがメモっとく。環境はMac10.6.7上のVirtualBox4.0.8上のCentOS5.6にCDH3を擬似分散モードでインストールします。ディスク容量はデフォルトの8Gより大きくした方がよさげ。なぜなら後で気軽に増やせないからw 増やすには 可搬性疑似仮想アプライアンスサーバーシステム構想 « Midnightjapan にあるようにLVMをうごうごしないといけません。 ちなみにディスク容量不足の状態でHDFSにデータ突っ込むと could only be replicated to 0 nodes, instead of 1というエラーがでますw ともあれ、インストール方法いきます。 本家の記事はこちら https://ccp.cloudera.com/display/CDHDOC/CDH3+Installation#CDH3Installation-Instal

                                                                      CDH3のインストール - wyukawa's diary
                                                                    • CDH5で擬似分散モードのHadoopクラスタを構築する - TASK NOTES

                                                                      CDH5を使用した擬似分散モードでのHadoopクラスタ構築方法です。ローカルマシンでメモリが少ないと複数のVMを立ち上げて完全分散モードで構築するのは難しいですが、擬似分散モードならVMも一つで済み、少ないメモリで構築することが可能です。 仮想マシン(VM)の用意 VirtualBoxやVagrantを使用してCentOS6をインストールした仮想マシンを用意します。 MacでVirtualBoxにCentOS7をインストールしてSSH接続をするまでの方法 - TASK NOTES MacでVagrantを使用してVirtualBoxに仮想マシンを作成する - TASK NOTES JDKのインストール OracleのJDKをインストールします。 Java Development Kit Installation によるとJDK1.8も対象です。JDKのインストールについての詳細は Cen

                                                                        CDH5で擬似分散モードのHadoopクラスタを構築する - TASK NOTES
                                                                      • Tuning Apache Hive on Spark in CDH | 6.3.x | Cloudera Documentation

                                                                        Minimum Required Role: Configurator (also provided by Cluster Administrator, Full Administrator) Hive on Spark provides better performance than Hive on MapReduce while offering the same features. Running Hive on Spark requires no changes to user queries. Specifically, user-defined functions (UDFs) are fully supported, and most performance-related configurations work with the same semantics. This t

                                                                        • Vagrant で 始める CDH5 (Hadoop) + Hive + Impala 環境構築 - Qiita

                                                                          Hadoop、 Hive、Impala に関する書籍をちょこちょこ読み始めて、手元に実行環境が欲しくなったのでさくっと構築。 必要なもの: メモリ16GB以上積んだ Mac or Linux インストール済みのPC。 以下の記事を参考にしつつテスト環境を作る。 how-to-install-a-virtual-apache-hadoop-cluster-with-vagrant-and-cloudera-manager VirtualBox のインストール 以下から最新版をインストール。 https://www.virtualbox.org/wiki/Downloads Vagrant のインストール 以下から最新版をインストール。 http://www.vagrantup.com/downloads Vagrant によるクラスタ環境構築 ホストのコンソールで次のコマンドを実行。 $ m

                                                                            Vagrant で 始める CDH5 (Hadoop) + Hive + Impala 環境構築 - Qiita
                                                                          • Hadoop 2.0.0-cdh4.7.0

                                                                            Common Overview Single Node Setup Cluster Setup CLI Mini Cluster File System Shell Native Libraries Superusers Hadoop Commands Reference Service Level Authorization HTTP Authentication HDFS HDFS User Guide High Availability With QJM High Availability With NFS Federation HDFS Architecture Edits Viewer Image Viewer Permissions and HDFS Quotas and HDFS HFTP C API libhdfs WebHDFS REST API HttpFS Gatew

                                                                            • CDH4b2におけるWebHDFSとHttpFsについて - たごもりすメモ

                                                                              CDH4b2でWebHDFSとHttpFsについていろいろ試しているので、分かっている内容をまとめてみる。なお注意点だが、各々以下のような状況であることに注意。 WebHDFS たぶんHadoop 1.0ベース HttpFs たぶんHadoop 0.23ベース(あるいは 2.0 alpha ベース) でHoopとは別物 HttpFsはコードとしてはClouderaオリジナルのHoopのものがベースになっているんだろうし、アーキテクチャ自体も同じ(詳しくは以前のエントリを参照のこと)だけど、細かいところがあちこち異なっているので注意が必要。 またCDH4ベースなのでCDH3ベースのものとは特に性能特性が異なる可能性が高い、が、性能特性についてはまた別に。 HTTP API WebHDFSのAPIは年初に確認したときから変わっていない。 HttpFsのHTTP APIはHoopとしてCloud

                                                                                CDH4b2におけるWebHDFSとHttpFsについて - たごもりすメモ
                                                                              • [Hadoop] Cloudera CDH3 -> CDH4のバージョンアップ方法 | 株式会社ケイズ・ソフトウェア

                                                                                こんにちわ!ClouderaManagerの便利さに驚愕している山田(@nii_yan)です。 いやー、ほんとにこれ使ってしまうともう元には戻れないですね。 今までは1台1台がんばって設定変えたり、シェル作ったりしてたのに、 GUIでクリック1発ですから。これは便利だわー。 ただ、最初からClouderaManager使ってしまうと、コマンド覚えられなさそうですが。。。 さてさて、そんなわけで私は現在Hadoopを使用した仕事をしておりまして、 今日はHadoopのバージョンアップ方法を紹介しようと思います。 使用してるのはのはClouderaで、CDH3 -> CDH4のバージョンアップについて 書かせていただこうと思います。 なになに?CDH5が出たじゃないかって?何古い話してるのかって? (∩ ゚д゚) アーアーきこえなーい やっとのことでCDH4にバージョンアップした1カ月後にCD

                                                                                  [Hadoop] Cloudera CDH3 -> CDH4のバージョンアップ方法 | 株式会社ケイズ・ソフトウェア
                                                                                • 完全分散モードのHadoop NameNode導入(Ubuntu10.04、CDH3) | mwSoft

                                                                                  概要 ここでは完全分散モードでHadoopのNameNodeとDataNodeを導入して、分散してデータを保存できるようにしてみます。ClouderaのCDH3を利用。 最低でも2台(できれば3台以上)のパソコンが必要になります。 JobTrackerとTaskTrackerの導入についてはこちら。 利用するPCについて NameNode(HDFS親)はDataNodeがどういった情報を記録しているかをメモリ上に持って管理しています。CPUの性能はそれほど必要ありませんが、メモリが足りなくなるとデータを増やせなくなります。 とは言っても、細かいファイルを大量に生成したりしなければ、512MBも割り当てておけば数十TBのデータを余裕で扱えてしまうので、自宅で使う分にはその辺の安物のPCで十分だったりします。 DataNodeはHDDの容量が多ければそれだけ多くのデータが扱えるようになりますし