タイトル「CDH」を検索 - はてなブックマーク

1 - 40 件 / 113件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

CDHの検索結果1 - 40 件 / 113件

ログ収集、大量データ操作の要、Fluentd、CDHの最新バージョンを知る
- 32 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2014/03/18
ログ収集、大量データ操作の要、Fluentd、CDHの最新バージョンを知る：イベントリポートログ、アクセス解析、インフラ運用 2014年1月23日、アイティメディアにて＠ITが新たに企画した「＠特勉」（＠IT 特集連動勉強会）が開催された。第1回のテーマは「ログ、データ解析、インフラ技術」。濃厚なセッションをかいつまんで紹介する。 2014年1月23日、アイティメディアにて＠ITが新たに企画した「＠特勉」（＠IT 特集連動勉強会）が開催された。第1回のテーマは「ログ、データ解析、インフラ技術」として、ログ収集が行える「Fluentd」やオープンソースのHadoopディストリビューション「CDH」の最新情報や、ソーシャルゲームやWebアクセスにおけるデータ解析手法など、＠ITならではの濃いセッションが多数行われた。その様子を2回に分けて紹介しよう。セッション1：Fluentdの次期バージ
- fluentd
- cdh
- ログ
- server
- 後で読む
- IT
- あとで読む
CDH4 Configurations with YARN, Capacity Scheduler and Hive | 外道父の匠
- 26 users
- blog.father.gedow.net
- テクノロジー
- 2012/09/03
CDH4 Configurations with YARN, Capacity Scheduler and Hive 前回の続きで、私がCDH4で利用している外道式設定ファイルの紹介です。非常に手間暇かけて作成したものなので墓の下まで持って行きたいところですが、某所からの圧力と社会のために、恥ずかしながら放出したいと思います。はじめに言うまでもなく、参考・利用においては自己責任でお願いしますホスト名・ファイルパスは適当に変換してください descriptionの日本語は私のメモですので怪しかったらググってください英文のみの場合はまだ未検証だったり説明するまでもないものになっています 2ヶ月以上これで運用していますが、まだまだ変わると思うので更新日付を書いておきますファイルはUTF-8です Hadoop設定 CDH3からCDH4への設定変更リスト core 公式 core-def
- hadoop
- cdh
- yarn
- config
- HDFS
- *tips
- *あとで
- tips
Hadoop CDH4メモ(Hishidama's Hadoop2.0 CDH4 Memo)
- 23 users
- www.ne.jp
- テクノロジー
- 2012/06/13
CDH4（Cloudera's Distribution including Apache Hadoop v4）のインストールについて。 CDH4の概要 CDH（Cloudera's Distribution including Apache Hadoop）は、Hadoopのディストリビューション。 CDH4はHadoop2.0（旧Hadoop0.23）がベースとなっている。 CDH4のHadoopはMapReduce v1（MRv1）とYARN（MRv2）の二種類ある。 MRv1は従来と同じくJobTrackerやTaskTrackerを使用して動作する。 YARNは新しい方式で、ResourceManager・NodeManager（やApplicationMaster/Container）を使用して動作する。（Hadoop0.23ではインストールは一種類で、パラメーターmapred
- hadoop
- YARN
- インストール
- java
- 開発
- あとで読む
- cdh4
- MRv1
How to convert non-HA NameNode to QJM HA on CDH4 | 外道父の匠
- 21 users
- blog.father.gedow.net
- テクノロジー
- 2013/01/16
CDH3から始めてCDH4.1までアップグレードして利用し続けていますが、この過程でNameNodeの構成は変更せずに運用してきました。当然、CDH4からの公式HA構成に関心はあったのですが、複数の更新を同時に行うと危ないとか、英語マニュアル読むのめんどくせー感からミドルレンジに距離を置いていたところに、もりす先生がトライしてくれて、乗るしかないビッグウェーブ到来。待つべきものは他人の検証とはよく言ったものですなぁ。タイトルはNameNode構成の切り替え、となっていますが、これから新しくQJM HAで組む人にも役に立つ内容となっていますゆえ、私が血反吐を吐いてまとめた情報を是非ご覧くださいませ。リンク CDH4.1におけるクォーラムベースジャーナリング Quorum-Journal Design CDH4.1オーバービュー Software Configuration for Qu
- hadoop
- hdfs
- CDH
- HA
- development
- *あとで
- NameNode
- cdh4
データセンター技術への投資としては「過去最大」：米インテルがクラウデラに出資、Hadoopディストリビューション「CDH」へ統合 - ＠IT
- 21 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2014/03/28
米インテルがクラウデラに出資、Hadoopディストリビューション「CDH」へ統合：データセンター技術への投資としては「過去最大」米インテルは2014年3月27日、Apache Hadoopディストリビューションプロバイダーの米クラウデラ（Cloudera）への出資を発表した。インテルのHadoopディストリビューションは、クラウデラの「Cloudera's Distribution including Apache Hadoop」（CDH）に統合する予定だ。米インテルは2014年3月27日、Apache Hadoopディストリビューションプロバイダーの米クラウデラ（Cloudera）への出資と、広範な戦略提携を発表した。インテルは同社の筆頭戦略株主となり、取締役に就任する。クラウデラへの出資は、インテルがデータセンター技術に行う投資としては過去最大級。Hadoopをベースとするクラウ
- cloudera
- Hadoop
- インテル
- CDH
- intel
- data
DMMのビッグデータ基盤の裏側を大公開！CDHクラスタ移行・Presto導入・Digdag導入により得られた効果とは？ - DMM inside
- 20 users
- inside.dmm.com
- テクノロジー
- 2017/09/11
DMMのビッグデータ基盤の裏側を大公開！CDHクラスタ移行・Presto導入・Digdag導入により得られた効果とは？
- DMM
- あとで読む
CDH (Hadoop) 入門 - MicroAd Developers Blog
- 19 users
- developers.microad.co.jp
- テクノロジー
- 2021/09/21
はじめに初めまして。マイクロアド21年新卒インフラ担当の森( id:bosq )と申します。 7月に新卒研修を終えてからは、基盤開発グループにて日々勉強しています。配属後は新しいことのインプットが多いため、今回は学んだことの整理とアウトプットを兼ねて、マイクロアドのデータ基盤で利用しているHadoopについて紹介したいと思います。はじめに分散処理基盤 Hadoop / CDH とは Hadoop エコシステムデータストレージ (HDFS) とリソース管理 (YARN) HDFS (Hadoop Distributed File System) YARN (Yet Another Resource Negotiator) ノードの役割分散処理エンジン (MapReduce, Tez, Spark) MapReduce Apache Tez Apache Spark クエリエンジ
CDH4 NameNode HA (QJM)でクラスタ構成 - たごもりすメモ
- 18 users
- tagomoris.hatenablog.com
- テクノロジー
- 2012/12/27
CDH4と延々格闘してたが、ようやくひととおり設定が終わったのでまとめ。特にNameNode HA QJM版はドキュメントもけっこうグチャグチャで何をどうすればいいのかの把握が困難だった。また Auto Failover は設定するとマトモに動かなかったので無効にした。そのうち調べてもいいけど、実運用上も特に要らなそうだし、まあいいかな、と。で、手順と設定のポイントについていくつか。なおNameNode Federationは使ってないので知らん。使うならクラスタ名の指定とかに影響があるはず。セットアップ順序基本的にはこのドキュメントを読む。 Redirecting... が、通常のセットアップとの関係やどういう順序で全体を進行すればいいかがいまいちちゃんと書いてなくて不明なところが多い。簡単に概要をまとめると以下のようになる。パッケージ名はyumでのものなので適当に読み替えを。
- hadoop
- hdfs
- *あとで
- あとでみる
- namenode
CDH4説明会に行って参りました。 - 急がば回れ、選ぶなら近道
- 18 users
- okachimachiorz.hatenablog.com
- テクノロジー
- 2012/07/08
CDH4説明会に行って参りました。日時：2012年7月6日（金）場所：ベルサール八重洲タイトル：進化するHadoop：CDH4とCloudera Enterprise4.0のご紹介アジェンダは以下の通り。 18:30 開場 19:00 開会のご挨拶（ジュゼッペ小林さん） 19:10 CDH4とCloudera Enterprise4.0（川崎さん）〜エンタープライズにおけるHadoopの標準〜 19:50 CDH4はなぜエンタープライズに適しているのか（嶋内さん）〜新しく導入された技術から読み解く〜 20:30 懇親会 21:00 閉会以下、内容と感想をまとめておきます。スライドはあとで上がるそうなので、セミナーの詳細はそちらを参考にした方がよろしいかと。あとはメモも上げられているので、こちらを見ると詳細がわかるかと。 http://d.hatena.ne.jp/gara
CDHの歴史とCDH5新機能概要 #at_tokuben
- 17 users
- www.slideshare.net/Cloudera_jp
- テクノロジー
- 2014/01/23
＠特勉（＠IT 特集連動勉強会）で発表させていただきました、CDH5についての資料です。 http://atnd.org/events/46924
- hadoop
- cdh
Clouderaの品質保証・CDHのテスト工程について by Andrew bayer
- 17 users
- www.slideshare.net/Cloudera_jp
- テクノロジー
- 2012/08/01
2012/7/31に実施したCloudera QAセミナーより「Clouderaの品質保証 CDHのテスト工程について」 Cloudera Kitcen team / Andrew Bayer
- hadoop
- cloudera
- テスト
- testing
- test
稼働中のCDHクラスタからCloudera Managerに移行した話 - Qiita
- 13 users
- qiita.com/s_wool
- テクノロジー
- 2014/12/12
こちらはSpark, SQL on Hadoop etc. Advent Calendarの12日目ですはじめに Cloudera ManagerはCloudera社が提供するHadoop（CDH）クラスタをGUIで管理・監視ができるアプリケーションです。（以下一部Cloudera Manager = CMと略します）職場にて元々CDH4.3を利用してHadoopクラスタを運用していたのですが運用が2-3名障害時に停止や再起動の手順を把握している人そのくらい（ドキュメントは一部用意してあるが…）日々の運用や開発に手一杯で監視が甘い GangliaとCloudForecastとNagiosなど組み合わさってとっちらかる時々とんでもない値を設定しててハマるなどなどありまして、「もうちょい楽して開発に集中したい」というモチベーションが高まりCloudera Managerを採用し
- hadoop
- CDH
- Cloudera
NTTデータ、Hadoopの商用ディストリビューション「CDH3」を販売開始 - ニュース：ITpro
- 13 users
- xtech.nikkei.com
- テクノロジー
- 2011/05/30
NTTデータは2011年5月30日、オープンソースソフトウエア（OSS）の分散バッチ処理ソフト「Hadoop」の商用ディストリビューション「Cloudera's Distribution including Apache Hadoop v3（CDH3）」の販売を、6月2日に開始すると発表した。価格は1ノード当たり年額25万円からで、5ノードから販売する。 NTTデータは2010年10月に、CDH3の開発元である米クラウデラと提携している。CDH3は、米アパッチソフトウエア財団が管理するHadoopのディストリビューションに対して、クラウデラによる機能追加や品質強化を加えたディストリビューションである。また、Hadoopを活用するために必要となるシステム連携ツールなどがパッケージ化してある。 CDH3が含むツールとしては、リレーショナルデータベース管理システム（RDBMS）のデータをHado
- Hadoop
- cloud
- share
- article
Clouderaトレーニングコース受講者向けCDH4説明会でとったメモを公開しよう - #garagekidztweetz
- 12 users
- garagekidztweetz.hatenablog.com
- テクノロジー
- 2012/07/07
ツイートSource: cloudera.com via garage-kid on Pinterest Clouderaトレーニングコース受講者向けCDH4説明会にお呼ばれしたので、行って参りました。今日はそのときわたしがとったメモを公開しようと思います。〜Clouderaトレーニングコース受講者様向けCDH4説明会概要〜 ▼　日時：2012年7月6日（金） ▼　会場：ベルサール八重洲 3階ルーム４ (http://www.bellesalle.co.jp/bs_yaesu/access.html) ▼　タイトル：進化するHadoop：CDH4とCloudera Enterprise4.0のご紹介 Cloudera のトレーニングを受けた人に対するインセンティブのようなものとして開催された催しでした。雨の中にも関わらず、50名近い参加者があったことは正直にすごいな、とわたしは思
- Cloudera
- Hadoop
- CDH
- Event
- イベント
完全分散モードのHadoop JobTracker導入（Ubuntu10.04、CDH3） | mwSoft
- 11 users
- www.mwsoft.jp
- テクノロジー
- 2011/12/02
概要今回はJobTrackerとTaskTrackerの導入を行ないます。ClouderaのCDH3を利用。本項を実行するにはNameNodeとDataNodeが稼動している必要があります。また、最低でも2台（できれば3台以上）のパソコンが必要になります。 NameNodeとDataNodeのインストールについては下記を参照してください完全分散モードのHadoop NameNode導入（Ubuntu10.04、CDH3）今回やること NameNode導入の項で、NameNode（HDFS親）とDataNode（HDFS子）が動いている状態ができました。導入済みの構成親 : NameNode 子 : DataNode 今回はNameNodeが入っているマシンでJobTracker（MapReduce親）を、DataNodeが入っているマシンでTaskTracker（MapRedu
- hadoop
HadoopのCDH4で完全分散環境構築した - もち日記
- 11 users
- motimottin.hatenadiary.org
- テクノロジー
- 2013/10/25
基本的には、Clouderaの http://www.cloudera.com/content/support/en/documentation/cdh4-documentation/cdh4-documentation-v4-latest.html ここにある、ドキュメントにそってやっただけ。意外とすんなりできました。英語のドキュメントしかねぇから、英語の勉強もかねて和訳したのをどっかで公開するのもありかと思ったけど著作権的にアウトだった。。。閑話休題 HDFS、MapReduce、HBaseが動くまでの手順をまとめてみる。この記事に全部詰め込む予定だから、だいぶ長くなるかも。マシン構成は、マスタ1台、スレーブ2台。 NameNodeHA試すために、この後、マスタを1台追加する予定だけどそれはまた別のお話。まずはネットワーク周りの設定。ホスト名の設定 # hostna
- hadoop
- java
- 開発
CDH4でHiveServerを使う際の注意点 - たごもりすメモ
- 11 users
- tagomoris.hatenablog.com
- テクノロジー
- 2013/03/05
CDHでHadoopを使っている良い子のみんな、hiveserverまわりで罠があるので気をつけましょう！という話。ふたつあるので順番に。 hive-server 再起動時にログがtruncateされる hiveserverがなんかおかしかったりすると、原因究明はやるとしてとりあえず再起動、という運用をしてしまう気持ちはよくわかります。が、やってしまうとその日の分のログが消える(！)ので注意が必要だ。原因は /etc/init.d/hive-server *1の hive_start() 中の以下の部分。 log_success_msg "Starting $desc (${NAME}): " $SU -c "cd $HIVE_HOME ; $exec_env nohup \ $EXE_FILE --service $service_name $PORT \ > $LOG_FILE 2
- hadoop
- cdh
- hive
- service
cdh-twitter-exampleで遊ぶ
- 11 users
- kmizumar.blogspot.com
- テクノロジー
- 2013/12/13
この記事はHadoop Advent Calendar 2013, 13日目のエントリです。ブログなんざ書いたことないので勝手が良く分かりませんが@sudabonさん@kernel023さんのお前も何か書けやコラという圧力に負けてBloggerにページを用意してみました。 Hadoopの利用目的としてデータの分析に取り組んでいる、もしくはこれから取り組もうとしているユーザは多いのではないかと思います。中でもログ分析と並んでソーシャルメディアの分析は各社が積極的に取り組もうとしているテーマであり、私が勝手にTwitter分析3部作と呼んでいる以下のブログを読まれた方も多いのではないでしょうか： http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/ http://blog.cloudera.com/b
- hadoop
- cloudera
- HBase
- twitter
CDH5対応のSparkをビルドする方法 - nobusueの日記
- 10 users
- nobusue.hatenablog.com
- テクノロジー
- 2014/12/06
このエントリはSpark, SQL on Hadoop etc. Advent Calendar 2014 - Qiitaの12/6担当分です。 CDH5対応のSparkバイナリはどこに? Sparkアプリケーションの開発を行っていると「Hadoopクラスタに接続してxxする」というケースがあると思います。いちいちアプリケーションのJARをアップロードするのは面倒なので、できれば「手元のマシン(Macとか)からリモートのHadoopクラスタに接続してxx」したいところです。しかし、Hadoopエコシステムのプロダクトはライブラリの依存関係がシビアなため、バージョンやディストリビューションが異なると接続できないことが多いです。(しかも状況によって発生するエラーが異なるので原因究明が大変です。特に、自分のようにHadoopの経験が浅い人間は素直にディストリビューションの標準構成に従っておいた
Notes of upgrading from CDH4.1 to CDH4.4 | 外道父の匠
- 10 users
- blog.father.gedow.net
- テクノロジー
- 2013/09/11
ついつい CDH4.1 から CDH4.4 にアップグレードしてしまいましたので、手順を省いて注意点などを記しておきます。機能的には What’s New in CDH4.4.0 まで見てもメリットよりリスク不安の方が高いのですが、Hadoop新担当者の運用鍛錬という名目でゴリッとやってもらって、私はその後ろで煽ってました。手順について How to upgrade from CDH4.0 to CDH4.1 for Debian | 外道父の匠と流れは同じで、ジョブを止めて Hadoopを止めてアップグレードして Hiveメタストアを更新して再開して動作確認する（ログ保存／ジョブ）だけなので難しいことは特にありません。 QJM HAも特になにもなかったです。なので、細かいメモだけ書いておきます。 NameNode WARNログ挙動に支障はないのですが、読み書き両方ともに
- hadoop
CDH ってどうなの？を知るために「Hadoopエンタープライズソリューションセミナー」に行ってきた - #garagekidztweetz
- 9 users
- garagekidztweetz.hatenablog.com
- テクノロジー
- 2011/06/03
ツイートCloudera’sDistribution including Apache Hadoop Cloudera’sDistribution including Apache HadoopThe most popular way to adopt Apache Hadoop in the enterprise. Hear from Doug Cutting on Cloudera’s Distribution including Apache Hadoop An open system… …simplified for use in trial or production …proven at scale in the enterprise …designed to work with your preexisting investments 今日は、 CDH (上述)に関する理解を
- hadoop
- Cloudera
- report
- event
- business
hadoop アドベントカレンダー 2011 1日目 CDH hadoop/hive/hbase を eclipse プロジェクトとしてインポートする - 科学と非科学の迷宮
- 9 users
- shiumachi.hatenablog.com
- テクノロジー
- 2011/12/01
hadoop アドベントカレンダー 2011、1日目及びその他空いているところ全部を担当する @shiumachi です。最初はサポートの話を書こうと思ったのですが、せっかくのアドベントカレンダーの初日なので少しだけ技術的なことを書くことにします。あと最初に断っておきますが、私の書く記事は基本的に全て CDH ベースです。 (バージョンは CDH3u2) 今日は eclipse プロジェクトへのインポート方法を紹介します。ドキュメント化されてるようで実はされてないっぽいので備忘録代わりに記載します。ファイルのダウンロード、展開ここから DL してください。 hadoop の場合は hadoop-0.20.2-cdh3u2.tar.gz です。展開は普通に tar xf してください。 ant の実行 ant eclipse-files と叩いてください。すぐに終わります。 ec
- hadoop
- eclipse
CDHとApache Spark
- 9 users
- linux.wwing.net
- テクノロジー
- 2013/10/28
CDH(Cloudera’s Distribution including Apache Hadoop)にApache Sparkが仲間入り本日Clouderaから公開されたプレスリリース（英語）によると、ClouderaとDataBricksがパートナー提携し、CDHにApache Sparkがサポートされるようになるとのことです。（更新）日本語のプレスリリースが出ています。 Cloudera、新たなパートナープログラムCloudera Connect：Innovatorsを発表〜ハイスピードデータアナリティクスのためDatabricks社とタイアップし、Sparkをサポート〜 Apache SparkはMapReduceを使用せずに分散処理を行う仕組みです。詳しい資料（Spark/Shark）が @oza_x86さんから公開されています。この資料をご覧になれば、下記は読む必要あ
米国籍を取得して日本に帰国は得策か？ - CDH
- 9 users
- www.cdhcpa.com
- 政治と経済
- 2022/01/02
「トク」する永住権者の税務知識この記事の目的は、米国の長期永住者がCovered Expatriateの判定を嫌ったために、永住権の放棄をせずに、米国市民権を取得して日本に永久帰国した場合に、考えないといけない点を列記してみました。 1. 背景永住権を放棄すると「特定された出国者」（Covered Expatriate）になり、出国税を払ったり、適格年金を受け取る際に3割、強制的に米国の所得税を源泉されて、毎年フォーム8854をIRSに提出しないといけない。それなら米国籍を取得して、日本に住めば良いと考える人が最近増えています。通常米国籍は、永住権を5年間以上維持していれば取得権利が生じます。Covered Expatriateに判定される人は、米国市民権を取得する権利もあるのです。 2. 日本の国籍法国籍法十一条一項は「日本国民は、自己の志望によって外国の国籍を取得したときは、日
- US
CDH4にいったん挫折した - たごもりすメモ
- 9 users
- tagomoris.hatenablog.com
- テクノロジー
- 2012/05/16
CDH3で使ってる設定ファイル群を基本的にそのまま(ノードリストなどだけ書き換え)でCDH4の検証クラスタを作ろうとしてみた。ら、以下のような事情でいろいろ面倒くさかったのでいったん挫折したのが本日あったこと。使う環境変数がいろいろ変わってる YARN_HOGE とか HDFS_HOGE みたいなのを使うようになっている基本的には HADOOP_CONF_DIR などから組み立てるようになっているただしその処理は libexec/hadoop-config.sh で行われる $HADOOP_CONF_DIR/hadoop-config.sh を自分で用意して使っている場合は libexec/hadoop-config.sh が読まれないので新しい変数の組み立てができないこのため各種の環境変数がセットされずいろいろコケるたいへん困った。設定ファイル群をイチから作り直す覚悟が必要な
- hadoop
How to upgrade from CDH3 to CDH4 for Debian | 外道父の匠
- 9 users
- blog.father.gedow.net
- テクノロジー
- 2012/08/31
イベント２つを経て、何から書くか迷うところですが、先に @tagomoris との約束を果たすためにCDH3からCDH4への具体的なアップグレード手順を紹介します。この約束を果たすと、@ryu_kobayashi が Huahin Framework をCDH4対応してくれるというパーフェクトフローになっておりますが、JobTrackerがResourceManagerになってるので大変そうですね！はじめに公式 CDH4 Installation Upgrading from CDH3 to CDH4 Deprecated Properties 過去記事 Upgrade CDH3 to CDH4 注意点その１ Upgrade CDH3 to CDH4 注意点その２ OSについて Debian Squeeze です。LennyにはCDH4は存在しませんし、無理矢理もほぼ不可能です。 C
- CDH
- hadoop
VirtualBoxとCDH5でお手軽Apache Spark検証環境の構築 - データサイエ「ソ」ティストは語る
- 9 users
- datasciesotist.hatenablog.jp
- テクノロジー
- 2014/08/30
ということで、実際には1台のコンピュータ上なうえ、仮想化のオーバーヘッドもあるので「分散並列」で「高速」な処理はできないのだけど、動作検証ができる環境の作り方。前提仮想マシンホスト CPU: Intel Core i7 4770（8コア）メモリ: 24GB OS: Windows 7 Professional VirtualBox: 4.3.10 r93012 ゲストOS: CentOS 6.5 64bit もっとも、上記の環境はあくまで手元がそうだから、というだけで、VirtualBoxは最新版をインストールすればよいし、ゲストOSもCDHがインストールできるならUbuntuでもSLES（Suse）でもなんでもよい。 VirtualBoxで仮想マシンを作成 CDH5*1をインストールし、Sparkを動かすための仮想マシンを作る。CPU4コア、メモリ8GBを割り振る。ディスクは80G
- hadoop
- spark
- install
- Apache
Hive on Tez を CDH で動かす - Qiita
- 8 users
- qiita.com/adachij2002
- テクノロジー
- 2014/12/07
TezとはまずはTezの説明です。 TezはYARN上で動作するバッチ処理用のフレームワークで、Hortonworksが主導して開発しています。 Tezに近い位置付けのものには、リアルタイム処理用のSliderがあります。 HortonworksはSliderの上でStormを動かすことを計画しています。 Hive on Tezとは Hive on Tezは、上記のTezの上でHiveを動かすものです。 Hive 0.13からTez対応のパッチが入っていて、動かす準備はできています。しかし、ClouderaはCDH 5.2でHive 0.13に対応したものの、Tezをパッケージングしませんでした。そのため、そのままのCDHではHive on Tezが動きません。 Hive on TezをCDHで動かす方法 Tezはライブラリであるため、CDHのHive 0.13と組み合わせれば動作す
- Tez
- cdh
- hadoop
- Hive
- あとで読む
Sqoop User Guide (v1.3.0-cdh3u6)
- 8 users
- archive.cloudera.com
- テクノロジー
- 2011/03/19
Sqoop is a tool designed to transfer data between Hadoop and relational databases. You can use Sqoop to import data from a relational database management system (RDBMS) such as MySQL or Oracle into the Hadoop Distributed File System (HDFS), transform the data in Hadoop MapReduce, and then export the data back into an RDBMS. Sqoop automates most of this process, relying on the database to describe
CDH5.4 Hiveでのカラムずれ問題 - イクジニアブログ
- 8 users
- nii-yan.hatenablog.com
- テクノロジー
- 2015/06/15
ビールはキリン党のにいやんです。こんばんわ。一番搾りが好きですが、プリン体がラガーの方が少ないと聞き、ラガーに浮気しようかと・・・さてさて、先日CDH5.4のアップデート方法を書いて、特に問題なかったぜ！って思ったのですが。後から大問題が確認されました。。。なんとHiveのバグを思いっきり踏んでいたらしく、selectした際のカラムずれが起きてました...orz バグは以下のチケットにあがっています。 [HIVE-9613] Left join query plan outputs wrong column when using subquery - ASF JIRA どのようなバグかざっくりいうと、「left outer joinを繰り返すと、select したのと違うカラムが表示される場合がある」という、なんとも悲惨なバグです。すでにチケットはクローズされ、Hive1.2
- hive
CDH4.2(Hive 0.10)のmetastoreは CDH4.1.x (Hive 0.9) 以前と互換性がなかった件 - たごもりすメモ
- 7 users
- tagomoris.hatenablog.com
- テクノロジー
- 2013/03/05
hiveserver が /tmp 下に消されると困るファイルを置く問題、hive 0.10に上げれば直るらしい！と思ったのでうっかり yum update hadoop hive したら Hive 0.10 のmetastoreが Hive 0.9 と非互換なので動かなくなりました。 CDH4.1.x使ってる人はいま yum update すると CDH 4.2 が容赦なくインストールされるので超危険です。気をつけましょう。ドキュメントを改めて確認にいったらひっそりと書いてありました。 There are no incompatible changes for Hive between CDH4.0 and CDH4.2.0 Redirecting... えー？こちらのblog postによると非互換だと言うんですが。Impalaの話だけど、hive metasotreの話。コメン
Ubuntu 10.04 LTSにsun-java6-jdk+CDH3をインストール - DT日記
- 7 users
- dt.hateblo.jp
- テクノロジー
- 2012/03/18
UbuntuでHadoop(CDH3)を使ってみたいなー、ってときにJavaを入れようとしてJava Development Kit Installation - Cloudera Supportの言ふとほりにしても残念なことになってしまひます。 Java SE Downloadsによると、実はUbuntuコミュニティからパートナーのアーカイブにJavaパッケージについての重要なお知らせなんてアナウンスが出てゐて、2011年12月にリポジトリから削除されちゃったんですね。つまり、Webで「Ubuntu sun-java6 インストール」とか検索して出てくるサイトで紹介されてるadd-apt-repository "deb http://archive.canonical.com/ RELEASE partner"みたいなコードで導入する方法は全滅してしまひました。なむさん。 Ubuntu
- ubuntu
- java
- Android
CDH3のインストール - wyukawa's diary
- 7 users
- wyukawa.hatenablog.com
- テクノロジー
- 2011/08/26
至る所に書かれてますがメモっとく。環境はMac10.6.7上のVirtualBox4.0.8上のCentOS5.6にCDH3を擬似分散モードでインストールします。ディスク容量はデフォルトの8Gより大きくした方がよさげ。なぜなら後で気軽に増やせないからw 増やすには可搬性疑似仮想アプライアンスサーバーシステム構想 « Midnightjapan にあるようにLVMをうごうごしないといけません。ちなみにディスク容量不足の状態でHDFSにデータ突っ込むと could only be replicated to 0 nodes, instead of 1というエラーがでますw ともあれ、インストール方法いきます。本家の記事はこちら https://ccp.cloudera.com/display/CDHDOC/CDH3+Installation#CDH3Installation-Instal
- Hadoop
CDH5で擬似分散モードのHadoopクラスタを構築する - TASK NOTES
- 7 users
- www.task-notes.com
- テクノロジー
- 2015/06/21
CDH5を使用した擬似分散モードでのHadoopクラスタ構築方法です。ローカルマシンでメモリが少ないと複数のVMを立ち上げて完全分散モードで構築するのは難しいですが、擬似分散モードならVMも一つで済み、少ないメモリで構築することが可能です。仮想マシン（VM）の用意 VirtualBoxやVagrantを使用してCentOS6をインストールした仮想マシンを用意します。 MacでVirtualBoxにCentOS7をインストールしてSSH接続をするまでの方法 - TASK NOTES MacでVagrantを使用してVirtualBoxに仮想マシンを作成する - TASK NOTES JDKのインストール OracleのJDKをインストールします。 Java Development Kit Installation によるとJDK1.8も対象です。JDKのインストールについての詳細は Cen
Tuning Apache Hive on Spark in CDH | 6.3.x | Cloudera Documentation
- 7 users
- docs.cloudera.com
- テクノロジー
- 2016/04/11
Minimum Required Role: Configurator (also provided by Cluster Administrator, Full Administrator) Hive on Spark provides better performance than Hive on MapReduce while offering the same features. Running Hive on Spark requires no changes to user queries. Specifically, user-defined functions (UDFs) are fully supported, and most performance-related configurations work with the same semantics. This t
- spark
- hive
Vagrant で始める CDH5 (Hadoop) + Hive + Impala 環境構築 - Qiita
- 7 users
- qiita.com/Salinger
- テクノロジー
- 2014/11/05
Hadoop、 Hive、Impala に関する書籍をちょこちょこ読み始めて、手元に実行環境が欲しくなったのでさくっと構築。必要なもの: メモリ16GB以上積んだ Mac or Linux インストール済みのPC。以下の記事を参考にしつつテスト環境を作る。 how-to-install-a-virtual-apache-hadoop-cluster-with-vagrant-and-cloudera-manager VirtualBox のインストール以下から最新版をインストール。 https://www.virtualbox.org/wiki/Downloads Vagrant のインストール以下から最新版をインストール。 http://www.vagrantup.com/downloads Vagrant によるクラスタ環境構築ホストのコンソールで次のコマンドを実行。 $ m
- hadoop
Hadoop 2.0.0-cdh4.7.0
- 7 users
- archive.cloudera.com
- テクノロジー
- 2012/04/25
Common Overview Single Node Setup Cluster Setup CLI Mini Cluster File System Shell Native Libraries Superusers Hadoop Commands Reference Service Level Authorization HTTP Authentication HDFS HDFS User Guide High Availability With QJM High Availability With NFS Federation HDFS Architecture Edits Viewer Image Viewer Permissions and HDFS Quotas and HDFS HFTP C API libhdfs WebHDFS REST API HttpFS Gatew
- hadoop
CDH4b2におけるWebHDFSとHttpFsについて - たごもりすメモ
- 7 users
- tagomoris.hatenablog.com
- テクノロジー
- 2012/06/04
CDH4b2でWebHDFSとHttpFsについていろいろ試しているので、分かっている内容をまとめてみる。なお注意点だが、各々以下のような状況であることに注意。 WebHDFS たぶんHadoop 1.0ベース HttpFs たぶんHadoop 0.23ベース(あるいは 2.0 alpha ベース) でHoopとは別物 HttpFsはコードとしてはClouderaオリジナルのHoopのものがベースになっているんだろうし、アーキテクチャ自体も同じ(詳しくは以前のエントリを参照のこと)だけど、細かいところがあちこち異なっているので注意が必要。またCDH4ベースなのでCDH3ベースのものとは特に性能特性が異なる可能性が高い、が、性能特性についてはまた別に。 HTTP API WebHDFSのAPIは年初に確認したときから変わっていない。 HttpFsのHTTP APIはHoopとしてCloud
[Hadoop] Cloudera CDH3 -> CDH4のバージョンアップ方法 | 株式会社ケイズ・ソフトウェア
- 6 users
- keis-software.com
- テクノロジー
- 2014/04/18
こんにちわ！ClouderaManagerの便利さに驚愕している山田(@nii_yan)です。いやー、ほんとにこれ使ってしまうともう元には戻れないですね。今までは１台１台がんばって設定変えたり、シェル作ったりしてたのに、 GUIでクリック１発ですから。これは便利だわー。ただ、最初からClouderaManager使ってしまうと、コマンド覚えられなさそうですが。。。さてさて、そんなわけで私は現在Hadoopを使用した仕事をしておりまして、今日はHadoopのバージョンアップ方法を紹介しようと思います。使用してるのはのはClouderaで、CDH3 -> CDH4のバージョンアップについて書かせていただこうと思います。なになに？CDH5が出たじゃないかって？何古い話してるのかって？ (∩ ﾟдﾟ) アーアーきこえなーいやっとのことでCDH４にバージョンアップした１カ月後にCD
- hadoop
完全分散モードのHadoop NameNode導入（Ubuntu10.04、CDH3） | mwSoft
- 6 users
- www.mwsoft.jp
- テクノロジー
- 2012/07/14
概要ここでは完全分散モードでHadoopのNameNodeとDataNodeを導入して、分散してデータを保存できるようにしてみます。ClouderaのCDH3を利用。最低でも2台（できれば3台以上）のパソコンが必要になります。 JobTrackerとTaskTrackerの導入についてはこちら。利用するPCについて NameNode（HDFS親）はDataNodeがどういった情報を記録しているかをメモリ上に持って管理しています。CPUの性能はそれほど必要ありませんが、メモリが足りなくなるとデータを増やせなくなります。とは言っても、細かいファイルを大量に生成したりしなければ、512MBも割り当てておけば数十TBのデータを余裕で扱えてしまうので、自宅で使う分にはその辺の安物のPCで十分だったりします。 DataNodeはHDDの容量が多ければそれだけ多くのデータが扱えるようになりますし
- hadoop