データを信頼し、AI を信頼する 信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。
wyukawaさんがデータ分析環境について書いていましたが、全部 CDH を使えば実現可能なので便乗して書いておこうと思います。 1. ETL 処理 CDH なら以下のツールがあります。 Sqoop RDBMS / DWH などに対するインポート・エクスポートツール。最近日本語の本も出版されたので皆さん買ってください。 Hue を使えば Web ブラウザ上から設定できます。デモビデオはこちら。 Pig Hive の影に隠れがちなクエリ言語ですが、特に ETL として使う場合は書きやすいです。中身は MapReduce。Java はもちろん、Python、Javascript、Ruby、そしてGroovyでUDFが書けるのが特徴。HCatalog というツールのおかげで Hive 同様スキーマを扱えるようになりました。 Hue を使えば Web ブラウザ上から実行できます。デモビデオはこちら
2012/11/7に開催されたCloudera World Tokyoに参加してきました。 本編については他の人がまとめてくれるはずですので省略。 懇親会では米国Cloudera社のCTO、Dr. Amr Awadallah氏に直接Impalaの疑問に答えていただきました。非常に貴重な話を聞けたのでまとめておきます。(公開許可済み) その場でメモを取っていたわけではなく思い出しながらのまとめなので、一緒に聞いていた方、clouderaの方は補足をお願いします。 Q&A Q. なぜJavaでなくてC++で実装したか? A. ImpalaのメインデザイナーがGoogleでC++を使って分散処理(Dremelのこと?)を実装した人物であるのと、JVMの起動コストがレイテンシーの増加につながるため 補足: この人でしょうか Q. 1ノードに偏ったデータを読む必要があるクエリがくると低レイテンシーを
Cloudera World Tokyo(2012年11月7日開催) on Zusaar 思えばHadoopの技術イベントってだいぶ久し振りだった。スーツの人向けなのかなーと思いつつなんとなく参加してみたらやっぱりスーツの人が多かったし、内容もそういう話が多くてちょっと辟易……。 しかけてたら、CDH4.1の話に色々思うところがあったので収穫だったのと、Impalaの技術的な詳細がねーなーというのが懇親会でくつがえったのが素晴しかった。懇親会に絶大な価値があった*1 大部分の内容は割と初心者向けの話&Clouderaの宣伝&ビッグデータ()&事例紹介だったのでパス。 CDH4.1 CDH4は色々中途半端だなと思ってたけど、CDH4.1になって良さそうな感じになってた。 Namenode HAが共有ストレージに依存しない形で実現したこと 思ってたよりずっと早くこの状態になった、しばらく来ない
これに、行きました。 Cloudera World Tokyo | Cloudera Japan で、感想です。。 実は、あんまりない。。 (´・ω・`) 嶋内 翔さんのコマは、情報の整理にとても良かったので、スライド期待な感じ。。 で、タメになったのは、懇親会でした。 すげー、遠くて、途中で一人ならへこたれそうな所を、モヒカンの中に囲まれて とぼとぼ、いったかいがありました。 モヒカンさんが、くわしく、かいてます。 Cloudera World Tokyoにいってきた - たごもりすメモ http://www.chopl.in/blog/2012/11/07/impala-q-and-a/ で、普通のおじさんの、個人の感想。。 CDH 5 まで、待ちます。 5 出た時、この話を思い出して、どう、思うかが、楽しみ!(ムフフ) Impala 試してみます。 すぐにかどうかは、わからないけど。
cloudera hadoop hbase impala spark kudu machine learning big data data science solr yarn apache hadoop hue hive cdh database deploy iot data engineer cloudera director cloud security hbase_ca_20150202 kafka cloudera manager hdfs cloudera search bigdata cdh5 構築 運用 cloudera manager4 cdh4 data warehouse dwh cdsw supportability dbts2018 parquet support production cwt2017 usecase ai sdx pci-dss data ma
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く