Unified governance for all data, analytics and AI assets
昨日書いたSpark and YARNで、下記のようなことを書いたので少し検証してみた。 YARNで強化するSparkのセキュリティ対策 Spark自体が提供するセキュリティ対策のほかに、YARNのCapacity Schedulerを使うことによって、RMに対してアプリケーション登録時に認証をかけることができるようになる。ちょっと時間切れになってきたので、詳細はまたあとで追記。 YARNのスケジューラが持つキュー YARNのCapacity SchedulerとFair Schedulerはアプリケーションの登録を受け付けるキューをもっており、これらはUNIXユーザー/グループベースのACLを掛けることができる。このことによりSparkアプリケーションを実行するユーザーごとにアプリケーションの登録可否を制御できる。Capacity Schedulerの場合、複数のキューを持つことができる
2015/5/21 Hadoopソースコードリーディング 第19回におけるリクルートテクノロジーズ堀越による発表資料になりますRead less
はじめに iQONでは、アイテムのレコメンドといった大規模データの計算が必要な際には、Spark の MLlib という機械学習のライブラリを使っていますが、その際に Google Cloud Platform (GCP) のマネージド Hadoop & Spark サービスである Dataproc で計算を行っています。 本記事では、実際に業務で使ってみた上で、Dataproc にどのような特徴があり、他の類似サービスと比べてどのようなメリットがあるか、また利用する際にどのような点に気をつけるべきか、といった点について説明したいと思います。 Dataproc とは? Dataprocは、Hadoop & Saprk のマネージド サービスです。類似サービスとしては、AWS の Elastic MapReduce (EMR) や Azure の HD Insight がありますが、それらの
2. はじめに Apache Hive の実行エンジンとして Spark に 対応する機能が開発中 [HIVE-7292] Hive on Spark - ASF JIRA https://issues.apache.org/jira/browse/HIVE-7292 2014-06-25 に Hive on Spark の設計指針など が, Cloudera 社の Xuefu Zhang らによって 公開された
Hive on Spark (on CDH5.4) ※Hive on Sparkはテクノロジープレビュー扱いです。現時点ではサポート対象外なのでご注意を。 CDH5.4に含まれているHiveはHive 1.1です。このバージョンのHiveから、Hiveの実行エンジンとしてSparkが利用できるようになりました。(Hive on Spark [1][2]) [1] https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started [2] https://issues.apache.org/jira/browse/HIVE-7292 ドキュメントも発見したので早速試してみます。 http://www.cloudera.com/content/cloudera/en/documentation/co
ほぼ二ヶ月前になりますが、先日オライリー様から刊行された初めてのSparkの出版記念イベントがありました。 私も当日参加し、公開するまでもないと思い死蔵していたメモがありましたが、最近先ほどの本を読み始め自分の中でのSpark熱が盛り上がっているため、公開することにしました。 プログラム 「初めてのSpark」刊行のご挨拶 Sky株式会社 玉川竜司氏 Spark活用事例とロードマップ(仮) Cloudera Inc. Jairam Ranganathan氏 Sparkコミュニティに飛び込もう! 株式会社NTTデータ 猿田浩輔氏 初めてのSparkStreaming 〜Kafka+SparkStreamingの紹介〜 株式会社DMM.comラボ 田中裕一氏 Spark、AMPLab、および周辺のビッグデータ基盤 日本電気株式会社 中台慎二氏 MLlib, mahoutの協調フィルタの比較 株
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く