[B! spark] akihito104のブックマーク

Cloudera Standard のご案内 ~ 無償版大幅機能強化のお知らせ | Cloudera Japan

データを信頼し、AI を信頼する信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。

akihito104 2015/01/14

Spark関連セッションを聞きに行ったのに全部最後の枠にまとまっていて一つしか聞けなかったという鬼畜タイムテーブルだったので資料が出るのはとても嬉しい

リンク

Apache Sparkで始めるお手軽リアルタイムウインドウ集計 | NTTデータ先端技術株式会社

バッチを高速にした後はリアルタイムの世界へ！現在、さまざまな業種の企業でビッグデータ分析の取り組みが行われている。ビッグデータへの最初の取っ掛かりは、既存のバッチ処理の高速化や、大量の業務データを用いた分析レポートの作成という企業が多いことだろう。そして、バッチ処理の高速化が一段落した次のステップとして、「リアルタイム処理」をテーマに掲げる企業も多いかと思われる。具体的には、直近10秒間のトラフィックを集計したい。直近10分間で自社商品がTwitterで話題になった回数を知りたい。直近10時間での全店舗での来客数を集計したい。といったリアルタイムなモニタリングを実現したくなるのではないだろうか？こういったモニタリング用の集計は、技術的には「ウインドウ集計（Time-Window Operation）」と呼ばれる。そこで本コラムでは、近頃、「ポストHadoop」として話題のApac

akihito104 2014/11/27

spark

リンク

Cloudera Blog

In an era where artificial intelligence (AI) is reshaping enterprises across the globe—be it in healthcare, finance, or manufacturing—it’s hard to overstate the transf ormation that AI has had on businesses, regardless of industry or size. At Cloudera, we recognize the urgent need for bold steps to harness this potential and dramatically accelerate the time to […] Read blog post

akihito104 2014/10/28

リンク

Apache Spark の紹介（前半：Sparkのキホン）

第16回 Hadoopソースコードリーディング(2014/05/29) 発表資料『Apache Sparkのご紹介』（前半：Sparkのキホン） NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス土橋昌 (Masaru Dobashi) http://oss.nttdata.co.jp/ 後半はこちら → http://www.slideshare.net/hadoopxnttdata/apache-sparkRead less

akihito104 2014/10/24

spark

リンク

『Hadoopソースコードリーディング第16回』で Apache Spark の勉強をしてきました #hadoopreading - べにやまぶろぐ

今熱い視線を向けつつもそれだけで終わってしまっている Apache Spark の勉強会があるということで Hadoopソースコードリーディング第16回 Tickets, Thu, May 29, 2014 at 7:00 PM | Eventbrite に参加してきました。Hadoop じゃなかった気もするけど奇しくも初の Hadoop ソースコードリーディング参加で非常に濃密な時間を過ごすことができました。スライドもかなり濃密で前の方に早く来て座ってて良かったーと思ってたんですが素晴らしいことに全部 Slideshare で公開されました。何度も反芻しないと理解しきれない感じしていたので大変ありがたいです。ということでやや勘違いしているところもありそうですがメモを残しておきます。 Apache Spark のご紹介前半 (土橋昌さん / NTT データ) Apache Spar

akihito104 2014/10/24

Hadoop
spark

リンク

Apache Sparkメモ(Hishidama's Apache Spark Memo)

概要 [/2017-01-14] Hadoopとの比較 [/2014-09-12] サンプル [/2017-01-22] インストール開発環境の構築 [2017-01-22] インストール [/2017-01-14] Sparkシェル [/2014-09-19] 実行方法 [/2017-01-18] API（RDD系） SparkContext [/2014-09-15] RDD [/2017-07-26] パーティション [2014-09-07] Kryo（シリアライズ） [/2015-01-15] Spark SQL [/2014-09-02] Hive操作 [2014-09-01] Streaming [2014-09-02] API（Dataset系） SparkSession [2017-01-14] Dataset [/2020-10-08] Encoder [2017-01

akihito104 2014/10/20

spark

リンク

Apache Sparkってどんなものか見てみる（その１ - 夢とガラクタの集積場

こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、とりあえず資料や論文を読んでみることにしました。まず見てみた資料は「Overview of Spark」（http://spark.incubator.apache.org/talks/overview.pdf）です。というわけで、読んだ結果をまとめてみます。 Sparkとは？高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは？以下の2つの解析ユースケースにより適合するようMapReduceを拡張

akihito104 2014/10/20

spark

リンク

Apache Sparkのご紹介（後半：技術トピック）

第16回 Hadoopソースコードリーディング(2014/05/29) 発表資料『Apache Sparkのご紹介』（後半：技術トピック） NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス猿田浩輔 (Kousuke Saruta) http://oss.nttdata.co.jp/ 前半はこちら → http://www.slideshare.net/hadoopxnttdata/apache-spark-sparkRead less