データを信頼し、AI を信頼する 信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。
バッチを高速にした後はリアルタイムの世界へ! 現在、さまざまな業種の企業でビッグデータ分析の取り組みが行われている。ビッグデータへの最初の取っ掛かりは、既存のバッチ処理の高速化や、大量の業務データを用いた分析レポートの作成という企業が多いことだろう。そして、バッチ処理の高速化が一段落した次のステップとして、「リアルタイム処理」をテーマに掲げる企業も多いかと思われる。具体的には、 直近10秒間のトラフィックを集計したい。 直近10分間で自社商品がTwitterで話題になった回数を知りたい。 直近10時間での全店舗での来客数を集計したい。 といったリアルタイムなモニタリングを実現したくなるのではないだろうか?こういったモニタリング用の集計は、技術的には「ウインドウ集計(Time-Window Operation)」と呼ばれる。そこで本コラムでは、近頃、「ポストHadoop」として話題のApac
In an era where artificial intelligence (AI) is reshaping enterprises across the globe—be it in healthcare, finance, or manufacturing—it’s hard to overstate the transformation that AI has had on businesses, regardless of industry or size. At Cloudera, we recognize the urgent need for bold steps to harness this potential and dramatically accelerate the time to […] Read blog post
今熱い視線を向けつつもそれだけで終わってしまっている Apache Spark の勉強会があるということで Hadoopソースコードリーディング 第16回 Tickets, Thu, May 29, 2014 at 7:00 PM | Eventbrite に参加してきました。Hadoop じゃなかった気もするけど奇しくも初の Hadoop ソースコードリーディング参加で非常に濃密な時間を過ごすことができました。 スライドもかなり濃密で前の方に早く来て座ってて良かったーと思ってたんですが素晴らしいことに全部 Slideshare で公開されました。何度も反芻しないと理解しきれない感じしていたので大変ありがたいです。 ということでやや勘違いしているところもありそうですがメモを残しておきます。 Apache Spark のご紹介 前半 (土橋昌さん / NTT データ) Apache Spar
概要 [/2017-01-14] Hadoopとの比較 [/2014-09-12] サンプル [/2017-01-22] インストール 開発環境の構築 [2017-01-22] インストール [/2017-01-14] Sparkシェル [/2014-09-19] 実行方法 [/2017-01-18] API(RDD系) SparkContext [/2014-09-15] RDD [/2017-07-26] パーティション [2014-09-07] Kryo(シリアライズ) [/2015-01-15] Spark SQL [/2014-09-02] Hive操作 [2014-09-01] Streaming [2014-09-02] API(Dataset系) SparkSession [2017-01-14] Dataset [/2020-10-08] Encoder [2017-01
こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。 ・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、 とりあえず資料や論文を読んでみることにしました。 まず見てみた資料は「Overview of Spark」(http://spark.incubator.apache.org/talks/overview.pdf)です。 というわけで、読んだ結果をまとめてみます。 Sparkとは? 高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは? 以下の2つの解析ユースケースにより適合するようMapReduceを拡張
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く