第16回 Hadoopソースコードリーディング(2014/05/29) 発表資料 『Apache Sparkのご紹介』(前半:Sparkのキホン) NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 土橋 昌 (Masaru Dobashi) http://oss.nttdata.co.jp/ 後半はこちら → http://www.slideshare.net/hadoopxnttdata/apache-sparkRead less
※基本的にRDBMSでもデータ分析は賄える。 ※HadoopでBig Dataではないデータの分析も行えます。もちろんBig Dataの分析は得意 ■Hadoopの課題 Hadoopのスケーラビリティを活かすには大量のサーバーが必要 大量にサーバーを購入してしまうとノードの追加縮小が自由にはできない データをHDFSだけに保存するのはリスク ■Amazon Elastic MapReduce Hadoopをいつでもオンデマンドで利用可能にしたサービス 開発者はデータの分析・解析アプリケーションに集中 AWSサービスとの強力なインテグレーション Big Data処理のための煩雑なタスクが不要 解析をトライアンドエラーできる ※Elasticity、AWS SDK、Amazon S3連携がポイント! ■Amazon EMR全体アーキテクチャ データソースから入力データををAmazon S3に保
よく訓練されたアップル信者、都元です。Hadoop使ってますか。試しにHadoopを使ってみよう、と思った時に主に障害となるのが以下の3つです。 Hadoopのクラスタを組むために実機を複数用意するのが厄介。それをクラスタとして組み上げるのも厄介。 Hadoopの上で動かすアプリケーションをMapReduceで書くのが厄介。 Hadoopで処理するほどのビッグデータを用意するのが厄介。 1つ目はAmazon Elastic MapReduce (EMR)を使う事でスマートに解決しましょう。 2つ目については、オープンソースのMapReduceアプリケーションを使います。私が強い興味を持っている分野に「機械学習」というものがあります。機械学習とは、コンピュータにデータを分析させ、未知の情報についての予測をさせたり、人間の知能に近い機能を実現しようという試みです。今回は、この機械学習の各種アル
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く