[B! hadoop] jinjin252525のブックマーク

Apache Spark の紹介（前半：Sparkのキホン）

第16回 Hadoopソースコードリーディング(2014/05/29) 発表資料『Apache Sparkのご紹介』（前半：Sparkのキホン） NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス土橋昌 (Masaru Dobashi) http://oss.nttdata.co.jp/ 後半はこちら → http://www.slideshare.net/hadoopxnttdata/apache-sparkRead less

jinjin252525 2015/01/23

リンク

40分でわかるHadoop徹底入門（Cloudera World Tokyo 2014 講演資料）

■Hadoopの理解にちょっと自信のない皆さんに贈る 40分でわかるHadoop徹底入門（Cloudera World Tokyo 2014 講演資料）日本Hadoopユーザー会濱野賢一朗／Kenichiro Hamano (NTTデータ)Read less

jinjin252525 2014/11/13

hadoop

リンク

ほぼ週刊AWSマイスターシリーズ第10回 – EMR編に参加しました | DevelopersIO

※基本的にRDBMSでもデータ分析は賄える。 ※HadoopでBig Dataではないデータの分析も行えます。もちろんBig Dataの分析は得意 ■Hadoopの課題 Hadoopのスケーラビリティを活かすには大量のサーバーが必要大量にサーバーを購入してしまうとノードの追加縮小が自由にはできないデータをHDFSだけに保存するのはリスク ■Amazon Elastic MapReduce Hadoopをいつでもオンデマンドで利用可能にしたサービス開発者はデータの分析・解析アプリケーションに集中 AWSサービスとの強力なインテグレーション Big Data処理のための煩雑なタスクが不要解析をトライアンドエラーできる ※Elasticity、AWS SDK、Amazon S3連携がポイント！ ■Amazon EMR全体アーキテクチャデータソースから入力データををAmazon S3に保

jinjin252525 2013/10/09

emr
hadoop

リンク

Amazon Elastic MapReduce入門〜 Apache Mahoutでレコメンデーション！ | DevelopersIO

よく訓練されたアップル信者、都元です。Hadoop使ってますか。試しにHadoopを使ってみよう、と思った時に主に障害となるのが以下の3つです。 Hadoopのクラスタを組むために実機を複数用意するのが厄介。それをクラスタとして組み上げるのも厄介。 Hadoopの上で動かすアプリケーションをMapReduceで書くのが厄介。 Hadoopで処理するほどのビッグデータを用意するのが厄介。 1つ目はAmazon Elastic MapReduce (EMR)を使う事でスマートに解決しましょう。 2つ目については、オープンソースのMapReduceアプリケーションを使います。私が強い興味を持っている分野に「機械学習」というものがあります。機械学習とは、コンピュータにデータを分析させ、未知の情報についての予測をさせたり、人間の知能に近い機能を実現しようという試みです。今回は、この機械学習の各種アル