Amazon Elastic MapReduce : Hadoop2.4環境で100万変量（10GB）の算術平均を計算する。 - tetsuya_odakaの日記

テクノロジーカテゴリーの変更を依頼記事元:

tetsuya-odaka.hatenablog.com

1 userがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

Amazon Elastic MapReduce : Hadoop2.4環境で100万変量（10GB）の算術平均を計算する。 - tetsuya_odakaの日記

前々回の記事では、１変量の算術平均を計算した。今回は、以下の形式（多変量データ）の「各列」、つま... 前々回の記事では、１変量の算術平均を計算した。今回は、以下の形式（多変量データ）の「各列」、つまり「各変量」の平均値を計算する。前々回の記事で述べたように、「超多変量」＝「超高次元」がビッグデータの本質の１つである。せっかくなので、自分の手元のMacBook Pro（Core i5）のRでは処理が厳しいくらいの大きさのデータを、Amazon Elastic MapReduceで処理し、処理時間とスケール・アウトさせたときの様子を見みようと思う。後述するが、変量（特徴）の数は1,000,000、サンプルサイズは1,000とおく。多変量解析のテキストでは、サンプル・サイズ＞変量の数、となっているのが普通だが、ビッグデータの場合にはこれが逆転するケースが発生する。（例えば、１webページ中の語彙、1人の遺伝情報など）データ以下に、データ構造とデータファイル（MapReduceに読ませる

ブックマークしたユーザー

JHashimoto2016/12/13

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx