エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Amazon Elastic MapReduce : Hadoop2.4環境で100万変量(10GB)の算術平均を計算する。 - tetsuya_odakaの日記
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Amazon Elastic MapReduce : Hadoop2.4環境で100万変量(10GB)の算術平均を計算する。 - tetsuya_odakaの日記
前々回の記事では、1変量の算術平均を計算した。 今回は、以下の形式(多変量データ)の「各列」、つま... 前々回の記事では、1変量の算術平均を計算した。 今回は、以下の形式(多変量データ)の「各列」、つまり「各変量」の平均値を計算する。前々回の記事で述べたように、「超多変量」=「超高次元」がビッグデータの本質の1つである。 せっかくなので、自分の手元のMacBook Pro(Core i5)のRでは処理が厳しいくらいの大きさのデータを、Amazon Elastic MapReduceで処理し、処理時間とスケール・アウトさせたときの様子を見みようと思う。 後述するが、変量(特徴)の数は1,000,000、サンプルサイズは1,000とおく。多変量解析のテキストでは、サンプル・サイズ>変量の数、となっているのが普通だが、ビッグデータの場合にはこれが逆転するケースが発生する。(例えば、1webページ中の語彙、1人の遺伝情報など) データ 以下に、データ構造とデータファイル(MapReduceに読ませる