前回までのログで、観測値行列から相関行列を求めるための一通りの仕組みができた。 この開発をスタートするときに、以下の目標を立てた。 実行時間の目標:以下のクラスターを用い、5000変量で、各変量につき5000サンプルあるとして1時間以内での計算を行う。 インフラ Amazon Elastic MapReduce リージョン US Standard インスタンスタイプ m1.small マスタ・インスタンスグループ 1インスタンス コア・インスタンスグループ 8インスタンス タスク・インスタンスグループ 10インスタンス 観測値データ [0,10]の一様乱数から発生させた小数点以下1桁までのデータ(2500万個=5000*5000)を利用した。このデータはPCで生成した(Javaプログラム)。 => 有効な桁数が少ない(=データサイズが小さい)ので、今後の課題として、その評価も必要になると思
      
  
    
