hohoho_ho2005のブックマーク - はてなブックマーク

spark sqlのdataframeをhive tableとしてparquet formatで圧縮して保存するには - Qiita
やったのは生ログが1行jsonのデータでhdfsにある生ログをspark RDDとして読み込み RDDをparseして、dfに変換 dfをparquet formatでhive tableにsaveしてあとでhive tableとして引けるようにする。 import scala.collection.mutable.HashMap import org.apache.spark._ import org.apache.spark.sql.SQLContext import org.apache.spark.sql.functions._ import org.apache.spark.sql.hive.HiveContext val options = new HashMap[String, String] options.put("spark.hadoop.mapred.output
hohoho_ho2005 2016/08/16
spark
リンク
Spark mllib 教師あり学習アルゴリズム精度測定 - linear classifier編 - Qiita
概要 spark mllibの SVM LogisticRegression NaiveBayes の精度測定を、 news20 rcv1 に対して実施。その結果を記載する。各アルゴリズムのパラメータ設定は Svm L2正則化のみ numIteration = 1000 SGD, miniBatchFraction = 1.0 regParam=c= 1.0* 10^-3 〜 1000まで測定 LogisticRegression (LR) L2正則化のみ numIteration = 1000 SGD, miniBatchFraction = 1.0 regParam=c= 1.0* 10^-3 〜 10まで測定 NaiveBayes (NB) lambda=1.0*10^-3 〜 1000 測定結果 news20 NB lambda 正例F1値正解率
hohoho_ho2005 2016/01/16
spark
リンク
1

はてなブックマーク