サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
レイングッズ
sfchaos.hatenablog.com
技術評論社から近々刊行される「詳解Apache Spark」をご恵贈いただきました.ありがとうございます! 詳解 Apache Spark 作者: 下田倫大,師岡一成,今井雄太,石川有,田中裕一,小宮篤史,加嵜長門出版社/メーカー: 技術評論社発売日: 2016/04/29メディア: 大型本この商品を含むブログ (5件) を見る Amazonの発送は4月29日からのようですが,都内のジュンク堂や紀伊國屋,書泉ブックタワーなどの大型書店では既に先行販売されているようです.是非手に取ってみてください. 総評 本書は,大規模並列分散基盤のApache Sparkについて,豊富な実践例を交えながら基本的なコンセプトや使用方法が解説された書籍です.この分野の第一線で実際に業務で使用している方々が,わかりやすく執筆されています.Sparkを使う必要があったりどんなものか知ってみたいと思ったりしているエ
9月10日,技術評論社より「データサイエンティスト養成読本 機械学習入門編」が発売され,おかげさまで約1ヶ月後には増刷が決定しました. お読みいただいた方々に深くお礼申し上げます. データサイエンティスト養成読本 機械学習入門編 (Software Design plus) 作者: 比戸将平,馬場雪乃,里洋平,戸嶋龍哉,得居誠也,福島真太朗,加藤公一,関喜史,阿部厳,熊崎宏樹出版社/メーカー: 技術評論社発売日: 2015/09/10メディア: 大型本この商品を含むブログ (7件) を見るまた,出版日の夜には,KDDIウェブコミュニケーションズ様で刊行記念イベントが行われました. 「データサイエンティスト養成読本 機械学習入門編」刊行記念イベント 私も著者の一人として参加させていただきました. 足元が優れない中ご参加いただいた方々,会場を提供いただいたKDDIウェブコミュニケーションズ様,
Javaで分散処理する必要が生じたので、調査のメモ。今回は、以下のページを参考にCORBA+RMIで分散処理をしてみることにする。OSはUbuntu14.04。 クラウドで再注目の「分散コンピューティング」の常識 上記のリンク先の説明を読むと、Java SE 5以前は、クライアント側にスタブが、サーバ側にスケルトンが必要だったが、Java SE 5以降は不要になってJavaプログラムだけが必要な状況のようだ。 JBossToolsのインストール JBoss EAPをダウンロードして、bin直下のrun.shを実行しようとすると、以下のエラーが出る。 $ ./run.sh ./run.sh: 3: ./run.sh: Bad substitution =======================================================================
岩波データサイエンス Vol.1 をご恵贈いただきました.ありがとうございます! 岩波データサイエンス Vol.1 作者: 岩波データサイエンス刊行委員会出版社/メーカー: 岩波書店発売日: 2015/10/08メディア: 単行本(ソフトカバー)この商品を含むブログ (10件) を見る 書籍の概要 本書は,「岩波データサイエンス」という6巻シリーズの1巻目です.主にマルコフ連鎖モンテカルロ法(MCMC)などを用いたベイズ統計モデリングについて扱っており,理論から実装,Stanなどの最先端のソフトウェアまで幅広い話題が揃えられています.著者陣は非常に豪華で,ベイズ統計モデリングの著名人で構成されています.ベイズ統計の基礎から最先端の動向まで,わかりやすく理解することができます. そして,特筆すべきはサポートページの充実ぶり.特集記事だけでも以下のリンクのとおり,記事の補足,理解を促す動画,不
「みんなのR」をご恵贈いただきました.ありがとうございます!! (現在,写真が撮れないので後で追加予定・・・) みんなのR -データ分析と統計解析の新しい教科書- 作者: Jared P. Lander,Tokyo.R(協力),高柳慎一,牧山幸史,簑田高志出版社/メーカー: マイナビ発売日: 2015/06/30メディア: 単行本(ソフトカバー)この商品を含むブログ (7件) を見る 本書は"R for everyone"の翻訳書であり,Amazon.comのページを見ればわかるように原著は大変好評を得ています.翻訳者はみな日本のR界を代表する方々であり,Tokyo.Rなどの勉強会やブログ,パッケージ開発等で大変ご活躍されています.翻訳者の方々とは個人的な友人でもあり,ご本人たちのお顔を思い浮かべつつ楽しみながら一気に読ませていただきました*1. 総評 まず最初に,この本は「中級者までなら
RのrandomForestパッケージのtuneRF関数が遅いというお話があったので,調べてみた. tuneRF関数は,ランダムフォレストを用いて予測モデルを構築する際に使用する特徴量の個数を貪欲的な方法により求める. tuneRF関数だけでなく,Rで機械学習のアルゴリズムをチューニングする方法については,id:TJOさんの記事「Rで機械学習するならチューニングもグリッドサーチ関数orオプションでお手軽に」が詳しいので,是非参照してほしい. 検証に使用するデータと環境 UCI Machine Learning RepositoryのBank Marketingデータセットを使用する.このデータセットは,ポルトガルの銀行で電話でダイレクトマーケティングを実施した際に収集したデータを用いて,予測モデルのアルゴリズムに投入できるように特徴量を構築したもの. まずは,データを取得して解凍する. $
これは,Julia Advent Calendar 2014 14日目の記事です.MLBaseパッケージを用いて機械学習の予測モデルを構築し,評価する方法について説明します. 以下では,Julia0.3.2,MLBase0.5.1,DecisionTree0.3.4,RDatasets0.1.1を使用しています. Juliaで使用できる機械学習の手法 Juliaで使用できる機械学習の手法には,以下のようなものがある. 手法 パッケージ 決定木 DecisionTree ランダムフォレスト DecisionTree, RandomForests(by @bicycle1885さん) サポートベクタマシン SVM, LIBSVM 他の手法については,Awesome Machine Learningにまとまっている. ランダムフォレストを試してみる Juliaでランダムフォレストを実行するために
これは,R Advent Calendar 2014 6日目の記事です. 本記事では,Rで機械学習の予測モデルの構築・評価を統一的なフレームワークで実行するmlrパッケージについて入門的な説明を行います. mlrパッケージとは mlrパッケージは,Michael Lang氏によって開発されており,機械学習の予測モデルを構築し評価する統一的なフレームワークを提供する.use!R 2014でも発表が行われている. 基本的な流れ kernlabパッケージに収録されているspamデータセットに対して,メールがスパムかどうかを判定するための学習器を作成してみよう.ここでは,カーネルSVMを使用して10-foldのクロスバリデーションを実行してみる. > install.packages("mlr") > library(mlr) > install.packages("kernlab") > lib
次から次へと迫り来る原稿の嵐に追われている休みの昼下がり、何気なく目を向けたTLにこんなつぶやきが。 並列化した残骸のRScrpt.exeどうやって処分したらいいの…#メモリを圧迫し続けています— Hadleyに憑依されてるテラモナギ (@teramonagi) 2014, 9月 22 というわけで調べてみました。 状況の再現(Ubuntu) まずは、Ubuntu-14.04での再現。 > library(foreach) # doParallelを読みこめばforeachも読み込まれるが念のため > library(doParallel) > registerDoParallel(4) > foreach (i=1:32) %dopar% sqrt(i) > system("ps") PID TTY TIME CMD 19531 pts/14 00:00:00 bash 19766 pt
Juliaでの並列計算に関する調査メモ。 Juliaでの並列計算の概要 Juliaでのマルチプロセッシング環境は、メッセージパッシングに基づいている。MPIなどの通常のメッセージパッシングは、プロセス間でデータや命令などを相互にやりとりする。しかし、Juliaのメッセージパッシングの実装はあるプロセスから他のプロセスへの一方通行であることが特色となっている。そのため、ユーザは片方のプロセスの管理だけを行えば良い。 あるプロセスから他のプロセスへのメッセージとして重要なのが、"remote call"(remotecall関数)と"remote reference"(fetch関数)である。これらはそれぞれ、「あるプロセスから他のプロセスへの処理の指示」、「指示された処理を行ったプロセスでの処理結果を指示を出したプロセスが参照」に対応する。 remote call(remotecall関数)
RでMicrosoft Wordのレポートを作成するには,いくつかの方法がある.Markdown+Pandocを使った方法,R2wdパッケージを用いた方法などである.ここでは,David Gohel氏によるR2DOCXパッケージを用いたレポート作成について取り上げる. インストール R2DOCXパッケージは,github上で公開されている.R2DOCXとともに,R2DOCパッケージもインストールする.Rのバージョンは3.0.0以降でなければならない模様. > library(devtools) > install_github('R2DOC', 'davidgohel') > install_github('R2DOCX', 'davidgohel') R2DOCXパッケージを使用するためには,JavaおよびrJavaパッケージがインストールされている環境が必要. サンプルプログラム まず
caretパッケージは,機械学習のモデル構築・評価を統一したフレームワークで実行するための機能を提供している.caretのバージョン6.0.29では150個のアルゴリズムが利用できる. > library(caret) > packageVersion("caret") [1] ‘6.0.29’ > head(modelLookup()) model parameter label forReg forClass probModel 1 ada iter #Trees FALSE TRUE TRUE 2 ada maxdepth Max Tree Depth FALSE TRUE TRUE 3 ada nu Learning Rate FALSE TRUE TRUE 4 avNNet size #Hidden Units TRUE TRUE TRUE 5 avNNet decay Weig
高次元データの外れ値検出についてのメモ. 高次元データと次元の呪い 次元が大きくなるほど,点の間の距離は均一になっていく. 例として,2000個の点の各座標を一様乱数で発生させて,次元を変えながら点の間の距離の平均値,最大値,最小値,平均値±1σ,平均値±2σをみてみよう. library(ggplot2) set.seed(123) # 次元のリスト dims <- c(1:9, 10*(1:9), 100*(1:10)) # 算出する統計量 stats <- c("min", "mean-sd", "mean", "mean+sd", "max") # 発生させる点の個数 N <- 2000 # 各次元に対して算出した統計量を格納する行列 ans <- matrix(NA, length(dims), length(stats), dimnames=list(dims, stats))
パターンマイニングはデータマイニングを代表する手法の一つで,特にアソシエーションルールを適用した「ビールとおむつ」などの例が有名です. 最近は,Rなどのデータ分析ツールでもAprioriやEclat(頻出パターンマイニング), CSPADE(系列パターンマイニング)等のアルゴリズムを実行するライブラリが提供されており,パターンマイニングを実行することの障壁は比較的低くなっています. パターンマイニングでは,一般的に膨大な数のパターンが抽出されます.この事象はアイテムの組み合わせや順列の数が膨大になることに起因しており,少量のトランザクションから大量のパターンが抽出されることも決して珍しくありません*1.このような背景の下,パターンマイニングで抽出されたパターンから重要なパターンを抽出することは,大きな技術的課題の一つだと言えるでしょう. 抽出したパターンは膨大な数に 以上で説明したことを実
先月開催されたJapan.R 2013の懇親会で,「C++で統計解析を行うための良いライブラリは?」という話がありました. 統計解析と一口に言っても結構広いので,ここでは以下の4つのカテゴリ 記述統計量(最大値,最小値,平均値,分散等) 統計的検定(t検定,χ2乗検定等) 多変量解析(線形回帰,一般化線形モデル,判別分析,主成分分析,因子分析等) 機械学習(サポートベクタマシン,ランダムフォレスト等) に分けてライブラリがサポートする機能を整理してみると,下表のようになります*1.ここでは,Scytheなどの数値計算用のライブラリ,Shogun, Vowpal Wabbitなどの機械学習に特化したライブラリは対象外としています.他にもこんなライブラリがあるよ!という方は是非教えてください. ライブラリ 記述統計量 統計的検定 多変量解析 機械学習 Boost.Accumulators ○
これは,R Advent Calendar 2013の8日目の記事です. 2013年を振り返ってみると,Tokyo.Rの"シリーズ前処理"をたったの2回で途絶えさせてしまったことは大いに反省すべき点の一つです(^^; シリーズ前処理を途絶えさせたことは,2013年における痛恨の極みの一つ.2014年に復活させるかな?— sfchaos (@sfchaos) 2013, 11月 30 そんなわけで,残り少なくなった2013年,シリーズ前処理の続きを書いてみたいと思います. 今回のテーマは「連続値データの離散化」です.データ分析を行っていると,連続値のデータを離散化して,いくつかのグループに分けたい場面がしばしば発生します.例えば,健康診断の項目に対して「高・中・低」の3段階に分けたい場合などです. 高次元のデータに対する離散化の手法もいくつか提案されていますが,ここでは1次元のデータの離散化
R言語上級ハンドブックを一通り読了しました. R言語上級ハンドブック 作者: 荒引健,石田基広,高橋康介,二階堂愛,林真広出版社/メーカー: シーアンドアール研究所発売日: 2013/09/25メディア: 単行本(ソフトカバー)この商品を含むブログ (9件) を見る 本書は,Rで効率的・効果的にデータ解析や処理を行うための中級〜上級のTips集です.著者はR界隈で著名な方々ばかりで,高度なトピックが平易に解説されています.内容も,実行パフォーマンス(処理速度,メモリ使用量等),Hadoopや他言語との連携,グラフィクスなど多岐に渡ります.また,knitrやslidifyによるレポート・プレゼン資料作成,shinyによるWebアプリ作成など,比較的新しい話題についても収録されています. Rで分からないことをStack Overflowなどで調べているユーザにとって,本書は座右の書となることで
これは,R Advent Calendar 2011の担当分の記事です. 機械学習やデータマイニングの実務への適用が脚光を浴びている今日この頃ですが,現実の問題に機械学習を適用する際は,パラメータのチューニング方法など様々な観点から検討を行う必要があります.今回は,クラス分類における不均衡データ(imbalanced data)の扱いについて考えてみます. 不均衡データとは クラス分類を実行する際の悩みどころの一つとして,クラス分類の興味の対象となるクラスのサンプル数が他のクラスと比べて少ないケースがよくあることが挙げられます.このようなデータは不均衡データと呼ばれます. 例えば,スパムメールかどうかの判別において,スパムであるサンプル数とスパムではないサンプル数.あるいは,ある重病に罹患する人を特定したい場合,その病気に罹患した人数と罹患していない人数.こうしたケースではクラス間でサンプ
頻出パターンマイニング(Frequent pattern mining)は,頻出するアイテムの組み合わせを抽出する一連の手法を指します.頻出パターンマイニングの代表例として相関ルールのマイニングがありますが,この手法を用いるとPOSデータからビールとおむつを一緒に購入する消費者が多いことなどの知見が得られます. 一方で,頻出パターンマイニングでは,順序性のあるパターンは抽出できません.例えば,ビールを購入した消費者がその後おむつを購入する傾向があることは,頻出パターンマイニングでは分かりません. このように順序性のあるパターンを抽出する手法は,系列パターンマイニング(Sequential pattern mining)と呼ばれており,1995年にIBM研究所のR.AgrawalとR.Srikantによって提唱されました. RのarulesSequencesパッケージを使用すると,系列パター
最近,マルコフ連鎖モンテカルロ法の発展形である拡張アンサンブル法について勉強しています.ただ本を読むだけではなく,実際に手を動かして生きた知識としていくことが重要と考えています.そこで,まずは柳田先生と伊庭先生のレプリカ交換モンテカルロ法を用いた力学系の軌道・パラメータ探索に関する次の論文を追試することから始めたいと思います. T.Yanagita, and Y.Iba, Exploration of order in chaos using the replica exchange Monte Carlo method, J.Stat.Mech., P02043, 2009. この論文を理解するためには,レプリカ交換モンテカルロ法を含むマルコフ連鎖モンテカルロ法について,また力学系の基本的な知識が必要になります.それぞれについて順次簡単に説明し(7/5現在,概略しか書いていないので,余裕
このページを最初にブックマークしてみませんか?
『sfchaos's blog』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く