sfchaos's blog[B!]新着記事・評価 - はてなブックマーク

Javaで分散処理 - sfchaos's blog

8 users

sfchaos.hatenablog.com

Javaで分散処理する必要が生じたので、調査のメモ。今回は、以下のページを参考にCORBA+RMIで分散処理をしてみることにする。OSはUbuntu14.04。クラウドで再注目の「分散コンピューティング」の常識上記のリンク先の説明を読むと、Java SE 5以前は、クライアント側にスタブが、サーバ側にスケルトンが必要だったが、Java SE 5以降は不要になってJavaプログラムだけが必要な状況のようだ。 JBossToolsのインストール JBoss EAPをダウンロードして、bin直下のrun.shを実行しようとすると、以下のエラーが出る。 $ ./run.sh ./run.sh: 3: ./run.sh: Bad substitution =======================================================================

テクノロジー
2015/10/27 11:20

岩波データサイエンスVol.1(ご恵贈お礼) - sfchaos's blog

16 users

sfchaos.hatenablog.com

岩波データサイエンス Vol.1 をご恵贈いただきました．ありがとうございます！岩波データサイエンス Vol.1 作者: 岩波データサイエンス刊行委員会出版社/メーカー: 岩波書店発売日: 2015/10/08メディア: 単行本（ソフトカバー）この商品を含むブログ (10件) を見る書籍の概要本書は，「岩波データサイエンス」という6巻シリーズの1巻目です．主にマルコフ連鎖モンテカルロ法(MCMC)などを用いたベイズ統計モデリングについて扱っており，理論から実装，Stanなどの最先端のソフトウェアまで幅広い話題が揃えられています．著者陣は非常に豪華で，ベイズ統計モデリングの著名人で構成されています．ベイズ統計の基礎から最先端の動向まで，わかりやすく理解することができます．そして，特筆すべきはサポートページの充実ぶり．特集記事だけでも以下のリンクのとおり，記事の補足，理解を促す動画，不

テクノロジー
2015/10/10 10:00

tuneRF関数の挙動の検証 - sfchaos's blog

4 users

sfchaos.hatenablog.com

RのrandomForestパッケージのtuneRF関数が遅いというお話があったので，調べてみた． tuneRF関数は，ランダムフォレストを用いて予測モデルを構築する際に使用する特徴量の個数を貪欲的な方法により求める． tuneRF関数だけでなく，Rで機械学習のアルゴリズムをチューニングする方法については，id:TJOさんの記事「Rで機械学習するならチューニングもグリッドサーチ関数orオプションでお手軽に」が詳しいので，是非参照してほしい．検証に使用するデータと環境 UCI Machine Learning RepositoryのBank Marketingデータセットを使用する．このデータセットは，ポルトガルの銀行で電話でダイレクトマーケティングを実施した際に収集したデータを用いて，予測モデルのアルゴリズムに投入できるように特徴量を構築したもの．まずは，データを取得して解凍する． $

テクノロジー
2015/06/28 18:11

Juliaによる機械学習の予測モデル構築・評価 - sfchaos's blog

6 users

sfchaos.hatenablog.com

これは，Julia Advent Calendar 2014 14日目の記事です．MLBaseパッケージを用いて機械学習の予測モデルを構築し，評価する方法について説明します．以下では，Julia0.3.2，MLBase0.5.1，DecisionTree0.3.4，RDatasets0.1.1を使用しています． Juliaで使用できる機械学習の手法 Juliaで使用できる機械学習の手法には，以下のようなものがある．手法パッケージ決定木 DecisionTree ランダムフォレスト DecisionTree, RandomForests(by @bicycle1885さん) サポートベクタマシン SVM, LIBSVM 他の手法については，Awesome Machine Learningにまとまっている．ランダムフォレストを試してみる Juliaでランダムフォレストを実行するために

テクノロジー
2014/12/15 08:42

mlrパッケージによる予測モデルの構築・評価 - sfchaos's blog

6 users

sfchaos.hatenablog.com

これは，R Advent Calendar 2014 6日目の記事です．本記事では，Rで機械学習の予測モデルの構築・評価を統一的なフレームワークで実行するmlrパッケージについて入門的な説明を行います． mlrパッケージとは mlrパッケージは，Michael Lang氏によって開発されており，機械学習の予測モデルを構築し評価する統一的なフレームワークを提供する．use!R 2014でも発表が行われている．基本的な流れ kernlabパッケージに収録されているspamデータセットに対して，メールがスパムかどうかを判定するための学習器を作成してみよう．ここでは，カーネルSVMを使用して10-foldのクロスバリデーションを実行してみる． > install.packages("mlr") > library(mlr) > install.packages("kernlab") > lib

テクノロジー
2014/12/07 02:03

doParallel関数に直接ワーカープロセス数を指定するとゾンビプロセスが残る件 - 2014-09-23 - sfchaos blog

7 users

sfchaos.hatenablog.com

次から次へと迫り来る原稿の嵐に追われている休みの昼下がり、何気なく目を向けたTLにこんなつぶやきが。並列化した残骸のRScrpt.exeどうやって処分したらいいの…#メモリを圧迫し続けています— Hadleyに憑依されてるテラモナギ (@teramonagi) 2014, 9月 22 というわけで調べてみました。状況の再現(Ubuntu) まずは、Ubuntu-14.04での再現。 > library(foreach) # doParallelを読みこめばforeachも読み込まれるが念のため > library(doParallel) > registerDoParallel(4) > foreach (i=1:32) %dopar% sqrt(i) > system("ps") PID TTY TIME CMD 19531 pts/14 00:00:00 bash 19766 pt

テクノロジー
2014/09/23 18:15

Juliaで並列計算 - sfchaos's blog

10 users

sfchaos.hatenablog.com

Juliaでの並列計算に関する調査メモ。 Juliaでの並列計算の概要 Juliaでのマルチプロセッシング環境は、メッセージパッシングに基づいている。MPIなどの通常のメッセージパッシングは、プロセス間でデータや命令などを相互にやりとりする。しかし、Juliaのメッセージパッシングの実装はあるプロセスから他のプロセスへの一方通行であることが特色となっている。そのため、ユーザは片方のプロセスの管理だけを行えば良い。あるプロセスから他のプロセスへのメッセージとして重要なのが、"remote call"(remotecall関数)と"remote reference"(fetch関数)である。これらはそれぞれ、「あるプロセスから他のプロセスへの処理の指示」、「指示された処理を行ったプロセスでの処理結果を指示を出したプロセスが参照」に対応する。 remote call(remotecall関数)

テクノロジー
2014/09/23 17:02

julia

R2DOCXによるレポート作成 - sfchaos's blog

5 users

sfchaos.hatenablog.com

RでMicrosoft Wordのレポートを作成するには，いくつかの方法がある．Markdown+Pandocを使った方法，R2wdパッケージを用いた方法などである．ここでは，David Gohel氏によるR2DOCXパッケージを用いたレポート作成について取り上げる．インストール R2DOCXパッケージは，github上で公開されている．R2DOCXとともに，R2DOCパッケージもインストールする．Rのバージョンは3.0.0以降でなければならない模様． > library(devtools) > install_github('R2DOC', 'davidgohel') > install_github('R2DOCX', 'davidgohel') R2DOCXパッケージを使用するためには，JavaおよびrJavaパッケージがインストールされている環境が必要．サンプルプログラムまず

テクノロジー
2014/06/02 07:36

R

caretで独自アルゴリズムの実行 - sfchaos's blog

13 users

sfchaos.hatenablog.com

caretパッケージは，機械学習のモデル構築・評価を統一したフレームワークで実行するための機能を提供している．caretのバージョン6.0.29では150個のアルゴリズムが利用できる． > library(caret) > packageVersion("caret") [1] ‘6.0.29’ > head(modelLookup()) model parameter label forReg forClass probModel 1 ada iter #Trees FALSE TRUE TRUE 2 ada maxdepth Max Tree Depth FALSE TRUE TRUE 3 ada nu Learning Rate FALSE TRUE TRUE 4 avNNet size #Hidden Units TRUE TRUE TRUE 5 avNNet decay Weig

テクノロジー
2014/06/01 14:49

高次元データの外れ値検出 - sfchaos's blog

38 users

sfchaos.hatenablog.com

高次元データの外れ値検出についてのメモ．高次元データと次元の呪い次元が大きくなるほど，点の間の距離は均一になっていく．例として，2000個の点の各座標を一様乱数で発生させて，次元を変えながら点の間の距離の平均値，最大値，最小値，平均値±1σ，平均値±2σをみてみよう． library(ggplot2) set.seed(123) # 次元のリスト dims <- c(1:9, 10*(1:9), 100*(1:10)) # 算出する統計量 stats <- c("min", "mean-sd", "mean", "mean+sd", "max") # 発生させる点の個数 N <- 2000 # 各次元に対して算出した統計量を格納する行列 ans <- matrix(NA, length(dims), length(stats), dimnames=list(dims, stats))

テクノロジー
2014/05/19 09:09

冗長性が低く重要度の高いパターンの抽出(1) - sfchaos's blog

20 users

sfchaos.hatenablog.com

パターンマイニングはデータマイニングを代表する手法の一つで，特にアソシエーションルールを適用した「ビールとおむつ」などの例が有名です．最近は，Rなどのデータ分析ツールでもAprioriやEclat(頻出パターンマイニング), CSPADE(系列パターンマイニング)等のアルゴリズムを実行するライブラリが提供されており，パターンマイニングを実行することの障壁は比較的低くなっています．パターンマイニングでは，一般的に膨大な数のパターンが抽出されます．この事象はアイテムの組み合わせや順列の数が膨大になることに起因しており，少量のトランザクションから大量のパターンが抽出されることも決して珍しくありません*1．このような背景の下，パターンマイニングで抽出されたパターンから重要なパターンを抽出することは，大きな技術的課題の一つだと言えるでしょう．抽出したパターンは膨大な数に以上で説明したことを実

テクノロジー
2014/03/24 00:49

C++で統計解析 - sfchaos's blog

28 users

sfchaos.hatenablog.com

先月開催されたJapan.R 2013の懇親会で，「C++で統計解析を行うための良いライブラリは？」という話がありました．統計解析と一口に言っても結構広いので，ここでは以下の4つのカテゴリ記述統計量(最大値，最小値，平均値，分散等) 統計的検定(t検定，χ2乗検定等) 多変量解析(線形回帰，一般化線形モデル，判別分析，主成分分析，因子分析等) 機械学習(サポートベクタマシン，ランダムフォレスト等) に分けてライブラリがサポートする機能を整理してみると，下表のようになります*1．ここでは，Scytheなどの数値計算用のライブラリ，Shogun, Vowpal Wabbitなどの機械学習に特化したライブラリは対象外としています．他にもこんなライブラリがあるよ！という方は是非教えてください．ライブラリ記述統計量統計的検定多変量解析機械学習 Boost.Accumulators ○

テクノロジー
2014/01/14 07:20

連続値データの離散化(R Advent Calendar 2013) - sfchaos's blog

23 users

sfchaos.hatenablog.com

これは，R Advent Calendar 2013の8日目の記事です． 2013年を振り返ってみると，Tokyo.Rの"シリーズ前処理"をたったの2回で途絶えさせてしまったことは大いに反省すべき点の一つです(^^; シリーズ前処理を途絶えさせたことは，2013年における痛恨の極みの一つ．2014年に復活させるかな？— sfchaos (@sfchaos) 2013, 11月 30 そんなわけで，残り少なくなった2013年，シリーズ前処理の続きを書いてみたいと思います．今回のテーマは「連続値データの離散化」です．データ分析を行っていると，連続値のデータを離散化して，いくつかのグループに分けたい場面がしばしば発生します．例えば，健康診断の項目に対して「高・中・低」の3段階に分けたい場合などです．高次元のデータに対する離散化の手法もいくつか提案されていますが，ここでは1次元のデータの離散化

テクノロジー
2013/12/08 22:34

不均衡データのクラス分類(R Advent Calendar 2011) - sfchaos's blog

20 users

sfchaos.hatenablog.com

これは，R Advent Calendar 2011の担当分の記事です．機械学習やデータマイニングの実務への適用が脚光を浴びている今日この頃ですが，現実の問題に機械学習を適用する際は，パラメータのチューニング方法など様々な観点から検討を行う必要があります．今回は，クラス分類における不均衡データ(imbalanced data)の扱いについて考えてみます．不均衡データとはクラス分類を実行する際の悩みどころの一つとして，クラス分類の興味の対象となるクラスのサンプル数が他のクラスと比べて少ないケースがよくあることが挙げられます．このようなデータは不均衡データと呼ばれます．例えば，スパムメールかどうかの判別において，スパムであるサンプル数とスパムではないサンプル数．あるいは，ある重病に罹患する人を特定したい場合，その病気に罹患した人数と罹患していない人数．こうしたケースではクラス間でサンプ

テクノロジー
2012/03/12 16:43

sfchaos's blog

4 users

sfchaos.hatenablog.com

技術評論社から近々刊行される「詳解Apache Spark」をご恵贈いただきました．ありがとうございます！詳解 Apache Spark 作者: 下田倫大,師岡一成,今井雄太,石川有,田中裕一,小宮篤史,加嵜長門出版社/メーカー: 技術評論社発売日: 2016/04/29メディア: 大型本この商品を含むブログ (5件) を見る Amazonの発送は4月29日からのようですが，都内のジュンク堂や紀伊國屋，書泉ブックタワーなどの大型書店では既に先行販売されているようです．是非手に取ってみてください．総評本書は，大規模並列分散基盤のApache Sparkについて，豊富な実践例を交えながら基本的なコンセプトや使用方法が解説された書籍です．この分野の第一線で実際に業務で使用している方々が，わかりやすく執筆されています．Sparkを使う必要があったりどんなものか知ってみたいと思ったりしているエ

テクノロジー
2011/09/21 17:20

Rで系列パターンマイニング - sfchaos's blog

24 users

sfchaos.hatenablog.com

頻出パターンマイニング(Frequent pattern mining)は,頻出するアイテムの組み合わせを抽出する一連の手法を指します.頻出パターンマイニングの代表例として相関ルールのマイニングがありますが,この手法を用いるとPOSデータからビールとおむつを一緒に購入する消費者が多いことなどの知見が得られます. 一方で,頻出パターンマイニングでは,順序性のあるパターンは抽出できません.例えば,ビールを購入した消費者がその後おむつを購入する傾向があることは,頻出パターンマイニングでは分かりません. このように順序性のあるパターンを抽出する手法は,系列パターンマイニング(Sequential pattern mining)と呼ばれており,１９９５年にIBM研究所のR.AgrawalとR.Srikantによって提唱されました. RのarulesSequencesパッケージを使用すると,系列パター

テクノロジー
2011/07/07 00:49

レプリカ交換モンテカルロ法を用いた力学系の軌道・パラメータ探索 - sfchaos's blog

14 users

sfchaos.hatenablog.com

最近,マルコフ連鎖モンテカルロ法の発展形である拡張アンサンブル法について勉強しています．ただ本を読むだけではなく,実際に手を動かして生きた知識としていくことが重要と考えています.そこで,まずは柳田先生と伊庭先生のレプリカ交換モンテカルロ法を用いた力学系の軌道・パラメータ探索に関する次の論文を追試することから始めたいと思います． T.Yanagita, and Y.Iba, Exploration of order in chaos using the replica exchange Monte Carlo method, J.Stat.Mech., P02043, 2009. この論文を理解するためには，レプリカ交換モンテカルロ法を含むマルコフ連鎖モンテカルロ法について，また力学系の基本的な知識が必要になります．それぞれについて順次簡単に説明し（7/5現在,概略しか書いていないので,余裕

テクノロジー
2011/07/06 07:24

はてなブックマーク

はてなブックマーク

『sfchaos's blog』

2016-04-24 - sfchaos blog

データサイエンティスト養成読本機械学習入門編の振り返りと補足 - sfchaos's blog

Javaで分散処理 - sfchaos's blog

岩波データサイエンスVol.1(ご恵贈お礼) - sfchaos's blog

みんなのR (ご恵贈お礼) - sfchaos's blog

tuneRF関数の挙動の検証 - sfchaos's blog

Juliaによる機械学習の予測モデル構築・評価 - sfchaos's blog

mlrパッケージによる予測モデルの構築・評価 - sfchaos's blog

doParallel関数に直接ワーカープロセス数を指定するとゾンビプロセスが残る件 - 2014-09-23 - sfchaos blog

Juliaで並列計算 - sfchaos's blog

R2DOCXによるレポート作成 - sfchaos's blog

caretで独自アルゴリズムの実行 - sfchaos's blog

高次元データの外れ値検出 - sfchaos's blog

冗長性が低く重要度の高いパターンの抽出(1) - sfchaos's blog

C++で統計解析 - sfchaos's blog

連続値データの離散化(R Advent Calendar 2013) - sfchaos's blog

R言語上級ハンドブック - sfchaos's blog

不均衡データのクラス分類(R Advent Calendar 2011) - sfchaos's blog

sfchaos's blog

Rで系列パターンマイニング - sfchaos's blog

レプリカ交換モンテカルロ法を用いた力学系の軌道・パラメータ探索 - sfchaos's blog

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

『sfchaos's blog』

このページはまだブックマークされていません

キーボードショートカット一覧

公式Twitter

はてなのサービス

このページはまだ
ブックマークされていません