kazutan711のブックマーク - はてなブックマーク

データサイエンティスト養成読本機械学習入門編の振り返りと補足 - sfchaos's blog

9月10日，技術評論社より「データサイエンティスト養成読本　機械学習入門編」が発売され，おかげさまで約1ヶ月後には増刷が決定しました．お読みいただいた方々に深くお礼申し上げます．データサイエンティスト養成読本機械学習入門編 (Software Design plus) 作者: 比戸将平,馬場雪乃,里洋平,戸嶋龍哉,得居誠也,福島真太朗,加藤公一,関喜史,阿部厳,熊崎宏樹出版社/メーカー: 技術評論社発売日: 2015/09/10メディア: 大型本この商品を含むブログ (7件) を見るまた，出版日の夜には，KDDIウェブコミュニケーションズ様で刊行記念イベントが行われました．「データサイエンティスト養成読本機械学習入門編」刊行記念イベント私も著者の一人として参加させていただきました．足元が優れない中ご参加いただいた方々，会場を提供いただいたKDDIウェブコミュニケーションズ様，

kazutan711 2015/11/02

すごいボリュームだ…

R

リンク

みんなのR (ご恵贈お礼) - sfchaos's blog

「みんなのR」をご恵贈いただきました．ありがとうございます!! (現在，写真が撮れないので後で追加予定・・・) みんなのR -データ分析と統計解析の新しい教科書- 作者: Jared P. Lander,Tokyo.R（協力）,高柳慎一,牧山幸史,簑田高志出版社/メーカー: マイナビ発売日: 2015/06/30メディア: 単行本（ソフトカバー）この商品を含むブログ (7件) を見る本書は"R for everyone"の翻訳書であり，Amazon.comのページを見ればわかるように原著は大変好評を得ています．翻訳者はみな日本のR界を代表する方々であり，Tokyo.Rなどの勉強会やブログ，パッケージ開発等で大変ご活躍されています．翻訳者の方々とは個人的な友人でもあり，ご本人たちのお顔を思い浮かべつつ楽しみながら一気に読ませていただきました*1．総評まず最初に，この本は「中級者までなら

kazutan711 2015/06/30

R

リンク

R言語上級ハンドブック - sfchaos's blog

R言語上級ハンドブックを一通り読了しました． R言語上級ハンドブック作者: 荒引健,石田基広,高橋康介,二階堂愛,林真広出版社/メーカー: シーアンドアール研究所発売日: 2013/09/25メディア: 単行本（ソフトカバー）この商品を含むブログ (9件) を見る本書は，Rで効率的・効果的にデータ解析や処理を行うための中級〜上級のTips集です．著者はR界隈で著名な方々ばかりで，高度なトピックが平易に解説されています．内容も，実行パフォーマンス(処理速度，メモリ使用量等)，Hadoopや他言語との連携，グラフィクスなど多岐に渡ります．また，knitrやslidifyによるレポート・プレゼン資料作成，shinyによるWebアプリ作成など，比較的新しい話題についても収録されています． Rで分からないことをStack Overflowなどで調べているユーザにとって，本書は座右の書となることで

kazutan711 2015/04/01

ほむ。

R

リンク

mlrパッケージによる予測モデルの構築・評価 - sfchaos's blog

これは，R Advent Calendar 2014 6日目の記事です．本記事では，Rで機械学習の予測モデルの構築・評価を統一的なフレームワークで実行するmlrパッケージについて入門的な説明を行います． mlrパッケージとは mlrパッケージは，Michael Lang氏によって開発されており，機械学習の予測モデルを構築し評価する統一的なフレームワークを提供する．use!R 2014でも発表が行われている．基本的な流れ kernlabパッケージに収録されているspamデータセットに対して，メールがスパムかどうかを判定するための学習器を作成してみよう．ここでは，カーネルSVMを使用して10-foldのクロスバリデーションを実行してみる． > install.packages("mlr") > library(mlr) > install.packages("kernlab") > lib

kazutan711 2014/12/07

R

リンク

doParallel関数に直接ワーカープロセス数を指定するとゾンビプロセスが残る件 - 2014-09-23 - sfchaos blog

次から次へと迫り来る原稿の嵐に追われている休みの昼下がり、何気なく目を向けたTLにこんなつぶやきが。並列化した残骸のRScrpt.exeどうやって処分したらいいの…#メモリを圧迫し続けています— Hadleyに憑依されてるテラモナギ (@teramonagi) 2014, 9月 22 というわけで調べてみました。状況の再現(Ubuntu) まずは、Ubuntu-14.04での再現。 > library(foreach) # doParallelを読みこめばforeachも読み込まれるが念のため > library(doParallel) > registerDoParallel(4) > foreach (i=1:32) %dopar% sqrt(i) > system("ps") PID TTY TIME CMD 19531 pts/14 00:00:00 bash 19766 pt

kazutan711 2014/09/23

すごいなぁ…並列化本も買わないと。

リンク

R2DOCXによるレポート作成 - sfchaos's blog

RでMicrosoft Wordのレポートを作成するには，いくつかの方法がある．Markdown+Pandocを使った方法，R2wdパッケージを用いた方法などである．ここでは，David Gohel氏によるR2DOCXパッケージを用いたレポート作成について取り上げる．インストール R2DOCXパッケージは，github上で公開されている．R2DOCXとともに，R2DOCパッケージもインストールする．Rのバージョンは3.0.0以降でなければならない模様． > library(devtools) > install_github('R2DOC', 'davidgohel') > install_github('R2DOCX', 'davidgohel') R2DOCXパッケージを使用するためには，JavaおよびrJavaパッケージがインストールされている環境が必要．サンプルプログラムまず

kazutan711 2014/06/02

リンク

dplyrでcolwise - sfchaos's blog

dplyrを使って，plyrのcolwiseのような処理をしたい．このようなときはHadley Wickham氏がgithubで公開しているdplyrパッケージのsummarise_each関数を使用すればよい． > library(devtools) > install_github("hadley/dplyr", ref = "colwise") > library(dplyr) > iris %.% + group_by(Species) %.% + summarise_each(funs(mean)) Source: local data frame [3 x 5] Species Sepal.Length Sepal.Width Petal.Length Petal.Width 1 setosa 5.006 3.428 1.462 0.246 2 versicolor 5.936

kazutan711 2014/05/14

R

リンク

冗長性が低く重要度の高いパターンの抽出(1) - sfchaos's blog

パターンマイニングはデータマイニングを代表する手法の一つで，特にアソシエーションルールを適用した「ビールとおむつ」などの例が有名です．最近は，Rなどのデータ分析ツールでもAprioriやEclat(頻出パターンマイニング), CSPADE(系列パターンマイニング)等のアルゴリズムを実行するライブラリが提供されており，パターンマイニングを実行することの障壁は比較的低くなっています．パターンマイニングでは，一般的に膨大な数のパターンが抽出されます．この事象はアイテムの組み合わせや順列の数が膨大になることに起因しており，少量のトランザクションから大量のパターンが抽出されることも決して珍しくありません*1．このような背景の下，パターンマイニングで抽出されたパターンから重要なパターンを抽出することは，大きな技術的課題の一つだと言えるでしょう．抽出したパターンは膨大な数に以上で説明したことを実