デブサミ2016 #devsumi で話させていただいた資料です。 http://event.shoeisha.jp/devsumi/20160218/session/1007/ Read less
![失敗から学ぶ�データ分析グループの�チームマネジメント変遷 (デブサミ2016) #devsumi](https://cdn-ak-scissors.b.st-hatena.com/image/square/104c3816458f9ad15120483389e5b0ea74c2ffa5/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2Fdevsummittokoroten2016-160222070049-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
先日、とあるデータ分析フレームワーク*1の営業をうちのチームの人たちが受けたそうで、後で色々話を聞きました。 何でもそのプロダクトは名立たる国際データ分析コンペ*2上位入賞者という猛者たちが作った代物だそうで、宣伝文句やデモによれば「データの前処理、学習モデルのアルゴリズム選択、効果検証、API構築までを全部フルオートで出来る」のだとか。 (From Wikimedia Commons) それを聞いて、僕はすぐに「あーこれで自分たちも早々に失業だわ、違う仕事探そうっと」と即断しかけたんですが、チームのメンバーたちと話していくうちに「いやこれではまだ失業させてもらえないじゃん」ということに気付いたのでした。ぶっちゃけマエショリストの僕らとしてはいつでも失業させてもらいたいくらいなんですが(笑)、世の中そう簡単にはうまくいかないようです。。。 ということで、今回は「そんな凄いデータ分析ツールが
日本全国各所で猛暑日が続き、 facebookは野外フェスと海と海外旅行とビアガーデンの写真が溢れ始めております。 しかし猛暑だろうが極寒だろうが、 データ分析官は、週末のビールを信じて 黙々とパソコンに向き合う日々なはずです。 ところが、この週末ビールを阻む大いなる壁があります。 そう、もうお気づきかと思いますが、みなさんおなじみ”既読スルー”です。 飲みに誘ってもレスポンスが無いのですから飲みに行けません。(一人飲みをするには勇気が足りない) 「え?既読スルーて、友人の間でもカジュアルに起こる事なの?」と思った貴君、 私だってこの状態が当たり前だとは思っておりません。 メールコミュニケーションの時代は、返信が来なかろうが 「もう寝たんだろう」「海外旅行中なんだろう」「ケータイ紛失したんだろう」 「深爪してメールを打つのも困難なんだろう」などと、 あり得ないほどのオプティミストな思考が思
先日,比治山大学で行われたHijiyama.Rで発表したスライドを,スライドシェアにアップしました。 内容は,タイトルの通り,Rのpsychパッケージで因子分析をするための方法についてまとめています。特に,SPSSなどの商用ソフトではできない,きめ細やかな分析法について触れています。 また,以下にスライドで使っているRコードをまとめて書いておきます。 library(psych) library(GPArotation) data(bfi) dat <- bfi[1:25] #MAPや情報量規準を推定できる summary(VSS(dat,n=10,use="complete.obs")) #平行分析のコード fa.parallel(cor(dat, use="na.or.complete"), n.obs = 2436, n.iter = 50) #リストワイズ削除したデータのサンプルサ
さて、前回リストの記事から半年ぐらい経ちましたよーということで、それ以降に発刊された書籍などを吟味した上で更新したリストをお届けしたいと思います。といっても引き続き今回のリストにも入っているものが多いので変わり映えしないかもですが。。。 前回同様、統計学や機械学習にまつわる学術的な知識を得るだけにとどまらず、ビジネスにおけるデータ分析のプロとして知っておきたい知識を得るために必要な書籍もリストに入れてあります。 確率論まわりの基礎理論についての書籍は僕自身が勉強途中なので割愛しました*1。またコーディングまわりの本は一旦割愛してあります。というか僕はエンジニアとは言い難い身なので(泣)、コーディングまわりや詳細な実装プロセスなどは適宜必要な本を読んで下さいということで。。。 そして改めての断り書きですが、これは「ある程度既に統計学や機械学習などに馴染みがあってそれなりにPythonでコード
前回リストの記事から半年ぐらい経ちましたよー、ということで初心者向けに関しても書籍リストをアップデートした最新版のリストをお送りします。あまり中身が変わってないかもしれませんが、かぶっている本は良い本だということで(笑)。 ところで、昨年秋に比べると「これから統計学・機械学習について学びたい!」という人たちの動機が変わってきているような気がしなくもないんですね。以前は主に「エンジニアでこれからデータ分析について学びたい」という層が多かったんですが、最近になって「営業や企画をやっているんだけど数字を見る際にデータ分析とか知っていると良いことがありそう」という層が増えてきているように見聞します*1。 そういう意味で言うと「エンジニア向けの本を推薦するのが必ずしもベストとは限らない」という側面もありそうなんですが、それは次回までの宿題ということで、今回も基本的にはエンジニア向けの本を一旦揃えてみ
Rでの主成分分析の実行 前々回のエントリで学習した永田・棟近教科書の第9章「主成分分析」にのっている計算例を、自分でRにより実行してみることとする。 前半では、教科書の計算例の実行、後半では、Rのprcomp()関数を使うときに注意しなきゃなと思った点をメモしておく。 永田・棟近教科書の第9章「主成分分析」をRで実行してみる まず、データの入力。 > # データの入力 > > 生徒NO <- seq(1, 10, 1) > 国語 <- c(86,71,42,62,96,39,50,78,51,89) > 英語 <- c(79,75,43,58,97,33,53,66,44,92) > 数学 <- c(67,78,39,98,61,45,64,52,76,93) > 理科 <- c(68,84,44,95,63,50,72,47,72,91) データを確認のため表示させてみる。 > 成績d
←前へ|もくじ|次へ→ ───21種類のアイスクリームを地図のように配置するのか……。確かに相関行列だけでは、一目で見てわかりやすいということにはならないわね。どうしたらいいのかしら。 「どうしたのアイ子ちゃん。むずかしい顔をして」 ───あ、三ヶ島先輩。アイスクリームの好みについての相関行列まではできたんですけれど、これではまだわかりにくいので、地図のようにできないか、と店長がおっしゃるんですよ。 「なるほど。そのためには、因子分析を使えばいいんだよ」 ───因子分析ですか? うわー、なんか難しそうですね。 「変数がたくさんある、多変量データを分析する方法はいろいろあるけれども、因子分析はその中でも最もよく使われるもののひとつだ。これをマスターしておくと、これからきっと役に立つことがあると思うよ」 ───三ヶ島先輩、ぜひ、それを教えてください。 まず最初に、因子分析の考え方を説明しよう。
なお、分析対象となる変数の単位に注意して center, scale の 論理値を指定する必要があります。 参考例としてRのデータセット attitude を使用しています。 attitude はこのようなデータです。 主成分分析を行なう、prcomp()関数には、いくつか引数がありますが、 そのうち、center と scale は、重要となります。 なお、center はデフォルトで TRUE、 scale はデフォルトで FALSE と指定されています。 主成分分析対象となるデータ(データフレームまたは行列)の 各対象変数の単位や尺度に注意する必要があります。 prcomp()関数の上記引数を用いて各変数を正規化する、 または、主成分分析を行なう前にデータの各変数を正規化しておく 必要があります。 参考: 『Rによる統計解析』 P.197 によると、 ade4
追記(2017年7月) こちらのスキル要件ですが、2017年版を新たに書きましたので是非そちらをご覧ください。 「データサイエンティストというかデータ分析職に就くためのスキル要件」という話題が某所であったんですが、僕にとって馴染みのあるTokyoR界隈で実際に企業のデータ分析職で活躍している人たちのスキルを眺めてみるに、 みどりぼん程度の統計学の知識 はじパタ程度の機械学習の知識 RかPythonでコードが組める SQLが書ける というのが全員の最大公約数=下限ラインかなぁと。そんなわけで、ちょろっと色々与太話を書いてみます。なお僕の周りの半径5mに限った真実かもしれませんので、皆さん自身がどこかのデータサイエンティスト()募集に応募して蹴られたとしても何の保証もいたしかねますので悪しからず。 統計学の知識は「みどりぼん以上」 データ解析のための統計モデリング入門――一般化線形モデル・階層
どうも。 1月に入社したばかりの、データ分析担当のn_maoです。 と言いながら、最近はHTMLとjsばかりいじっております。 それはそれで楽しいです。 さて今回はデータ分析のざっくりとした仕事内容と、その分析にかかる手間を省くツールをご紹介します。 データ分析の仕事 まずは私の行っているデータ分析という仕事の内容をご紹介します。 私の主な仕事は大きく分けて4つです。 売上げ、会員登録数などの簡単な集計&自動レポーティング データベースからの知識発見(いわゆるデータ分析) 分析結果をもとにした企画立案 実施された企画の効果検証 あくまで私個人の仕事内容であり、データ分析者全員に当てはまるわけではありません。 アルゴリズムの研究開発の方や、インフラ寄りの方もいらっしゃるでしょう。 ですが、同じ職種の方で業務範囲が被っている方も少なからずいらっしゃると思います。 これら4つの業務の中で一番時間
About this site ビジネスデータ分析のハウツーをコンテンツとする個人製作のサイトです。基本的にハウツーの延長線上でHTMLやCSS,あるいはCGを書(描)いてみたいと思った筆者の趣味的サイトでしかありませんが,もしどこかでどなたかのお役に立つことがあれば幸いです。 プライバシーポリシー・権利表記・著作権と禁止行為・免責事項 プライバシーポリシーその他 その他特に記載しておくべき事項 ハウツー上の設定はフィクションです。例示として使用した人物・会社・店舗および出来事は,実在の対象,あるいは実際に起きた事象とは一切関係ありません。 既存のコンテンツについて,内容の充実を図るため適宜修正・補足等の見直しを入れることがあります(この場合当該箇所に修正内容に関する注釈はおかず,文面等を直接書き換えいたします)。 筆者/サイト管理者 hawcas ご返答いたしかねますこと 「操作手順のこ
ある大手チェーンのスーパーであったこと。 そこは東京近郊の駅前にあって24時間営業の店なんだけど、朝の6時~8時はレジを2~3台で回していた。 でもある日、上の意向でこの時間のレジは基本1台のみで回すことになった。 レジの回転率の数値を見て1台で充分回せるとわかったため経費削減の判断だ。 しばらくレジは1台で回していたのだが、ほどなくしてこの時間帯の来客・売上げはかなり落ちてきた。 レジの稼動を1台に絞れという判断は、来客が少ないのにレジに余計な人件費をかけるという 無駄を事前に防ぐことができたとその判断自体はそれなりに評価されたらしい。 でもこの時間帯に現場で働いている人間はバイトでも知っている。 来客数・売上げが落ちた理由は稼動レジを1台に絞ったためだ。 確かにレジ1台でも充分裁くことができる来客数だったんだけど1台だと常にレジに列ができている状況だった。 この時間帯に来る客は、主に通
データ分析がデキるITエンジニアになるために必要な「道具」を揃える:ITエンジニアのためのデータサイエンティスト養成講座(2)(1/4 ページ) データ分析の準備・加工に優れた道具とは? 今回はITエンジニアがデータ分析する際のデファクトスタンダードになっている環境をセットアップしていきます。 連載バックナンバー はじめに 連載第1回 「ITエンジニアがデータサイエンティストを目指すには?」ではデータサイエンティストの役割を説明し、その中でITエンジニアが担う役割と必要となるスキルについて解説しました。第1回の中でも述べましたが、この連載の目的の1つはデータサイエンティストを目指すITエンジニアが必要最低限の知識とスキルを中心に紹介し、読者の皆さんにすぐに始められることから実際に着手していただくことですので、第2回の今回は実際に分析使う“道具”をご紹介します。この連載では分析ツールとしてP
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く