サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
体力トレーニング
yanashi.hatenablog.com
はじめに 全然データマイニングとは関係ないけど昔から思っていること。特に今日じげんが上場した今日だから考えをまとめてみようと思います。平尾くんはものすごく尊敬しているし、昔から人として憧れているし、今でも自分の身近に居てどの起業家よりも憧れている起業家です。実は医学部を受験してたんですが、そんな中で唯一慶応のSFCを受験した理由は平尾くんの影響がとっても大きいです。って思う中で、自分の中で人が成功する中で一番重要な能力である「勝負強い」という能力について自分なりにまとめてみようと思いました。 じげんの平尾社長、新規公開株が過熱「いいタイミングで上場できた」 http://t.co/l6zPsEMKcH— 日経電子版 マーケット (@nikkei_market) 2013, 11月 22 どうしてそう思うかというと 平尾くんにあった人は”平尾くん”と彼を呼ぶことに違和感があると思います。って
はじめに タイトルからすぐに誤解を生みそうなので先にいっておくとデータサイエンティストに対してのネガティブな記事ではありません。自分としてはもっと世の中にデータを生かしてビジネスをより良くしていくことに対して価値を感じてくれる組織が一社でも増えてほしいと思っているし、その際にはデータサイエンティストが不可欠な機能だと思っているのでどうやったらデータやデータサイエンティストを組織で最大限活用できるかということに対する反面教師的な内容だと思ってほしいです。 組織におけるデータサイエンティストの立ち位置について 「データの分析をタダで引き受けてはならない10の理由」って記事が最近バズっていたけど客観的に見て同じような悩みを抱えている「データサイエンティスト」っていわれる人ってすごく多いんだろうなって思います。最近、ビックデータもしくはデータサイエンティストブームに踊らされて、組織内で「データサイ
はじめに いきなり数学っぽいで最近競技データマイニング界(そんな言葉があるかわからないがアルゴリズムの精度を競う大会)「Deep Learning」について調べていて思ったこと。別にDeep Learning自体には触れる気はないのでご興味のある方は以下のスライドを見てみてください: 日経ビジネスのDeep Learningの記事 −http://www.ymatsuo.com/papers/DeepLearningNikkei.pdf 一般的なDeep Learning −http://www.slideshare.net/pfi/deep-learning-22350063 ざっくりと何がすごいかというと「汎用的な特徴の集合から複雑な特徴を勝手に解釈してくれる」らしい。そりゃ一般的なサービス開発に向いてるよねと思ったら、しっかりとこのアルゴリズムを作った人の会社はGoogleにすぐに買
はじめに データマイニングの仕事をやっているとよく『最適化』という言葉に出くわすことがある。例えば、『データマイニングの技術を使って広告効果を最適化してます』とか『うちのゲームはデータ分析によってユーザーに対して最適なコンテンツを出し分けている』とか。 自分も困ると『データマイニングにより最適化を行ってます』と話しちゃうことが多い。そりゃ「最適化=最も適した状態にすること」なんだから話を聞いた相手もぐうの音も出ないから相手を説得しやすい。 でも、最適化って「どう最適化するか=データマイニング技術」よりも「何を最適化するか=何をKPIにするか」の方がお金儲けに直結するし、そここそがデータマイニングのコアになっていることが多いと思うので、それに関する個人的な意見。 例として広告における最適化 「CPA最適化」とか「CTR最適化」とか。ネット上でとれる数値に対して最適って言う文脈で出ることが多い
Big data is like teenage sex 検索で引っかかったどこぞやの大学の人の言葉を引用してみました。 Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone... http://t.co/tREI1mRQ— danariely (@danariely) 2013, 1月 6 ざっくりとした訳は「みんながそれについて話し合うけど、実際それをどうやるか知らない。自分以外のみんながそれをやっていると思っているから、みんながやっているといっている。」って感じ。 最近思うこと 「ビッグデータ」はアドテクの業界でも「データマネジメントプラットフォーム」とかDSP/RTBとかに関連して話題になっているし、よくお客さ
データセクションさんのご好意でTwitterやFacebookに投稿された内容の時系列データをいただいたので、今日は選挙だしソーシャルメディアの情報からいろいろと分析をしてみました(最下部に今回分析したデータの元データも公開しています)。 データについて データの集計対象は12月3日〜15日までにTwitter/Facebookに投稿されたデータで集計の関係上直近一週間のデータは集計の関係上一部サンプリングされたデータが使われています。分析結果はTwitter/Facebookに投稿された投稿内容のテキスト情報を元に作成しています。 例えば、自民党のデータであれば「自民党 選挙」という文字列が含まれているテキスト情報に分析を行っています。またTwitter/Facebookを使っている人たちの平均的な傾向として「。」という文字が含まれたデータを平均値として用いています。さらに今回は総選挙の
前回のエントリーではどちらかというと技術的な区分で今回のエントリーではデータマイナーとして持っていると愛される(=仕事を湯水の如くふられる)ために必要なソフトスキルについての経験的なメモ。 せっかくデータマイナーをやるなら、マネーボールのピーター・ブランド(サーバーメトリックスの人)見たいに愛されながら働きたいですよね、ということでそのために必要だと思ったこと: 1.数字をいくらでも見ていられるスキル 膨大なKPIの中からみるべき数字を見つけ出すとか、毎日決まった数字を何個も見続けられるスキル。毎日みているKPIから仮説を構築したり、考察を加えると重宝されます。毎日KPIをみると素早く異変に気づくことができるし、それがあまり得意ではない人も多いので、これをやってあげるとみんなに愛される(見るべきKPIが無限増殖する)人生がスタートします。 2.みんな気づかない数値の関係性が見つけられるスキ
タイトル通り「グリーを辞めました」ということで心機一転、はてなダイヤリーからはてなブログに移行して更新を真剣に再開しようかと。 <以下Facebookに記載した内容から転記> グリーには2年前の4月に新卒として入り、ドリランドの担当・編成の担当・FPのプラットフォームの立て直し、SP版プラットフォームの立ち上げから改善、そしてグローバル版プラットフォームの立ち上げ・・・新卒からで3年も働いていない人にも関わらず多くのチャンスを与えていただきました。 送別会も取締役や部長陣の方々を含む総勢100名以上の人がきてくださり、DJプレイ・ハマーのリムジンでのツアーやシャンパンタワーにシャワー・卒業ムービーなど今までのグリーの卒業式ではない盛りだくさんのイベントを楽しませていただきました。 これは中心となって卒業を祝ってくれた面々を中心としたグリーで関わった皆さんに支えられてのことだと思っております
「データマイニングを仕事とする人=データマイナー」はどういう人たちがいるかということについて ビックデータとかで世の中がバズってるけど「僕はデータマイニングをやってます!」といったときに適切にその人がやっている業務領域を把握している人ってかなり少ないと思う。 グリーで働いていたときもデータマイナーはどういった仕事をしていて、何をやっていて何ができるのかっていうことを理解していなくてミスコミュニケーションが生まれていたと思うのでちょっとその生態系についてまとめてみた。おそらく、データマイナーといわれる人は以下のタイプがいる: 研究開発をする人 統計学的に新しいイノベーションを起こせる人。Google のPageRankアルゴリズムを作りましたとか、NetfrixやAmazonのレコメンデーションエンジン作りましたとかいう人がこれにあたる。スキル的には統計学にかなり長けている必要があり、その他
RSCTC2010というのに統計解析のコンテストに 出場して(一応)世界で96人中3位になりました。 → http://tunedit.org/challenge/RSCTC-2010-B?m=leaderboard このコンテストが何をやるコンテストだったかというと DNAマイクロアレイのクラスタリングのコンテスト で、2クラスから5クラスの分類を 6課題くらい行うというものでした。 テストデータの段階では、微妙に19位くらいで 恥ずかしかったので周りにいわずにたらたらやって ました。 なので、ほとんど期待していなかったのですが 本番のデータでやってみたところ 精度が3位になっててちょっとびっくり。 (しかも、超僅差で3000USDもらい損ねた。。。) ただ、使ったアルゴリズムは むちゃくちゃ単純なので 解析のフローについて若干以下に書いておきます。 利用したのは ・ランダムフォレスト
バイト先で広告の効果測定を頼まれたので、前々から興味があったMCMCを使って測定を行った。 PythonにはPyMCという専用のパッケージがあるけど、そっちはどうも小難しい感じがしたので Rpyを使って使えるようにしてみた。 使い方はRで回帰分析をするときとほとんど同じでデータフレームと数式を入れると結果を出すという形式にした。 用いたデータは2004年1月〜2009年9月までの円ドルレートとアメリカの失業率。(http://www.mediafire.com/?mfo5mmezow3) MCMCで解析した結果とその際に行われた推定の過程をPDFファイルで吐き出してくれるようにした。 解析した結果はと言うと、失業率と円/ドルはそこまで関係が強くないらしい(回帰分析でR2が0.63くらい) 単変量であたるくらい単純なものだったら、FXで損する人はいないか。 以下、今回用いたソースコード。 #
主に精度部門に関して。 ビジネス部門に出ている人間の戯言なので、参考にならないかもしれないが。 どうも、上位の人たちと下位の人たちの知識レベルにあまりに差があると思ったので 自分が”精度を高める”と言うことだけにエンジンを作るとしたら ということをメモってみました。 参考にする方がいらっしゃったらどうぞ。 参考資料 ※ ネットフリックスのレコメンドエンジンコンテスト http://www.netflixprize.com/ ※ そのコンテストで賞金獲得の決め手となった、と言われているアルゴリズム http://research.yahoo.com/pub/2824 ※ Githubコンテストの上位者の論文 http://www.computer.org/portal/web/csdl/doi/10.1109/WI-IAT.2009.78 1.前処理 前処理として、必要なものは2点。 ・行列
このページを最初にブックマークしてみませんか?
『dataminer.me』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く