タグ

ブックマーク / tjo.hatenablog.com (13)

  • データサイエンティスト含むデータ分析職の仕事がつらい4つの理由:洋の東西を問わずつらみは同じらしい - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Pixabay) 某所でバズっていたこの記事ですが。 もう読んだ瞬間に「うわー、これ完全に洋の東西を問わずデータ分析業界だとどこでも見られる、業界つらみあるあるだなー」という感が湧いてきて、こみ上げてくる涙が押さえきれませんでした(嘘)。という軽口はさておき、実際にほぼ同じ内容の愚痴をUSでデータサイエンティストとして働いていた知人からも直に聞いたことがあるので、個人的にもかなり説得力のある話だなと思いました。 この記事の若干嫌なところは「データサイエンティストたちはいつでも転職活動をしている、何故ならどこの職場に行っても以下のつらみがあるからだ」という書き方をしている点。いや、データサイエンティスト含むデータ分析職が全員常に転職活動しているかというとさすがに違うだろうと思いますが、「それくらいつらいんですマジ勘弁して下さい」と言われたら頷かざるを得ないのもまた事実かな

    データサイエンティスト含むデータ分析職の仕事がつらい4つの理由:洋の東西を問わずつらみは同じらしい - 渋谷駅前で働くデータサイエンティストのブログ
    kimutansk
    kimutansk 2018/04/03
    データと名のつく職は多かれ少なかれこの手の4つのつらみは背負うので、単に誰がやるかというだけな気はしますね。基盤がカスサポ扱いになるとかもあります。
  • Web系サービス運営でKPIを決める時に気を付けるべき3つのポイント - 渋谷駅前で働くデータサイエンティストのブログ

    そろそろ新職場にも慣れてきましたよ、ということでちょっと与太話でも。少し前のTokyoWebminingでも話題になっていた、「KPIの決め方」についてです。 ところで、現場によってはKPIが何故か売上高とか営業利益とか「目標そのもの」になってしまっているケースがあると聞くんですが、そういう方には『「KPI」=「目標」だと勘違いしていませんか?|中野康之のソーシャルメディア運営で「ビジネスを加速」させるブログ』を一読されることをお薦めします。 売上や利益など、 対外的に提示する一般的な指標を「目標」とするのに対し、 内向きの行動に繋がる具体的な指標が「KPI」です。 ものすごーく当たり前のことだと思うんですが、一昔前の体育会系営業みたいな「とにかく毎日の売上高にしか興味がない」というやり方*1でいくと、Web系サービスのような施策介入できる余地が限られている業界*2ではどんどん手詰まりにな

    Web系サービス運営でKPIを決める時に気を付けるべき3つのポイント - 渋谷駅前で働くデータサイエンティストのブログ
    kimutansk
    kimutansk 2017/03/09
    大局的トレンドを反映/施策で改善or介入可能/種類を増やしすぎない、と。小手先でKPIハックするのが本末転倒なのはまぁ・・・
  • 「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ

    何かこんなメディア記事が出ていたようです。 これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か(両分野に詳しい)誰が読んでも猛烈な違和感を覚える」ところなんじゃないかなぁと。 正直、これはライター・インタビュアー・コメンテーター・編集者の誰のせいなのかは全く分からないんですが、ツッコミ入れられまくっている内容について色々あげつらってもあまり建設的でないので、ここでは記事中で題として取り上げられている「統計学と機械学習の違い」についてちょっとコメントしてみようと思います。 あ、もちろん僕がこれから書くコメントも別に正しいとは全く限らないので、おかしいところや間違ってるところがあったらバンバン突っ込んでいただければ幸いです*1。そしてガチ勢向けのコメントでもないので何卒悪しからず。 統計学はデータを「説明」す

    「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ
    kimutansk
    kimutansk 2015/09/18
    違いは基本あまり無く重なる部分だらけですが、統計は「説明」に軸足があり、機械学習は「予測」に軸足があると。
  • 「統計モデリングとは何なのか」をいま一度整理してみる - 渋谷駅前で働くデータサイエンティストのブログ

    もうタイトルを読んで字の如しなんですが、要は「統計モデリングってぶっちゃけ何なのよ?」という問題意識が最近非常に局所的ながら影響力の大きいところ*1から出てきておりまして。 で、僕もその議論にマターリ参加しながら「このもやもやしたものをどうやったらうまく表現できるかなー」と思っていて、何日かして自分なりにちょっと整理がついた気がするので、自分向けの備忘録も兼ねてちょっとブログにまとめてみることにしました。ちなみに@berobero11さんは既にこの議論についてまとめていらっしゃるようで。 あてはめの原理・あてはめを実装する計算法・モデル そうそう、今回もお題はこちらの久保先生の緑です。というかここから議論が始まったわけで。 データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学) 作者: 久保拓弥出版社/メーカー: 岩波書店発売日: 20

    「統計モデリングとは何なのか」をいま一度整理してみる - 渋谷駅前で働くデータサイエンティストのブログ
    kimutansk
    kimutansk 2014/06/06
    個々の手法を学ぶのは何とかなっても、こういう統計の「モデリング」はきちんと積み重ねないとどうにもならないのが大変な所ですねぇ・・・
  • 社会人が統計学や機械学習を学ぶなら「落下傘方式」で - 渋谷駅前で働くデータサイエンティストのブログ

    今日何気なく呟いたツイートが、見ていたら結構RT&favされていた模様で。 社会人が統計学とか機械学習を独習するには、いわゆる「落下傘方式」が良いと思う。必要な時にその項目だけ学んで実践する。その繰り返しで学問体系のマス目が埋まっていけば良し。あと、初めに体系立ったテキストを分からなくても良いので通読するのも良し。だいたいの地図が頭に入る。— TJO (@TJO_datasci) 2014, 3月 31 この後も色々補足で呟いたんですが、せっかくなので簡単にまとめたものを書いてみました。これから社会人で統計学や機械学習を学ぼうと考えている人の参考になれば嬉しいです。 あ、これはベタな言い方をすれば「データサイエンティスト(死語)になるにはどうしたら良いか」にもつながる話なんですが、ここではもっと広く「統計学や機械学習を使う仕事をしたいと思ったらどう独習するべきか」という話にしておこうと思い

    社会人が統計学や機械学習を学ぶなら「落下傘方式」で - 渋谷駅前で働くデータサイエンティストのブログ
    kimutansk
    kimutansk 2014/04/01
    結果論としては私もこの方式でちょこちょこ学んでいる気はしますねぇ。最初から体系的には重すぎる・・・この分野で研究することはないでしょうからまぁいいですか
  • 「ビッグデータ」「データサイエンティスト」後のデータ分析業界はどうなっていくのか - 渋谷駅前で働くデータサイエンティストのブログ

    先日の合同企業説明会でご来場いただいた就活生の皆さんにこの話題をだいぶ話したので、続きの意も込めてちょっと書いてみようと思います。実はその時お話した内容について、後日データ分析者同士の飲み会を開いた時に色々議論になったもので(笑)、そのフィードバックも兼ねるかなぁという。 そうそう、この記事でも引き合いに出しますが「アルゴリズム実装系」「アドホック分析系」というデータサイエンティストの分類については、以下のslideshareをお読みあれ。 最新業界事情から見るデータサイエンティストの「実像」 from Takashi J Ozaki そして予めお断りしておきますが、今回の記事も基的には僕の個人的なデータ分析業界での経験と見聞に基づいて独断を並べているだけで、言ってみればただのポジショントークです。何かしら客観的な数値的根拠とかそういうものがあるわけではないので、悪しからず。。。 バズワ

    「ビッグデータ」「データサイエンティスト」後のデータ分析業界はどうなっていくのか - 渋谷駅前で働くデータサイエンティストのブログ
    kimutansk
    kimutansk 2014/02/06
    「データサイエンティストというバズワードは消える」と。ただそれだけデータ分析が当然のように行われる流れは消えないのは確かですか。
  • パッケージユーザーのための機械学習:教師あり学習同士で分離超平面・決定境界を比較してみる - 渋谷駅前で働くデータサイエンティストのブログ

    このシリーズ記事では、Rで*1色々な機械学習のアルゴリズムについて、それらがどんなものなのかを簡単なデータに対して分離超平面・決定境界を描きながら見てきました。 パッケージユーザーのための機械学習(1):決定木 - 銀座で働くデータサイエンティストのブログ パッケージユーザーのための機械学習(2):ロジスティック回帰 - 銀座で働くデータサイエンティストのブログ パッケージユーザーのための機械学習(3):サポートベクターマシン(SVM) - 銀座で働くデータサイエンティストのブログ パッケージユーザーのための機械学習(4):ニューラルネットワーク - 銀座で働くデータサイエンティストのブログ パッケージユーザーのための機械学習(5):ランダムフォレスト - 銀座で働くデータサイエンティストのブログ ということで今回はおさらいとして、これまで見てきた教師あり学習同士で分離超平面・決定境界のプ

    パッケージユーザーのための機械学習:教師あり学習同士で分離超平面・決定境界を比較してみる - 渋谷駅前で働くデータサイエンティストのブログ
    kimutansk
    kimutansk 2014/01/07
    2次元に射影して落とし込むとこういう風に見えるよ、という目安としてはいいかも。これを前提に何かを可視化につながりますかねぇ・・・
  • 2013年の「データサイエンティスト」狂想曲と個人的なあれこれとを振り返る - 渋谷駅前で働くデータサイエンティストのブログ

    早いもので、2013年も過ぎようとしているこの年末ですが。一応ブログのタイトルに「データサイエンティスト」と入っているので(笑)、せっかくなのでこの1年間のデータサイエンティストにまつわる狂想曲と、僕自身の今年のヒストリーとを簡単に振り返ってみようと思います。 とりあえず、ざっとトレンドを掴むためにGoogleトレンド「データサイエンティスト」の結果を載せておきます。 もう見るからに、全力でバズってから一気に下降線をたどってるのがよく分かりますねー。ここまであからさまだと実に清々しいです。 それは、HBR日版2月号の「データサイエンティスト」特集から始まった 以前の記事でHBR家版に載っていたDavenportの論説について取り上げましたが、それが日語版になったのが2月号だったようです。確か12月か1月ぐらいに刊行されていたような記憶が。 2013年2月号目次 | 特集:ビッグデータ

    2013年の「データサイエンティスト」狂想曲と個人的なあれこれとを振り返る - 渋谷駅前で働くデータサイエンティストのブログ
    kimutansk
    kimutansk 2013/12/31
    「データサイエンティスト」のBUZZっぷりが収まり、ようやく実際の所が見えるようになってきた。。ということなんでしょうかね。来年どうなりますやら。
  • 「日本型データサイエンティストの登場を契機に活用が進展」記事について二言三言 - 渋谷駅前で働くデータサイエンティストのブログ

    先日、Twitter上&FB上にこんな記事が出回っていたので読んでみました。 日型データサイエンティスト、CDO、CAO:日型データサイエンティストの登場を契機に活用が進展、野村総合研究所が予想 - ITmedia マーケティング データ分析をビジネスに活用するためには、高度なデータ分析の専門家である「データサイエンティスト」の存在が不可欠だとNRIでは認識している。しかし同社の調査によると、現時点では、日企業で社内にデータサイエンティストがいる企業は8%程度と、ごく一部。今後、現場力とコンサルタント的スキルを持つ「日型データサイエンティスト」登場し活躍することで、データ分析がビジネス展開に大きく貢献する成功事例が、徐々に現れてくると予測する。 また、米国で設置が進むCDO(チーフ・データ・オフィサー:最高データ責任者)やCAO(チーフ・アナリティクス・オフィサー:最高分析責任者)

    「日本型データサイエンティストの登場を契機に活用が進展」記事について二言三言 - 渋谷駅前で働くデータサイエンティストのブログ
    kimutansk
    kimutansk 2013/11/26
    データ分析は欠かせなくなるものの、自前で有効に出来る組織は限られたままといった感じでしょうか。確かにデータサイエンティスト養成するだけではあまり意味なさそうですが
  • たとえ有償でも絶対に引き受けてはいけないデータ分析依頼の3タイプ - 渋谷駅前で働くデータサイエンティストのブログ

    id:dscaさんのタダでは引き受けてはいけないネタが大ブレークしてるみたいですね。 データの分析をタダで引き受けてはならない10の理由 - ネガティブにデータサイエンティストでもないブログ 受託系便利屋的なポジションの悲哀が大変よく透けて見える良記事だと思うんですが、一方で仮に金を取ったとしても引き受けてはいけない案件というのもよくあるものです。 ということで、便乗して「たとえ有償でも絶対に引き受けてはいけないデータ分析依頼の3タイプ」とか僕がこれまで経験してきた様々な現場and/or案件での事例を踏まえて、適当に吹聴してみようと思います。 なお、「前処理が煩雑」とか「DB整備が貧弱でCSVでデータをやり取りしなければならない」というような構造的な問題点は別物なので、今回は割愛しましたごめんなさい。 (※これは他所の様々な現場での話を聞き取ってまとめた話であり、現職場の話ではありません!

    たとえ有償でも絶対に引き受けてはいけないデータ分析依頼の3タイプ - 渋谷駅前で働くデータサイエンティストのブログ
    kimutansk
    kimutansk 2013/10/28
    こういうのって、データ分析でなくてシステム開発でもざらに当てはまる気がしますねぇ・・・
  • キャリアの途中で「今からデータサイエンティストに転じたい」と思ったらどうするべき? - 渋谷駅前で働くデータサイエンティストのブログ

    最近になって、前よりもさらに多くの方々から「データサイエンティストになりたいと思ってるんだけどどうしたらいいか」と相談されることが増えてきました。まぁ、これだけ新しいキャリアとして喧伝されていれば当然かと。。。 で、新卒ならどうしたら良いか?という話は既にしました。さすがに新卒だとデータサイエンティストを志望する人であってもそこまでスキルを持っていないのが普通*1なので、「少しでも経験を積みやすい企業に入りましょー」としか言いようがないんです実際。 しかしながら、新卒に比べて圧倒的に多いのは「今○○やっててこれからデータサイエンティストに転じたいんだけど。。。」という相談なんですよね。つまり中途というか、既に○○のキャリアの途中まで来たところでデータサイエンティストに転じよう、という。 ぶっちゃけ「データサイエンティストになれる人はなれるし、なれない人はなれない」以上のことは言いようがない

    キャリアの途中で「今からデータサイエンティストに転じたい」と思ったらどうするべき? - 渋谷駅前で働くデータサイエンティストのブログ
    kimutansk
    kimutansk 2013/10/16
    データサイエンティスト専業がそもそもなくて、他のスキルを土台としてその上で解析をしている気もするので、仕事の割合が戻るだけ・・なんですかね。実際のところは。
  • 「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ

    先日の記事はおかげさまで好評をいただいたんですが、勉強中の身で教科書を確認せずに書いたこともあり多数ツッコミをいただきました。ツッコミをいただけるというのはもちろん大変良い勉強の機会になるということで*1、今回もひとしきり勉強してみました。 ということで、自戒も込めて備忘録的に勉強したことをまとめておこうと思います。今回はあまり広く読んでもらう内容ではないので、不親切かもしれませんがごめんなさい。ただし、あまりにも理論的側面ばかり色々書いても何なので、インターネット広告業界の言葉で喩えて言うなら「クリック数*2をモデリングしたい場合」と「コンバージョン数*3をモデリングしたい場合」とに分けた、と理解してもらえたら良いかなと思ってます。 今回も参考文献は久保です。一般化線形モデルまわりではこのより分かりやすいは依然としてないと思います。 データ解析のための統計モデリング入門――一般化線

    「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ
  • 「毎日の数字を追いかけ、毎日改善する」ことの意外な落とし穴 - 渋谷駅前で働くデータサイエンティストのブログ

    (※今回の記事の内容はかなり難解かもです) 大竹文雄の経済脳を鍛える(2月13日分記事) 幾何ブラウン運動と見せかけの回帰 - My Life as a Mock Quant 得てして多くの企業では、「毎日の数字(売上高・利益・在庫etc.)を追いかけ」、「その結果を元手に毎日改善する」ということを日々励行しているのではないかと思います。 ところで、こんな体験したことはありませんか? 「毎日毎日、物凄く一生懸命数字を見ながら頑張ってカイゼンし続けて、確かに頑張った時は数字は上がったし、頑張りが足りない時は数字が下がった。それに一喜一憂しつつもずっと物凄く頑張り続けた・・・でも、あれからもう数ヶ月経ったのに全体としては数字は下がってきている。どうしてなんだろう???」 なるほど、もしかしたらその時の改善努力が正しくなかったのかもしれません。でも、実は「そもそも改善努力と数字とは何の関係もなか

    「毎日の数字を追いかけ、毎日改善する」ことの意外な落とし穴 - 渋谷駅前で働くデータサイエンティストのブログ
    kimutansk
    kimutansk 2013/04/17
    統計学を知らずともわかる平易な内容ですが、とりえず目の前の数字に没頭すると見えなくなってしまう内容でもありますね・・・
  • 1