タグ

ブックマーク / tjo.hatenablog.com (4)

  • 機械学習システム開発や統計分析を仕事にしたい人にオススメの書籍初級5冊&中級10冊+テーマ別9冊(2019年1月版) - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Pixabay) この記事は以前の書籍リスト記事のアップデートです。 機械学習エンジニアやデータサイエンティストとして(もしくはそうではない職名であったとしても)機械学習システム開発や統計分析を仕事にしたい人なら、最低限これだけは読んでおいて損はないだろうという書籍を初級向け5冊、中級向け10冊選定しています。ただし、以前とは若干異なり「仕事にする」イコール「プロフェッショナルを目指す」ということで、特に初級向けリストを若干レベルアップさせています。中には初学者でも結構読みこなすのが難しいだけになっているかもしれませんが、中級向けリストに進む上でどうしてもこれだけは読破して欲しいという願望も込めました、ということで。 完全にお馴染みのネタなので特に説明することはないかと思いますが、言うまでもなく以下のリストは完全なる僕個人の独断と偏見で、最近出版されたり自分で読んだ

    機械学習システム開発や統計分析を仕事にしたい人にオススメの書籍初級5冊&中級10冊+テーマ別9冊(2019年1月版) - 渋谷駅前で働くデータサイエンティストのブログ
  • 多重比較補正のはなし - 渋谷駅前で働くデータサイエンティストのブログ

    最近になって、データ分析界隈で多重比較補正が話題に上ることが増えていると聞きまして。一方で、僕自身も何を隠そう研究者時代の専門分野が長年多重比較補正の問題に悩まされてきた分野だったこともあって、かなり若い頃から多重比較補正については色々勉強したり実践したり検討したりしてきたものでした。 ちなみに下記のリンクはその分野で広く使われている多重比較補正の方法論に重大な瑕疵があるのではないかと指摘した2年前の論文で、曰く「理論上は偽陽性(false positives)5%で済むはずのものが実際には偽陽性が最大70%に達する可能性がある」とのこと*1。 事によっては15年間に渡る40000件の研究が実は偽陽性まみれだったという可能性もあるという話で、多重比較補正って怖いんだなぁとつくづく思う次第です。 閑話休題。このように多重比較補正というのは「偽陽性」という統計データ分析においては厄介な問題と密

    多重比較補正のはなし - 渋谷駅前で働くデータサイエンティストのブログ
  • 研究者を辞めた時のこと、そしてその後のこと - 渋谷駅前で働くデータサイエンティストのブログ

    TL;DR これは、このブログの題とは何の関係もない僕自身の回顧録にして懺悔録であり、見ようによっては怪文書です*1。故に、記事中には何の参考になる内容も書かれていないことを予めお断りしておきます。それでも良いという方だけ、この先をお読みください。ただしTL;DRと書いた通りで、超長文につきご注意を。 当時から7年が経ち、この中に登場する人物の中には既にリタイアしている人もいれば、物故している人もいます。ある意味もう時効だろうということで、その時起きたことをつぶさに書いてみることにした次第です。 研究者を辞めた時のこと 研究者の道を目指した理由 正直言って無能だったが、勉強だけは熱心なポスドクだった ポスドク待遇改善運動、研究体制改革運動を経て、業界では知らぬ者のないお尋ね者になった そしてポスドクをクビになり、国内に行き先がなくなった 土壇場でシンガポールでのjob talkに招かれた

    研究者を辞めた時のこと、そしてその後のこと - 渋谷駅前で働くデータサイエンティストのブログ
  • パッケージユーザーのための機械学習(6):階層的クラスタリング - 渋谷駅前で働くデータサイエンティストのブログ

    さて、教師あり学習の方はひと段落ついたので、今度は教師なし学習の話をやっていこうかと思います。と言っても僕が知っている範囲でなおかつ常用するような教師なし学習はRでの実装が割と貧弱なので、シリーズとしてはあまり面白くない感じになりそうです(笑)*1。一応、単なるプランですが 階層的クラスタリング k-meansクラスタリング 主成分分析・独立成分分析 混合正規分布(EMアルゴリズム) 混合ディリクレ過程 あたりを取り上げれば良いのかなと思ってます*2。教師あり学習5編との比較のために、相変わらずサンプルデータにXORパターンとか使おうかなとは考えてますが、もしかしたら面白くないからとかいう理由でサンプルデータは変えるかもしれませんので悪しからず。 今回は階層的クラスタリングからいってみましょう。あれですよ、ウォード法とか出てくるアレです。僕は実は怠慢なのであまり教師なし学習に関する書籍は持

    パッケージユーザーのための機械学習(6):階層的クラスタリング - 渋谷駅前で働くデータサイエンティストのブログ
  • 1