機械学習に関するiboggyのブックマーク (3)

  • Pythonでデータ分析:imbalanced-learnで不均衡データのサンプリングを行う - データサイエンティスト(仮)

    導入 クラス分類、例えば0:負例と1:正例の二値分類を行う際に、データが不均衡である場合がたびたびあります。例えば、クレジットカードの取引データで、一つの取引に対して不正利用かどうか(不正利用なら1、それ以外は0)といった値が付与されているカラムがあるとします。通常、不正利用というのは稀に起こる事象なので、不正利用かどうかが格納されているカラムに関してはほとんどが0で、1がほとんどない、という状況になりがちです。 上記の状況で不正利用を予測するようなモデル構築をする場合、目的変数として不正利用かどうかを用いることになりますが、0と1の比率が50%から極度に乖離します(1の比率が0.X%とかになる)。こういったデータで予測モデルを構築すると、往々にして負例だけを予測する(予測値がすべて0になる)モデルになりがちです。というのは、不均衡なデータの場合はそれでも「正解率(Accuracy)」が高

    Pythonでデータ分析:imbalanced-learnで不均衡データのサンプリングを行う - データサイエンティスト(仮)
    iboggy
    iboggy 2017/12/12
    自分でupsampleしてたけど、こんな関数もあるのか。
  • 人工知能は Deep Learning によって成されるのか? - Sideswipe

    最近は人工知能分野の話題に事欠かないので、IT系に詳しくない人でも、Deep Learning がどうとか、人工知能がどうとかという話題を耳にすることが多いと思います。 も杓子も Deep Learning な世の中ですが、そもそも人工知能とか Deep Learning ってなんなんだっけ? という疑問に答えられる人は多くないはずです。 今回は、広く浅く、人工知能と Deep Learning について書きます (この記事をご覧になればわかるように、人工知能 = Deep Learning では決して無いのですが、両者はよく並んで紹介されるので、ここでも同列に書いています)。 最初に結論 Deep Learning は(真の)人工知能ではない。なんでもかんでも人工知能って呼ばない。 「Deep Learning」、「人工知能」ともにバズワード*1になりつつあるので気をつけよう。 コンピ

    人工知能は Deep Learning によって成されるのか? - Sideswipe
  • 患者の予後はビッグデータで予測せよ

    電子カルテと治療計画のデータから、がん患者の治療後生存期間を予測する――。機械学習machine learning)の手法を使って、そんなことが可能になる日が遠からずやってきそうだ。 その最前線に立つ領域の1つが、がんの放射線治療。数理モデルを駆使する治療法である放射線治療と、機械学習の親和性は高い。両者を融合する取り組みが今、始まろうとしている。 東京大学 医学部附属病院 放射線科の馬込大貴氏は、医学物理士/診療放射線技師の立場からそうした研究を精力的に進めている。同氏は2016年2月10日に東京都内で開催された「第38回がんプロ合同セミナー ~医療ビッグデータの将来像~」(主催:東京大学)に登壇。「機械学習・パターン認識技術に基づく予後予測研究」と題し、放射線治療後の患者の生存期間を、機械学習のアプローチで予測する試みなどを紹介した。

    患者の予後はビッグデータで予測せよ
    iboggy
    iboggy 2016/02/17
    現状だとサンプル数が少なすぎるきはする。でも、こういった試みは大事だろうな。将来的にはdeep learningの結果を解説する仕事とかできるんかな。
  • 1