ビッグデータに関するiboggyのブックマーク (2)

  • Pythonでデータ分析:imbalanced-learnで不均衡データのサンプリングを行う - データサイエンティスト(仮)

    導入 クラス分類、例えば0:負例と1:正例の二値分類を行う際に、データが不均衡である場合がたびたびあります。例えば、クレジットカードの取引データで、一つの取引に対して不正利用かどうか(不正利用なら1、それ以外は0)といった値が付与されているカラムがあるとします。通常、不正利用というのは稀に起こる事象なので、不正利用かどうかが格納されているカラムに関してはほとんどが0で、1がほとんどない、という状況になりがちです。 上記の状況で不正利用を予測するようなモデル構築をする場合、目的変数として不正利用かどうかを用いることになりますが、0と1の比率が50%から極度に乖離します(1の比率が0.X%とかになる)。こういったデータで予測モデルを構築すると、往々にして負例だけを予測する(予測値がすべて0になる)モデルになりがちです。というのは、不均衡なデータの場合はそれでも「正解率(Accuracy)」が高

    Pythonでデータ分析:imbalanced-learnで不均衡データのサンプリングを行う - データサイエンティスト(仮)
    iboggy
    iboggy 2017/12/12
    自分でupsampleしてたけど、こんな関数もあるのか。
  • 患者の予後はビッグデータで予測せよ

    電子カルテと治療計画のデータから、がん患者の治療後生存期間を予測する――。機械学習machine learning)の手法を使って、そんなことが可能になる日が遠からずやってきそうだ。 その最前線に立つ領域の1つが、がんの放射線治療。数理モデルを駆使する治療法である放射線治療と、機械学習の親和性は高い。両者を融合する取り組みが今、始まろうとしている。 東京大学 医学部附属病院 放射線科の馬込大貴氏は、医学物理士/診療放射線技師の立場からそうした研究を精力的に進めている。同氏は2016年2月10日に東京都内で開催された「第38回がんプロ合同セミナー ~医療ビッグデータの将来像~」(主催:東京大学)に登壇。「機械学習・パターン認識技術に基づく予後予測研究」と題し、放射線治療後の患者の生存期間を、機械学習のアプローチで予測する試みなどを紹介した。

    患者の予後はビッグデータで予測せよ
    iboggy
    iboggy 2016/02/17
    現状だとサンプル数が少なすぎるきはする。でも、こういった試みは大事だろうな。将来的にはdeep learningの結果を解説する仕事とかできるんかな。
  • 1