2013年8月6日のブックマーク (2件)

  • How Mint.com Turned 2 Million Users Into A Living Snapshot Of The Economic Recovery

    kisa12012
    kisa12012 2013/08/06
  • Active Learning を試す(Uncertainly Sampling 編) - 木曜不足

    教師あり学習の教師データの作成はとても大変。例えば、twitter 言語判定のために、訓練・テストデータあわせて70万件のツイートに言語ラベルを振った人もいたりいなかったり。 Active Learning(能動学習) はそんな教師データ作成のコストを抑えながらモデルの性能向上を測るアプローチの1つ。 具体的には、正解なしデータの中から「こいつの正解がわかれば、モデルが改善する(はず)」というデータを選び、Oracle と呼ばれる「問い合わせれば正解を教えてくれる何か(ヒント:人間)」にそのデータを推薦、得られた正解付きデータを訓練データに追加して、以下繰り返し。 しかし「こいつの正解がわかれば、モデルが改善」を選び出す基準なんて素人考えでも何通りも思いつくわけで、実際 Active Learning のやり口は幾通りもある。 Active Learning Literature Surv

    Active Learning を試す(Uncertainly Sampling 編) - 木曜不足
    kisa12012
    kisa12012 2013/08/06
    多値分類のように最上位のクラスを求める問題ではMarginの方が有効な事が多いという実感です.Entropyは下位クラスの情報に引っ張られて,よく分からないデータを取ってくる事が多々.