はじめに 最近、教師データを作成する際に質の高いデータが欲しいなとという思いが強くなってきました。 そんなときにクラウドソーシングにおけるラベルの品質管理という話を知りました。 少し調べてみましたので、まとめて用いられている手法を実装してみます。 クラウドソーシングの品質管理 クラウドソーシングにおいて、一人のワーカが行ったラベリングでは、機械学習の教師ラベルとして用いるには質が劣ってしまいます。 タスクの難易度により生まれる解答の個人差や金銭のみを目的としたワーカが、でたらめな回答をしてしまうことがあるためです。 この状態を解消するために、複数のワーカにラベリングを行ってもらい結果を統合します。 しかし、単純な多数決では上記のような質の悪いワーカの回答にひっぱられてしまい、得られたラベルの質も悪くなってしまいます。 そこで、複数のワーカのラベリングから真のラベルを推定してラベルの品質を高