東大の鹿島先生の日記機械学習についての日々の研究 より、Amazon MechanicalTurkで作成された自然言語処理のデータが公開されていることを知る。 nlpannotationsデータはナマモノなので、いつ手に入らなくなるか分かりません。Netflix PrizeやYahoo! Learning to Rank Challengeのデータもいつの間にか消えているみたいだし…Netflix Prize: HomeYahoo! Learning to Rank Challenge というわけで件のnlpannotationsをダウンロードしてみました。データの形式はやや分かりにくいのですが、アノテーションの説明を見ると、 ニュースのヘッドラインを見て受ける印象(感情)7種類についてスコア付けする 単語間の類似度をスコア付けする ある文が別の文の仮説を支持するかどうか判定する 文中の2