tl;dr Task: SSの本文から原作(10作品)を推定(教師あり学習。Classification) Feature Engineering: 本文内の単語 + TF-IDF Classifier: SVM, Logistic Regression, Random Forest Accuracy: 98.5% Jupyter Notebook(GitHub上) 背景 最近RailsやNode.jsを書くサーバエンジニアから、広告配信を最適化する機械学習エンジニアへと転身しつつありまして、日々Courseraのビデオを見たり論文を読んだりしています。 サーバエンジニア時代も当時のスキルを活かすために趣味でアプリを作ったりしていたので、今回は最近身につけた機械学習スキルを使って、趣味レベルで少し遊んでみることにしました。 といっても、すでにやり尽くされているMNIST(手書き文字の数字)