追記 (9月30日 22:00) Q : 本文も用いると更に良いのではないか A : 可能な限り氏が翻訳した記事を開きたくないため、タイトルだけを用いた Q : 深層学習ではない手法との比較がない A : 追加実験を行った。登場する語彙の上位 12,000 個の bag-of-words を用いたところ RandomForest (class_weight = 'balanced', n_estimators = 500) では精度 0.93 , 再現率 0.66, f値 0.78 LinearSVC (sklearn のデフォルトパラメタ) では精度 0.88, 再現率 0.81, f値 0.84 となり、深層学習とあまり差がないことがわかった。 Q : 理由は何か 単語の頻度足切りを変化させても精度が変わらないことから、特定の語に強く反応している可能性がある。または特定ジャンルの記事が
![TechCrunch JP のタイトルから hiwa 氏の翻訳か否かを深層学習で推定する](https://cdn-ak-scissors.b.st-hatena.com/image/square/b1638cdb5807a4788e4ba3c1109a984166e095fc/height=288;version=1;width=512/https%3A%2F%2Fanond.hatelabo.jp%2Fimages%2Fog-image-1500.gif)