人間が分類したデータを教師データとしてテキスト分類をしている際に人間がデータの間に介在することによる弊害が出てきたので、教師なしのテキスト分類器を作ってみました。 人間がラベル付けすることによる問題点 階層構造にあるデータを並列にラベル付ける 人によって大きく判断が違ってくるようなラベルをつける 作業開始時点と終了時点でラベルの付け方が変わる 参考資料 コンピュータビジョン最先端ガイド6 (CVIMチュートリアルシリーズ) Deep Learning Tutorials Distributed Representations of Sentences and Documents, Le+, 2014 やったこと Doc2Vecで各文書について他の文書との類似度ベクトルを作成 SVDで次元圧縮 k-meansでクラスタリング k-meansでなくてグラフアルゴリズムで分類した方が良かったな、
![Doc2Vecとk-meansで教師なしテキスト分類 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/943a09654239519d0e5057a9d95902a07f4a10d8/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZ0eHQ9RG9jMlZlYyVFMyU4MSVBOGstbWVhbnMlRTMlODElQTclRTYlOTUlOTklRTUlQjglQUIlRTMlODElQUElRTMlODElOTclRTMlODMlODYlRTMlODIlQUQlRTMlODIlQjklRTMlODMlODglRTUlODglODYlRTklQTElOUUmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT01NiZ0eHQtY2xpcD1lbGxpcHNpcyZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTBiNTJmN2E5NWZmYmNiN2I2MzQzOGFiNGI3N2Y4ZmZi%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTYxNiZ0eHQ9JTQwc2hpbWFfeCZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTM2JnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9OTc3YjA3MDkzZWVlOWExOGFlOWEzNmRjYTEzOTc1MzU%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3D2b24f8549b117eb5f34fd6bd48bc5459)