前置きというか概要 今年のEMNLP2017で提案されていたSCDV(Sparse Composite Document Vectors)について、日本語のコーパス(livedoor ニュースコーパス)で検証しました。 20171114追記 fasttextベースのSCDVによるテキスト分類精度を追記しました。 SCDVのモチベーション (https://dheeraj7596.github.io/SDV/) いい感じのランディングページまで用意していてすげえなって思いました。論文は当然のようにarxivで公開されています。大正義。 https://arxiv.org/pdf/1612.06778.pdf HTMLで読みたい方はこちら。https://www.arxiv-vanity.com/papers/1612.06778/ これを読んでいる皆様に、「どうにかして文章のベクトルが欲しい
![文書ベクトルをお手軽に高い精度で作れるSCDVって実際どうなのか日本語コーパスで実験した(EMNLP2017)](https://cdn-ak-scissors.b.st-hatena.com/image/square/f6da39988dc15683cfd628a6fd5ba895abd4166f/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9JUU2JTk2JTg3JUU2JTlCJUI4JUUzJTgzJTk5JUUzJTgyJUFGJUUzJTgzJTg4JUUzJTgzJUFCJUUzJTgyJTkyJUUzJTgxJThBJUU2JTg5JThCJUU4JUJCJUJEJUUzJTgxJUFCJUU5JUFCJTk4JUUzJTgxJTg0JUU3JUIyJUJFJUU1JUJBJUE2JUUzJTgxJUE3JUU0JUJEJTlDJUUzJTgyJThDJUUzJTgyJThCU0NEViVFMyU4MSVBMyVFMyU4MSVBNiVFNSVBRSU5RiVFOSU5QSU5QiVFMyU4MSVBOSVFMyU4MSU4NiVFMyU4MSVBQSVFMyU4MSVBRSVFMyU4MSU4QiVFNiU5NyVBNSVFNiU5QyVBQyVFOCVBQSU5RSVFMyU4MiVCMyVFMyU4MyVCQyVFMyU4MyU5MSVFMyU4MiVCOSVFMyU4MSVBNyVFNSVBRSU5RiVFOSVBOCU5MyVFMyU4MSU5NyVFMyU4MSU5RiUyOEVNTkxQMjAxNyUyOSZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnM9NDdhYzhkMGM2MjBjMTM5YjZhNWE0YzY0ZTdiZTQ5ZDE%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDBmdWZ1ZnVrYWtha2EmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTFjOGY5ZTY0NjA5MzJhMzQ5NTEzZDFiZDA2ZWIyOTcz%26blend-x%3D142%26blend-y%3D486%26blend-mode%3Dnormal%26s%3D33254437f32a28757cea751158118e83)