subcharacterに関しては,BERTやELMoといった文脈情報を扱える言語モデルでの検証はまだ少ないようで,さっと調べた感じだと見つけられませんでした。 論文間にまたがって分割単位が同じ部分がわかるように,分割ごとに色合いを変えた図を作成しました(見易さを優先し,作成した図の次元サイズ等は簡略化しています)。 論文リンクは下部の参考文献に記載しています。 1.Sub-character Neural language Modeling in Japanese (Nguyen et al.) 漢字の表現方法を部首(shallow)・さらに部首より小さい単位(deep)に分解。 言語モデルは単方向のLSTM 言語モデルのパープレキシティーの良さの順は,shallow > deep > baselineとなった。 論文内で紹介されている漢字の4つのデータセットを見ると,同じ漢字でもそれぞ
![Deep Learning において,漢字はどの単位で分割・エンコードされるべきなのだろう? - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/740945107d952b704b4b345fd2abb4ad1a7ea705/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Fadvent-calendar-ogp-background-7940cd1c8db80a7ec40711d90f43539e.jpg%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9RGVlcCUyMExlYXJuaW5nJTIwJUUzJTgxJUFCJUUzJTgxJThBJUUzJTgxJTg0JUUzJTgxJUE2JUVGJUJDJThDJUU2JUJDJUEyJUU1JUFEJTk3JUUzJTgxJUFGJUUzJTgxJUE5JUUzJTgxJUFFJUU1JThEJTk4JUU0JUJEJThEJUUzJTgxJUE3JUU1JTg4JTg2JUU1JTg5JUIyJUUzJTgzJUJCJUUzJTgyJUE4JUUzJTgzJUIzJUUzJTgyJUIzJUUzJTgzJUJDJUUzJTgzJTg5JUUzJTgxJTk1JUUzJTgyJThDJUUzJTgyJThCJUUzJTgxJUI5JUUzJTgxJThEJUUzJTgxJUFBJUUzJTgxJUFFJUUzJTgxJUEwJUUzJTgyJThEJUUzJTgxJTg2JUVGJUJDJTlGJnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnR4dC1jb2xvcj0lMjMzQTNDM0MmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmcz0yYjZmYzY3MmUxOGI2MTUwMjMwNWY4MjIyYjZmOTdjYQ%26mark-x%3D120%26mark-y%3D96%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9OTcyJnR4dD0lNDBkY21fc2F3YXlhbWEmdHh0LWNvbG9yPSUyMzNBM0MzQyZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTRmMzQ2NjE3MGQwYzExNTBmZGQ5Yjk1NzUyNDU5YjBj%26blend-x%3D120%26blend-y%3D500%26blend-mode%3Dnormal%26s%3D15d11d7cb4731f87aee2c91f0e526708)