none53のブックマーク / 2024年6月3日

Deep Learning において，漢字はどの単位で分割・エンコードされるべきなのだろう？ - Qiita

subcharacterに関しては，BERTやELMoといった文脈情報を扱える言語モデルでの検証はまだ少ないようで，さっと調べた感じだと見つけられませんでした。論文間にまたがって分割単位が同じ部分がわかるように，分割ごとに色合いを変えた図を作成しました(見易さを優先し，作成した図の次元サイズ等は簡略化しています)。論文リンクは下部の参考文献に記載しています。 1.Sub-character Neural language Modeling in Japanese (Nguyen et al.) 漢字の表現方法を部首(shallow)・さらに部首より小さい単位(deep)に分解。言語モデルは単方向のLSTM 言語モデルのパープレキシティーの良さの順は，shallow > deep > baselineとなった。論文内で紹介されている漢字の4つのデータセットを見ると，同じ漢字でもそれぞ

はてなブックマーク

タグ

2024年6月3日のブックマーク (1件)

Deep Learning において，漢字はどの単位で分割・エンコードされるべきなのだろう？ - Qiita

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第5週）

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス