
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
2つの分かち書きの対応を計算する - Qiita
言語処理をする際,mecabなどのトークナイザを使って分かち書きすることが多いと思います.本記事では,... 言語処理をする際,mecabなどのトークナイザを使って分かち書きすることが多いと思います.本記事では,異なるトークナイザの出力(分かち書き)の対応を計算する方法とその実装(tokenizations)を紹介します. 例えば以下のような,sentencepieceとBERTの分かち書きの結果の対応を計算する,トークナイザの実装に依存しない方法を見ていきます. # 分かち書き (a) BERT : ['フ', '##ヘルト', '##ゥス', '##フルク', '条約', 'を', '締結'] (b) sentencepiece : ['▁', 'フ', 'ベル', 'トゥス', 'ブルク', '条約', 'を', '締結'] # 対応 a2b: [[1], [2, 3], [3], [4], [5], [6], [7]] b2a: [[], [0], [1], [1, 2], [3], [4