はじめに 2018年に登場したニューラル言語処理のための教師なしサブワード分割モジュール,SentencePiece。 開発意図や仕様を確認するために原著論文を読みました。 github.com 論文は2018年8月にarXivに投稿されています。 arxiv.org 著者・開発者はMeCab開発者でもある工藤拓さん。自然言語処理に関心のある方で知らない人はいないでしょう。 github.com 1冊まるごと形態素解析という驚異的な本も執筆されています。 形態素解析の理論と実装 (実践・自然言語処理シリーズ) 作者: 工藤拓,言語処理学会出版社/メーカー: 近代科学社発売日: 2018/10/04メディア: 単行本この商品を含むブログを見る 背景 基本的事項をいくつか確認します。 SentencePieceは与えられた文章をサブワードに分割するモデルであり, コーパスからの教師なし学習が可
![論文紹介: SentencePieceの原著論文+α - radiology-nlp’s blog](https://cdn-ak-scissors.b.st-hatena.com/image/square/ce1784ae803a2c2fa72b0d4014c34f0aa02289b7/height=288;version=1;width=512/https%3A%2F%2Fimages-fe.ssl-images-amazon.com%2Fimages%2FI%2F51HIVHfLm2L._SL160_.jpg)