タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

*algorithmとtokenizerとcs.CLに関するsh19910711のブックマーク (1)

  • 論文紹介: SentencePieceの原著論文+α - radiology-nlp’s blog

    はじめに 2018年に登場したニューラル言語処理のための教師なしサブワード分割モジュール,SentencePiece。 開発意図や仕様を確認するために原著論文を読みました。 github.com 論文は2018年8月にarXivに投稿されています。 arxiv.org 著者・開発者はMeCab開発者でもある工藤拓さん。自然言語処理に関心のある方で知らない人はいないでしょう。 github.com 1冊まるごと形態素解析という驚異的なも執筆されています。 形態素解析の理論と実装 (実践・自然言語処理シリーズ) 作者: 工藤拓,言語処理学会出版社/メーカー: 近代科学社発売日: 2018/10/04メディア: 単行この商品を含むブログを見る 背景 基的事項をいくつか確認します。 SentencePieceは与えられた文章をサブワードに分割するモデルであり, コーパスからの教師なし学習が可

    論文紹介: SentencePieceの原著論文+α - radiology-nlp’s blog
    sh19910711
    sh19910711 2024/04/22
    "SentencePiece: 文法体系や言語学的観点からみて妥当な分割をするとは限りません(そのような設計を目指していません) > 単位は「形態素」ではなく単に「サブワード」と呼ばれることが多い" arXiv:1808.06226 2019
  • 1