sh19910711のブックマーク - はてなブックマーク

SentencePieceでの日本語分かち書きをTransformersのパイプラインに組み込む - radiology-nlp’s blog
背景 PyTorchでHugging Face Transf ormersを使って自然言語処理を行うとき，文章をモデルに入力するためにはまず単語単位に分かち書き (tokenize) しなければなりません．この前処理が思ったよりもやっかいなのです．事前学習済みのモデルをTransf ormers公式から提供されているものから選んでしまえば，ここはあまり問題になりません．Transf ormers付属のtokenizerを使って一発で分かち書きできるからです．実際，東北大からTransf ormersを通じて日本語BERT事前学習済みモデルが公開されて久しいので，日本語BERTモデルを使うのはだいぶ楽になりました． huggingface.co しかし，別の事前学習済みの日本語BERTモデルで，Transf ormersのプラットフォームに載っていないものはいくつか存在します．これらのモデルを
sh19910711 2024/10/13
"Transformers: アップデートが進むにつれて分かち書き処理の整備もかなり進んできた / SentencePieceを用いた分かち書きはtransformers仕様に変換できる / モデルをsentencepieceライブラリではなくtokenizersライブラリで読み込み" '21

*program

python

NLP

tokenizer
リンク
論文紹介: SentencePieceの原著論文+α - radiology-nlp’s blog
はじめに 2018年に登場したニューラル言語処理のための教師なしサブワード分割モジュール，SentencePiece。開発意図や仕様を確認するために原著論文を読みました。 github.com 論文は2018年8月にarXivに投稿されています。 arxiv.org 著者・開発者はMeCab開発者でもある工藤拓さん。自然言語処理に関心のある方で知らない人はいないでしょう。 github.com 1冊まるごと形態素解析という驚異的な本も執筆されています。形態素解析の理論と実装 (実践・自然言語処理シリーズ) 作者: 工藤拓,言語処理学会出版社/メーカー: 近代科学社発売日: 2018/10/04メディア: 単行本この商品を含むブログを見る背景基本的事項をいくつか確認します。 SentencePieceは与えられた文章をサブワードに分割するモデルであり, コーパスからの教師なし学習が可
sh19910711 2024/04/22
"SentencePiece: 文法体系や言語学的観点からみて妥当な分割をするとは限りません(そのような設計を目指していません) > 単位は「形態素」ではなく単に「サブワード」と呼ばれることが多い" arXiv:1808.06226 2019

*algorithm

NLP

tokenizer

--

cs.CL
リンク
奈良先端大に国内留学して2ヶ月経ちました〜生活環境の備忘録〜 - radiology-nlp’s blog
いま私は医学博士課程2年目で，社会人大学院生のような立場なのですが，4月から半年間仕事をストップして，NAIST荒牧研に特別研究学生として医療言語処理を学びに国内留学しています. 大まかな理由は以下のとおりです. いまの環境が相当厳しい自然言語処理に詳しい人が周囲におらず，相談相手がいない論文を読んでつまずいた日も，実装につまずいた日も，ひたすら独学病院で週5日働いており時間的制約が大きい仕事を終えて研究室に直行して深夜1時すぎに帰る生活，お正月も毎日研究室に行っていたしかし，研究成果をあげるチャンスは今しかないまだ医療言語処理が流行り始めたばかりのタイミングなので，今ならギリギリ開拓者になれるおそらく3年後にはもう red ocean になっているはず今のゆっくりした成長速度では先行者として走りつづけることができない半年間収入はゼロになるし，専門医取得などのキャリアも一
sh19910711 2021/04/29
"日替わり定食は11:30販売開始. 数に限りがある / 日替わり定食が売り切れていた場合は通常メニューから選ぶことになる / 日替わり定食を逃し続けると週に5回くらい親子丼を食べることになる"

教育

研究

キャリア
リンク
1