はじめに Rubyでなにか大規模言語モデル (Large Language Models, LLMs) に関することをやってみようと思って、SentencePieceのbinding gemがないことに気づいて作った。 github.com SentencePieceはニューラルネットワークな言語処理向けに作られたTokenizer/Detokenizerで、文が与えられると単語に分割してIDを割り当てる。逆にIDのリストから文を再構成することができる。この逆変換が可能なことでEnd to Endの...あとは作者のKudo TakuさんのQiita記事に。 qiita.com インストール sentencepiece.rbは、SentencePiece自体を同梱していないので、各パッケージマネージャーでこれをインストールする。Ubuntuであればaptで、macOSであればhomebre