はじめに 先日リリースしたSentencePieceを形態素解析のように使えるWebAPIですが、SentencePiece作者の工藤さんから色々とアドバイスを頂きました。前回の投稿は一部適切でない実装があったので、それを修正しました。こちらから無料で使えます。 API SentencePiece API サンプルコード Javaサンプル 関連記事 本家Github 工藤さんによる解説 私のブログ Qiitaでのやりとり やったこと 前回との違いだけ記述します。 まず、SentencePieceでのモデル計算はいくつかモードがあります。今回はUnigramとBPEを試しました。 Unigramモード 工藤さんから以下のコメントをもらいました。 unigram だと、語彙テーブルの対数尤度に -1 かけて整数コストにし、未知語処理を切れば原理的には一緒になります。 というわけで、そのとおりに
