エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント2件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
SentencePieceをpythonスクリプトから使ってみる | ぐぐりらにっき
こんにちは、ぐぐりら(@guglilac)です。 modelの学習はコマンドラインからやるのが普通、みたいな記事を... こんにちは、ぐぐりら(@guglilac)です。 modelの学習はコマンドラインからやるのが普通、みたいな記事をみましたが、pythonからでもできるのでそちらでやります。 他の記事ではわざわざsubprocessを使ったりしていますが、普通にpythonライブラリにtrainerを用意してくれているのでありがたく使えばよいです。 日本語の記事がなかったので一応書きます sentence pieceとは 文章をいくつか区切ってそれらを機械学習モデルに食わせる、みたいなことはよくやります。 MeCabを使って形態素解析するのがよくやられる手法です。 Mecabでは対応する辞書を使って文章を分割します。辞書にはneologdとかがよく使われます。 これでも上手くいくことも多いですが、語彙数が大きくなってしまうことや、分割の仕方が分割したいデータセットに適していないこともあり、問題点だったりし




2019/08/06 リンク