エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
日本語Wikipediaデータを使ったsentencepieceを学習させる | 創造日記
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
日本語Wikipediaデータを使ったsentencepieceを学習させる | 創造日記
環境は Ubuntu 18.04 (LTS) Python 3.7.3 Wikipediaデータの準備 以下のサイトを参考に進めていたが、若... 環境は Ubuntu 18.04 (LTS) Python 3.7.3 Wikipediaデータの準備 以下のサイトを参考に進めていたが、若干勝手が違っていたのでここでもメモっておく。 Wikipediaからコーパスを作る ダウンロード とりあえず以下のコードでダウンロードする。 $ curl https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2 -o jawiki-latest-pages-articles.xml.bz2 txtファイルへの変換 Wikiextractorを使用する。 $ git clone https://github.com/attardi/wikiextractor wikiextractorフォルダ以下のWikiextractor.pyを実行すれば良い。(なぜ

