tokenizeの人気記事 2件 - はてなブックマーク

言語処理でよく使う前処理まとめ -tokenize, subword- - 文系と理系の交差点

言語処理を行うときの基本として，現在は文章を単語などの何らかの単位に区切り（トークナイズ (tokenize) して），それらをベクトルに落とし込んでモデルで処理することが多いです．今回はトークナイズ（単語を区切ること）にフォーカスして，それをでどの様に書くかを簡単にご紹介します．言語は主に python を使用します．目次トークナイズ日本語の場合英語の場合サブワード (Subword) BPE (Bite Pair Encoding) SentencePiece 参考トークナイズそもそもトークナイズとは，単語をトークンという単位に区切ることを指しますが，この区切り方は様々あります．よく使われるのは単語や形態素です．さらに後ほど説明するサブワード (subword) といって，単語をさらに細かく区切った表現をトークンとして扱うことや，１文字を１トークンとして分割すること（

はてなブックマーク

検索対象

並び順

ブックマーク数

セーフサーチ

期間指定

絞り込み

ブックマーク数

期間

セーフサーチ

tokenizeの検索結果1 - 2 件 / 2件

言語処理でよく使う前処理まとめ -tokenize, subword- - 文系と理系の交差点

How to Tokenize Japanese in Python

新着記事

テニス四大大会の1つイギリス「ウィンブルドン選手権」も「線審」廃止に　全豪・全米に続き電子機器ライン判定へ | TBS NEWS DIG

2022年09月号『打ち身・打撲の中国医学治療』 | 登美ヶ丘治療院

ガビ：スペイン

uynet｜pixivFANBOX

「もはや罰ゲーム」松屋の“二郎系牛めし”にまさかの大酷評？ジロリアンが指摘するラーメン二郎との“決定的な違い”とは… | 集英社オンライン | ニュースを本気で噛み砕け

ゆい倉庫 - BOOTH

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

検索対象

並び順

ブックマーク数

セーフサーチ

期間指定

絞り込み

検索対象

ブックマーク数

期間

セーフサーチ

tokenizeの検索結果1 - 2 件 / 2件

tokenizeの関連エントリー

新着記事

キーボードショートカット一覧

公式Twitter

はてなのサービス