並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 2 件 / 2件

新着順 人気順

tokenizeの検索結果1 - 2 件 / 2件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

tokenizeに関するエントリは2件あります。 NLP が関連タグです。 人気エントリには 『言語処理でよく使う前処理まとめ -tokenize, subword- - 文系と理系の交差点』などがあります。
  • 言語処理でよく使う前処理まとめ -tokenize, subword- - 文系と理系の交差点

    言語処理を行うときの基本として,現在は文章を単語などの何らかの単位に区切り(トークナイズ (tokenize) して),それらをベクトルに落とし込んでモデルで処理することが多いです. 今回はトークナイズ(単語を区切ること)にフォーカスして,それをでどの様に書くかを簡単にご紹介します.言語は主に python を使用します. 目次 トークナイズ 日本語の場合 英語の場合 サブワード (Subword) BPE (Bite Pair Encoding) SentencePiece 参考 トークナイズ そもそもトークナイズとは,単語をトークンという単位に区切ることを指しますが,この区切り方は様々あります.よく使われるのは単語や形態素です. さらに後ほど説明するサブワード (subword) といって,単語をさらに細かく区切った表現をトークンとして扱うことや,1文字を1トークンとして分割すること(

      言語処理でよく使う前処理まとめ -tokenize, subword- - 文系と理系の交差点
    • How to Tokenize Japanese in Python

      Over the past several years there's been a welcome trend in NLP projects to be broadly multi-lingual. However, even when many languages are supported, there's a few that tend to be left out. One of these is Japanese. Japanese is written without spaces, and deciding where one word ends and another begins is not trivial. While highly accurate tokenizers are available, they can be hard to use, and En

        How to Tokenize Japanese in Python
      1

      新着記事