タグ

nlpとGloveに関するskypenguinsのブックマーク (1)

  • 高速かつ高性能な分散表現Gloveについて(PyTorch実装) - Qiita

    はじめに この記事では高速かつ高性能な単語分散表現Gloveについて記述しています。自然言語処理に馴染みのない方もために一応、ざっくりとした順を追って説明します。 自然言語をコンピューターで扱う場合 言語情報をコンピューターで扱うときにOne Hotと呼ばれる表現が良く使われます。 例えば'I am Shota'という文章があれば辞書を用意しておき、辞書に観測された部分は1をつけてそうでない部分は0にするような表現になります。 当然、辞書にない単語は扱えないのでShotaは何もカウントされません。 一般的にこのような場合は<UNK>と呼ばれるUnkown Wordの略で補います。 上記の手法ですと下記のデメリットがあります。 メモリ空間を辞書のサイズ分取る 辞書にない単語を扱えない ’は’、’と’などの助詞と固有名詞を同等に扱う 計算コストが高い シンプルな手法ですが上記の問題があります。

    高速かつ高性能な分散表現Gloveについて(PyTorch実装) - Qiita
  • 1