seishin55のブックマーク / 2017年3月23日

Word2Vec | developer's blog

はじめにここ数ヶ月、日本語の類義語分類に使えないかと、Word2Vecについて色々と調べてきたので以下に纏めてみる。 Word Embeddings まず大前提として、自然言語を機械学習処理で扱う為には、文書や単語を数値として扱う必要がある。 . 通常、自然言語処理に出てくる単語を数値で表す場合、高次元のベクトルを使って表す。（200〜500次元程度、word2vecのデフォルトは100次元）例えば、「花」という単語が[0, 0, 0, 1, 0, 0.8, ….]といったベクトルで表すことができるようになる。このように単語からベクトルへ変換する方法は多数存在しており、単純に全出現単語を並べて各次元でその単語かどうかを判断する方法やニューラルネットワークを使うものなどがある。 Word Embeddingとは、このうちニューラルネットワークなどを用いて単語の素性値を機械学習によって学

はてなブックマーク

2017年3月23日のブックマーク (1件)

Word2Vec | developer's blog

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス