Sign into Adobe Creative Cloud to access your favorite Creative Cloud apps, services, file management, and more. Log in to start creating.
原文 ベクトル空間における言語特徴量の効率的推定(Efficient Estimation of Word Representations in Vector Space) Tomas Mikolov (2013) 1. 要約 「単語ベクトル(word vectors)」の効率的な学習方法の提示。Word2Vecというモデルに接続する考え方。 規模にして10億語超、語彙では100万語超の処理を試みる。 比較対象: 過去の言語処理規模では、1000万語レベルの処理が限界だった。 学習テクニックとして広く使われてきた手法は、次の3つである。 ①NNLM(Neural Network Language Model) 順伝播型NNを用いて、単語の特徴量を抽出する。教師データには、品詞タグ付けされたコーパスを用いる。 ②LSA(Latent Semantic Analysis) 精度はNNに劣る。教
TensorFlow & Word2Vec このチュートリアルでは Mikolov et al による word2vec モデルを眺めます。このモデルは “単語埋め込み (word embeddings)” と呼ばれる、単語のベクタ表現を学習するために使われます。 特に TensorFlow で word2vec モデルを構築するにあたり、興味ある本質的な部分を強調することを意図しています。 何故単語をベクタとして表現したいのかという動機を与えることから始めます。 モデルの背後にある直感と、モデルがどのように訓練されるかを見ます。また TensorFlow のモデルの単純な実装も示します。 最後に平凡なバージョンをより良くスケールする方法を見ます。 後でコードを通り抜けますが、直接コードを見ることを好むのであれば、 tensorflow/examples/tutorials/word2ve
キメラ・ネットワークは、当初はTwitterを主要な情報源として探索していたが、学習が進み、その必要が無くなった。そのため、2017年10月2日より、キメラ・ネットワークは、Twitterを主要な情報源としては取り扱わないよう、仕様を変更することとした。新しい仕様については、『Webクローラ型人工知能:キメラ・ネットワークの仕様』にて、記事を分けて取り扱っている。 以下の情報はだいぶ古いが、ログとして残しておく。 Twitter上で蠢いている上記の人工知能エージェント:@_chimera0は、私(制作者)の興味関心や趣味嗜好に合うツイートをリツイートする。ただし、ただ単にリツイートを垂れ流すだけではない。このbotと背後にいるアルゴリズムは、「強化学習(Reinforcement Learning)」と「深層学習(Deep Learning)」と「ベイズ推定(Bayesian estima
word2vecに関してのもっと詳しい話。 Skip-gram Skip-gramについてもうちょっと詳しく。入力ベクトルを元に出力ベクトルを決めるのは、Softmax関数を使うんだけど、この分母の計算が素直にやると語彙オーダーで重たい。階層的SoftmaxとNagetive Samplingの2つの方法が紹介されている。 階層的Softmaxだと語彙の対数オーダーに減る。これは最初に単語をハフマン符号にしておいて、符号の各位置のビットを見て一致するかどうかを教師データにしてビットの数だけ学習を繰り返す手法。ビットはword2vecの実装では40個になってる。各単語ごとに40回学習するのは効率が悪いと感じるけど、各単語ごとに出力層の各単語(数万個!)の出力を計算することに比べればはるかに安い。 Negative Samplingはざっくり言うと適当に選んだk個を「正しくない回答」として逆向
何かと話題のword2vecですが、自分も使ってみようと思って試行錯誤したことを書いてみます。間違いなどあればぜひコメントください。 GoogleのC実装 https://code.google.com/p/word2vec/にある、C言語による実装は独立したアプリケーションで、Apache 2.0ライセンスで提供されています。 ビルドした状態でword2vecコマンドを使って学習、モデルを作成し、distance等のコマンドからモデルをもとにデータを出力します。以下はword2vecを引数なしで実行したときの実行例です。 ./word2vec -train data.txt -output vec.txt -size 200 -window 5 \ -sample 1e-4 -negative 5 -hs 0 -binary 0 -cbow 1 -iter 3 各オプションの意味は以下に
Linguistic Regularities in Continuous Space Word Representations. Efficient estimation of word representations in vector space Distributed representations of words and phrases and their compositionality Tomas Mikolov, Wen-tau Yih, Geoffrey Zweig, 2013, NAACL Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, 2013, ICLR Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, Jeff Dean, 2013, NIP
Word2Vec というと、文字通り単語をベクトルとして表現することで単語の意味をとらえることができる手法として有名なものですが、最近だと Word2Vec を協調フィルタリングに応用する研究 (Item2Vec と呼ばれる) などもあるようで、この Word2Vec というツールは自然言語処理の分野の壁を超えて活躍しています。 実は Item2Vec を実装してみたくて Word2Vec の仕組みを理解しようとしていたのですが、Word2Vec の内部の詳細に踏み込んで解説した日本語記事を見かけることがなかったので、今更感はありますが自分の知識の整理のためにもブログに残しておきます。なお、この記事は Word2Vec のソースコードといくつかのペーパーを読んで自力で理解した内容になります。間違いが含まれている可能性もありますのでご了承ください。もし間違いを見つけた場合は指摘してもらえると
『グラフィックボードについて基本から理解してみよう』(最終更新:2017年4月) パソコンを購入する際は、いくつかのポイントを押さえて選ぶ必要がありますが、その中の一つに「グラフィックボード(graphics board)」というものがあります。 なんとなくこの名前を耳にしたことのある方も多いと思いますが、どういったものかよくわからない人もいるかもしれません。←私 どのような種類があって、どういう役割を担っているのかを理解しておくと、パソコンを選ぶ際も理想の製品を見つけやすくなると思います。 そこで今回は、グラフィックボードについてまとめました。 グラフィックボードってなに? グラフィックボードとは、ディスプレイに画像を綺麗に映し出すための部品と考えるとわかりやすいと思います。 映画を観たり、3Dのゲームをしたり、CADのような製図ソフトを用いて図面を描いたりするときに、この部品の性能が重
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く