タグ

NLPに関するnorisuke3のブックマーク (10)

  • 「OK word2vec ! "マジ卍"の意味を教えて」 Pythonでword2vec実践してみた - Np-Urのデータ分析教室

    さて、今回はPythonによるword2vecの実践編です! word2vecって何??という方は、こちらの記事を一読してから記事に入って頂くといいかと思います。 www.randpy.tokyo (こちらとても高評価頂いております。ありがとうございます!!) 上のリンク先でも書きましたが、簡単にまとめると、word2vecを使うことで単語の意味をベクトル表現化することができます。 単語の意味をベクトル表現できると、 近い意味の単語を調べる 単語同士の意味を足したり引いたり といった嬉しいことが実現できます。 ということで今回は、タイトルにもある通りJK用語の代表格である”マジ卍”という言葉の意味を、word2vecに聞いてみたいと思います。 当は"マジ卍"の意味を直接JKに聞きたいのですが、JKの知り合いも当然いないですし……まぁここは頭を使ってデータを使えばなんか分かるっしょという

    「OK word2vec ! "マジ卍"の意味を教えて」 Pythonでword2vec実践してみた - Np-Urのデータ分析教室
  • word2vec(Skip-Gram Model)の仕組みを恐らく日本一簡潔にまとめてみたつもり - これで無理なら諦めて!世界一やさしいデータ分析教室

    久しぶりの記事更新です。 今回はかねてより書いてみたかったword2vecについて。 word2vecはとても面白い考え方なのですが、個人的には仕組みがちょっと捉えづらく、理解するのに結構時間がかかりました。 そこで今回は、過去の自分を救えるように、word2vecをできるだけ簡潔に、そして直観的に理解できるように解説していきます。 なお、word2vecについては以下書籍でよくまとまっているので、よろしければ是非! Pythonと実データで遊んで学ぶ データ分析講座 作者: 梅津雄一,中野貴広出版社/メーカー: シーアンドアール研究所発売日: 2019/08/10メディア: 単行(ソフトカバー)この商品を含むブログを見る ※追記※ スマホのAMPだと、行列や数式がうまく表示されない可能性がありますので、こちらのリンクかPCから購読頂けますと幸いです。 word2vecを使うと何ができる

    word2vec(Skip-Gram Model)の仕組みを恐らく日本一簡潔にまとめてみたつもり - これで無理なら諦めて!世界一やさしいデータ分析教室
  • 潜在的意味インデキシング(LSI)徹底入門

    LSI については「特異値分解とLSIの意味」でも触れたことがありますが、この時はまだ理解不足だったので改めて解説したいと思います。 LSI (Latent Semantic Indexing) 1は検索などに用いられる次元圧縮手法です。 例えば、「車で行く」と「自動車で行く」は意味として全く同じですが、単語そのものを見ると「車」と「自動車」が異なるため違う文として扱われてしまい、「車」で検索しても「自動車で行く」という文がヒットしません。 しかし、「車」も「自動車」も同じ意味なので同じ文として扱われるようにしたいですよね。 これを実現する手法の1つが LSI です。 ベクトル空間モデル LSI では Bag of Words によるベクトル空間モデルが使用されます。 要は単語の出現順を考慮せず、単語の出現頻度などによって文書をベクトルで表現するモデルです。 例えば次の4つの文書があったと

    潜在的意味インデキシング(LSI)徹底入門
  • 数式抜きでWord2vecを話す

    社内勉強用の資料です。 フォローお願いします。https://twitter.com/Ishitonton

    数式抜きでWord2vecを話す
  • Word2vec - Wikipedia

    Word2vecは、単語の埋め込みを生成するために使用される一連のモデル群である。これらのモデルは、単語の言語コンテキストを再構築するように訓練された浅い2層ニューラルネットワークであり、大きなコーパスを受け取って一つのベクトル空間を生成する。このベクトル空間は典型的には数百次元からなり、コーパスの個々の単語はベクトル空間内の個々のベクトルに割り当てられる。コーパス内で同じコンテキストを共有する単語ベクトルは、ベクトル空間内の近くに配置される[1]。 Word2vecは、Googleのトマーシュ・ミコロフ率いる研究者チームによって2013年に作成および公開され、特許を取得した。アルゴリズムは他の研究者によって分析され、説明された[2][3]。Word2vecアルゴリズムを使用して作成された埋め込みベクトルには、潜在的意味分析などの以前のアルゴリズム[1]と比べていくつかの利点がある。 Wo

  • 分散表現(単語埋め込み) - 岩波データサイエンス

    特集記事「単語の意味をコンピュータに教える」(岡崎直観)、「自然言語の意味に対する2つのアプローチ—記号表現と分散表現」(宮尾祐介)、およびコラム「Pythonword2vec」(中谷秀洋)で紹介した 分散表現(単語埋め込み) についてです。 分散表現(あるいは単語埋め込み)とは、単語を高次元の実数ベクトルで表現する技術です。 近い意味の単語を近いベクトルに対応させるのが分散表現の基ですが、最近はベクトルの足し算が意味の足し算に対応する「加法構成性」などを中心に、理論や応用の研究が進んでいます。 word2vec Skip-gram(特集記事参照)を実装した、単語の分散表現を生成するツールです。大きなコーパスからの学習と加法構成性を特徴としています。 GloVe 同じく単語の分散表現を生成するツールです。word2vec より高い性能をうたっています。 gensim Python

    分散表現(単語埋め込み) - 岩波データサイエンス
  • Word2Vecとは | 分散表現・Skip-gram法とCBOWの仕組み・ツールや活用事例まで徹底解説 | Ledge.ai

    サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

    Word2Vecとは | 分散表現・Skip-gram法とCBOWの仕組み・ツールや活用事例まで徹底解説 | Ledge.ai
  • なぜ自然言語処理にとって単語の分散表現は重要なのか? - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? なぜ自然言語処理にとって単語の分散表現は重要なのでしょうか? この記事をご覧になっている方は Word2vec(Mikolov et al., 2013) についてご存知かもしれません。Word2vec ではまるで単語の意味を捉えられているかのような演算を行うことができます。例えば King から Man を引き Woman を足すと Queen が得られる(King - Man + Woman = Queen)というのは有名な例です。 from https://www.tensorflow.org/get_started/embedd

    なぜ自然言語処理にとって単語の分散表現は重要なのか? - Qiita
  • Word2Vec:発明した本人も驚く単語ベクトルの驚異的な力

    Word2Vecとは Word2Vecで演算処理する Word2Vecとニューラルネットワーク Word2Vecの仕組み CBoW Skip-gram Word2Vecを応用することができる分野 レコメンド 機械翻訳 Q&A・チャットボット 感情分析 Word2Vecの弱点 Word2Vecの派生系や類似ツール GloVe WordNet Doc2Vec fastText まとめ 参考 世界中のWebサイトの数は2014年に10億件を超えたようだ。そして、Facebookのユーザー数だけでも16億人を超えている。 そして、そのいずれもコンテンツの中身の大部分はテキストから成り立っていることだろう。 ということは、莫大に増大し続けるネット上のデータのほとんどはどこかの国の言葉だってことだ。世界中の人が毎日テキストデータを生成し続けたことはこれまでの歴史上無かったんじゃないだろうか。 もしそん

    Word2Vec:発明した本人も驚く単語ベクトルの驚異的な力
  • Embeddingについてまとめた。 - For Your ISHIO Blog

    下記の日OR学会の論文を参考に、Embeddingについて整理しました。 Word Embeddingモデル再訪 オペレーション・リサーチ学会 2017年11月号 20190621追記 こちらの記事もご覧ください。 ishitonton.hatenablog.com 目次 Embeddingとは何か Embeddingの各種アルゴリズム One-hot表現 共起関係の利用 LSI(Latent Semantic Indexing) Word2vec Glove fastText Character-based Embedding Word Embedding モデルのアンサンブル 日語環境下でのEmbedding ファインチューニング Embeddingとは何か 自然言語処理におけるEmbedding(埋め込み)とは、「文や単語、文字など自然言語の構成要素に対して、何らかの空間における

    Embeddingについてまとめた。 - For Your ISHIO Blog
  • 1