[B! word2vec] katz1955のブックマーク

挑戦！ word2vecで自然言語処理（Keras＋TensorFlow使用）

ご注意：本記事は、＠IT／Deep Insider編集部（デジタルアドバンテージ社）が「deepinsider.jp」というサイトから、内容を改変することなく、そのまま「＠IT」へと転載したものです。このため用字用語の統一ルールなどは＠ITのそれとは一致しません。あらかじめご了承ください。ディープラーニングと自然言語処理画像認識や音声認識の分野では、すでに圧倒的ともいえる成果を誇っているのがディープラーニングである。猫画像識別のニュースに驚かされてからわずか数年のうちに、例えば「GAN（Generative Adversarial Network）」という技術が開発されていて、これを使うと、文字どおり何もないところから写真と見まがう画像を生成することができる。まさに、「十分に進歩した科学は魔法と区別がつかない」。では、ディープラーニングのもう一方の有力分野である自然言語処理の状況はど

katz1955 2021/01/06

word2vec

リンク

Prod2Vecの推薦/予測システムのパラメータチューニング提案 [論文紹介] - Gunosyデータ分析ブログ

Gunosy8月入社のshunk(@makuramoto1)です．前職は研究員とマネージャーの間みたいなことをやっておりました．現在は，Gunosyのデータ分析や，どのように記事を出したりするかといったロジックを開発する仕事を担当しています．Web業界に初めて参入して，現在の職種もキャリアチェンジみたいなことをしたので，いち早く仕事をこなせるように邁進しております．さて，本記事はGunosy Advent Calender2018の5日目の記事です．弊社では論文輪読会が週1で行われています．その際に，推薦モデルProd2Vecのハイパーパラメータ*1のチューニングに関する論文がありまして，面白そうだなと思い，以下の「Prod2Vecのパラメータチューニングに関する論文」を拝読いたしました．拝読した論文達 Prod2Vecのパラメータチューニングに関する論文 Word2vec appl

katz1955 2019/02/16

word2vec

リンク

2018年の言語モデル概要

Tung Nguyen2019-02-072013年にDeep Belief Networkについて初めて読んだとき、私はディープラーニング(深層学習)にはまりました。現在、Clovaの自然言語処理における深層学習を研究開発しております。こんにちは、ClovaチームのTungです。 Clovaは、Clova FriendsやClova Waveなどといったスマートデバイスに搭載されている私たちのAIプラットフォームです。製品の詳細についてはこちらをご覧ください。 2018年の自然言語処理（NLP）分野において続々と発表された強力な言語モデル - ELMo、ULMFit 、OpenAI Transf ormer、BERTについて振り返りたいと思います。各モデルそれぞれの内部解説はインターネット上にあったりしますが、今回は少し異なった見方を持って来ることを試みます。全モデルのアーキテクチャ

katz1955 2019/02/16

word2vec

リンク

文書分散表現SCDVと他の分散表現を比較してみた

今回は、以下の論文の文章分散表現、Sparse Composite Document Vectors; SCDVについて書きます。 SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations: https://arxiv.org/abs/1612.06778 実は去年に試しに実装していたのですが、他にネタがないためまだ投稿していませんでしたので、書こうと思います。 SCDVについて SCDVは、文章ベクトルを取得する方法の1つです。文章ベクトルを取得する手法はDoc2Vecなど色々ありますが、論文において、取得した文章ベクトルを用いたマルチラベル分類では、他の方法よりも高い精度を出せているようです。うーむ、ていうか、NTSGってのはなんだ。すでにこ

katz1955 2019/02/05

word2vec

リンク

Out-of-the-box - 日本語Wikipediaで学習したdoc2vecモデル

日本語Wikipediaを対象にdoc2vec学習させたモデルを作成したので、学習済みモデルとして公開します。概要 doc2vecは2014年にQuoc LeとTomas Mikolovによって発表された文章の埋め込みの手法です。今更doc2vecかという感じではありますが、日本語のdoc2vecの学習済みモデルは探した限り容易に利用できるものがなかったこともあり、せっかくなので作成したモデルを配布します。 word2vecのような単語の分散表現においては学習済みモデルとして配布されたものを利用することが多いですが、文章の埋め込みに関しては対象とするドキュメント集合やそのドメインに特化した学習モデルを作成することが多い印象です。なので、学習済みモデルファイルの配布自体にそれほど意味があるわけではなさそうですが、既存手法との比較に利用したり、とりあえず何かしらの手法で単語列から文章ベクトル

katz1955 2019/02/01

word2vec

リンク

word2vec（Skip-Gram Model）の仕組みを恐らく日本一簡潔にまとめてみたつもり - これで無理なら諦めて！世界一やさしいデータ分析教室

久しぶりの記事更新です。今回はかねてより書いてみたかったword2vecについて。 word2vecはとても面白い考え方なのですが、個人的には仕組みがちょっと捉えづらく、理解するのに結構時間がかかりました。そこで今回は、過去の自分を救えるように、word2vecをできるだけ簡潔に、そして直観的に理解できるように解説していきます。なお、word2vecについては以下書籍でよくまとまっているので、よろしければ是非！ Pythonと実データで遊んで学ぶデータ分析講座作者: 梅津雄一,中野貴広出版社/メーカー: シーアンドアール研究所発売日: 2019/08/10メディア: 単行本（ソフトカバー）この商品を含むブログを見る ※追記※ スマホのAMPだと、行列や数式がうまく表示されない可能性がありますので、こちらのリンクかPCから購読頂けますと幸いです。 word2vecを使うと何ができる

katz1955 2019/02/01

word2vec

リンク

GitHub - nzw0301/keras-examples

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

katz1955 2019/02/01

word2vec

リンク

https://github.com/nzw0301/keras-examples/blob/master/CBoW.ipynb

katz1955 2019/02/01

word2vec

リンク

How to implement word2vec CBOW in keras with shared Embedding layer and negative sampling?

katz1955 2019/02/01

word2vec

リンク

kerasでword2vecを構築 - Qiita

目標 word2vecをgensimのword2vecを使わずにkerasで実装する。 word2vecの概要 word2vecとはニューラルネットワークを使用して単語を分散表現にする方法である。分散表現とはベクトル化することである。単語は今までBagOfWordで扱われることが多い。ベクトル化することで、単語間の距離を測ることができる。つまり単語間の類似度を知ることができる。この類似度というのは意味的な類似度を表している。なぜかというと、分散表現にする際に、「わたしは〇〇に行きたい。」といった文があった時に、〇〇に入る言葉はそれぞれ意味が近いという仮定を置いているからである。この仮定のおかげで、教師なしデータでも学習ができるようになっている。この仮定はあっているかもしれないが、もっと良い仮定を思いつけばより良い分散表現が得られそう。 word2vecの理論 word2vecを実装する

katz1955 2019/02/01

word2vec

リンク

自然言語処理における前処理の種類とその威力 - Qiita

自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグや JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。出典: Deep learning for computational biology 本記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。前処理の種類と実装この節では以下に示す5つ

katz1955 2018/02/28

*機械学習

リンク

はてなブックマーク

タグ

関連タグで絞り込む (1)

word2vecに関するkatz1955のブックマーク (11)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス