タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

word2vecに関するkatz1955のブックマーク (11)

  • 挑戦! word2vecで自然言語処理(Keras+TensorFlow使用)

    ご注意:記事は、@IT/Deep Insider編集部(デジタルアドバンテージ社)が「deepinsider.jp」というサイトから、内容を改変することなく、そのまま「@IT」へと転載したものです。このため用字用語の統一ルールなどは@ITのそれとは一致しません。あらかじめご了承ください。 ディープラーニングと自然言語処理 画像認識や音声認識の分野では、すでに圧倒的ともいえる成果を誇っているのがディープラーニングである。画像識別のニュースに驚かされてからわずか数年のうちに、例えば「GAN(Generative Adversarial Network)」という技術が開発されていて、これを使うと、文字どおり何もないところから写真と見まがう画像を生成することができる。まさに、「十分に進歩した科学は魔法と区別がつかない」。 では、ディープラーニングのもう一方の有力分野である自然言語処理の状況はど

    挑戦! word2vecで自然言語処理(Keras+TensorFlow使用)
  • Prod2Vecの推薦/予測システムのパラメータチューニング提案 [論文紹介] - Gunosyデータ分析ブログ

    Gunosy8月入社のshunk(@makuramoto1)です.前職は研究員とマネージャーの間みたいなことをやっておりました.現在は,Gunosyのデータ分析や,どのように記事を出したりするかといったロジックを開発する仕事を担当しています.Web業界に初めて参入して,現在の職種もキャリアチェンジみたいなことをしたので,いち早く仕事をこなせるように邁進しております. さて,記事はGunosy Advent Calender2018の5日目の記事です. 弊社では論文輪読会が週1で行われています.その際に,推薦モデルProd2Vecのハイパーパラメータ*1のチューニングに関する論文がありまして,面白そうだなと思い,以下の「Prod2Vecのパラメータチューニングに関する論文」を拝読いたしました. 拝読した論文達 Prod2Vecのパラメータチューニングに関する論文 Word2vec appl

    Prod2Vecの推薦/予測システムのパラメータチューニング提案 [論文紹介] - Gunosyデータ分析ブログ
  • 2018年の言語モデル概要

    Tung Nguyen2019-02-072013年にDeep Belief Networkについて初めて読んだとき、私はディープラーニング(深層学習)にはまりました。現在、Clovaの自然言語処理における深層学習を研究開発しております。 こんにちは、ClovaチームのTungです。 Clovaは、Clova FriendsやClova Waveなどといったスマートデバイスに搭載されている私たちのAIプラットフォームです。 製品の詳細についてはこちらをご覧ください。 2018年の自然言語処理(NLP)分野において続々と発表された強力な言語モデル - ELMo、ULMFit 、OpenAI Transformer、BERTについて振り返りたいと思います。 各モデルそれぞれの内部解説はインターネット上にあったりしますが、今回は少し異なった見方を持って来ることを試みます。全モデルのアーキテクチャ

    2018年の言語モデル概要
  • 文書分散表現SCDVと他の分散表現を比較してみた

    今回は、以下の論文の文章分散表現、Sparse Composite Document Vectors; SCDVについて書きます。 SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations: https://arxiv.org/abs/1612.06778 実は去年に試しに実装していたのですが、他にネタがないためまだ投稿していませんでしたので、書こうと思います。 SCDVについて SCDVは、文章ベクトルを取得する方法の1つです。 文章ベクトルを取得する手法はDoc2Vecなど色々ありますが、論文において、取得した文章ベクトルを用いたマルチラベル分類では、他の方法よりも高い精度を出せているようです。 うーむ、ていうか、NTSGってのはなんだ。 すでにこ

    文書分散表現SCDVと他の分散表現を比較してみた
  • Out-of-the-box - 日本語Wikipediaで学習したdoc2vecモデル

    Wikipediaを対象にdoc2vec学習させたモデルを作成したので、学習済みモデルとして公開します。 概要 doc2vecは2014年にQuoc LeとTomas Mikolovによって発表された文章の埋め込みの手法です。今更doc2vecかという感じではありますが、日語のdoc2vecの学習済みモデルは探した限り容易に利用できるものがなかったこともあり、せっかくなので作成したモデルを配布します。 word2vecのような単語の分散表現においては学習済みモデルとして配布されたものを利用することが多いですが、文章の埋め込みに関しては対象とするドキュメント集合やそのドメインに特化した学習モデルを作成することが多い印象です。なので、学習済みモデルファイルの配布自体にそれほど意味があるわけではなさそうですが、既存手法との比較に利用したり、とりあえず何かしらの手法で単語列から文章ベクトル

    Out-of-the-box - 日本語Wikipediaで学習したdoc2vecモデル
  • word2vec(Skip-Gram Model)の仕組みを恐らく日本一簡潔にまとめてみたつもり - これで無理なら諦めて!世界一やさしいデータ分析教室

    久しぶりの記事更新です。 今回はかねてより書いてみたかったword2vecについて。 word2vecはとても面白い考え方なのですが、個人的には仕組みがちょっと捉えづらく、理解するのに結構時間がかかりました。 そこで今回は、過去の自分を救えるように、word2vecをできるだけ簡潔に、そして直観的に理解できるように解説していきます。 なお、word2vecについては以下書籍でよくまとまっているので、よろしければ是非! Pythonと実データで遊んで学ぶ データ分析講座 作者: 梅津雄一,中野貴広出版社/メーカー: シーアンドアール研究所発売日: 2019/08/10メディア: 単行(ソフトカバー)この商品を含むブログを見る ※追記※ スマホのAMPだと、行列や数式がうまく表示されない可能性がありますので、こちらのリンクかPCから購読頂けますと幸いです。 word2vecを使うと何ができる

    word2vec(Skip-Gram Model)の仕組みを恐らく日本一簡潔にまとめてみたつもり - これで無理なら諦めて!世界一やさしいデータ分析教室
  • GitHub - nzw0301/keras-examples

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - nzw0301/keras-examples
  • https://github.com/nzw0301/keras-examples/blob/master/CBoW.ipynb

  • How to implement word2vec CBOW in keras with shared Embedding layer and negative sampling?

  • kerasでword2vecを構築 - Qiita

    目標 word2vecをgensimword2vecを使わずにkerasで実装する。 word2vecの概要 word2vecとはニューラルネットワークを使用して単語を分散表現にする方法である。 分散表現とはベクトル化することである。単語は今までBagOfWordで扱われることが多い。ベクトル化することで、単語間の距離を測ることができる。つまり単語間の類似度を知ることができる。 この類似度というのは意味的な類似度を表している。なぜかというと、分散表現にする際に、「わたしは〇〇に行きたい。」といった文があった時に、〇〇に入る言葉はそれぞれ意味が近いという仮定を置いているからである。この仮定のおかげで、教師なしデータでも学習ができるようになっている。この仮定はあっているかもしれないが、もっと良い仮定を思いつけばより良い分散表現が得られそう。 word2vecの理論 word2vecを実装する

    kerasでword2vecを構築 - Qiita
  • 自然言語処理における前処理の種類とその威力 - Qiita

    自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: Deep learning for computational biology 記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。 前処理の種類と実装 この節では以下に示す5つ

    自然言語処理における前処理の種類とその威力 - Qiita
  • 1