タグ

ブックマーク / deepage.net (7)

  • Facebookが公開した10億語を数分で学習するfastTextで一体何ができるのか

    fastTextとは何なのか 自然言語処理の学習を高速化するツール これまで5日かかっていたタスクがたったの10秒で終了 fastTextで取り組める3つのこと fastTextで出来る3つの全体像 Facebookはニュースフィードから釣り見出しを排除するためにfastTextをつくった? リクルートテクノロジーズでは、レコメンドに応用 サイバーエージェントが実用化したAWAでのアーティストレコメンド Yahoo!はレシートメールの文章から製品をオススメする ◯2Vecを考えれば推薦に応用できる fastTextを安全に使うために必要な理論 単語をベクトル表現化するWord2Vec ベクトル表現を構築するアーキテクチャ CBoW Skip-gram fastTextを使ってみよう fastTextをインストールする 単語のベクトル表現を構築しよう Tweetデータの収集 単語のベクトル表

    Facebookが公開した10億語を数分で学習するfastTextで一体何ができるのか
  • Word2Vec:発明した本人も驚く単語ベクトルの驚異的な力

    Word2Vecとは Word2Vecで演算処理する Word2Vecとニューラルネットワーク Word2Vecの仕組み CBoW Skip-gram Word2Vecを応用することができる分野 レコメンド 機械翻訳 Q&A・チャットボット 感情分析 Word2Vecの弱点 Word2Vecの派生系や類似ツール GloVe WordNet Doc2Vec fastText まとめ 参考 世界中のWebサイトの数は2014年に10億件を超えたようだ。そして、Facebookのユーザー数だけでも16億人を超えている。 そして、そのいずれもコンテンツの中身の大部分はテキストから成り立っていることだろう。 ということは、莫大に増大し続けるネット上のデータのほとんどはどこかの国の言葉だってことだ。世界中の人が毎日テキストデータを生成し続けたことはこれまでの歴史上無かったんじゃないだろうか。 もしそん

    Word2Vec:発明した本人も驚く単語ベクトルの驚異的な力
  • Doc2Vecの仕組みとgensimを使った文書類似度算出チュートリアル

    類似したコンテンツのタイトルは、女性アーティストだらけとなっている。浜崎あゆみは日のレディー・ガガらしい。 Bag-of-wordsの欠点とDoc2Vecのメリット Bag-of-wordsは文書内の単語の出現回数をベクトルの要素とした分散表現だ。例えば、 { I, have, a, pen, I, have, an, apple } という単語区切りの文書があるとしよう。この文書をBag-of-wordsでベクトル化する。ベクトルの並び順をI, have, a, pen, an, appleとすると、 [2, 2, 1, 1, 1, 1] と表現することになる。単に出現頻度を計算しているだけなので、シンプルで計算効率よく分散表現を得ることが出来る。 では、Bag-of-wordsの何が問題なのだろうか?Bag-of-wordsでは、単語の出現順序が考慮されず、同様の単語が使われていれば

    Doc2Vecの仕組みとgensimを使った文書類似度算出チュートリアル
  • Residual Network(ResNet)の理解とチューニングのベストプラクティス

    Residual Network(ResNet)とは ResNetのアイデア Shortcut Connectionの導入 Bottleneckアーキテクチャ ResNetの最適化ベストプラクティス Optimizerの選定 Batch Normalizationの位置 Post Activation vs Pre Activation Wide Residual Network まとめ 参考 2015年のImageNetコンペティションとCOCOセグメンテーションの最良モデルとしてDeep Residual NetworksがMicrosoft Researchから提案され、最大1000層以上の深いニューラルネットワークを構築することが可能となった。 記事では、 Residual Networkとは何か Residual Networkのチューニング方法 Residual Networ

    Residual Network(ResNet)の理解とチューニングのベストプラクティス
  • 高次元のデータを可視化するt-SNEの効果的な使い方

    t-SNEは、高次元のデータを可視化する手法としては、非常に便利ですが、時々不可解な挙動をしたり、誤解を招くような可視化をすることがあります。 シンプルなデータを可視化して動作の仕組みを理解することで、t-SNEのより効果的な使い方を学ぶことができます。 t-SNEは、高次元のデータを調査するための手法として、2008年にvan der MaatenとHintonによって発表 [1] された人気の手法です。 この技術は、数百または数千次元のデータですら無理やり2次元の「マップ」に落とし込むという、ほとんど魔法のような能力を備えているために、機械学習の分野で幅広く普及しています。 このような印象を持っている方が多いのですが、こういった捉え方をしていると誤解を招くこともあります。 この記事の目的は、よくある共通の誤解を解くためでもあります。 t-SNEで可視化できることと、できないことを説明す

    高次元のデータを可視化するt-SNEの効果的な使い方
  • 定番のConvolutional Neural Networkをゼロから理解する

    Convolutional Neural Networkとは何か CNNで解決できる問題 Convolutional Neural Networkの特徴 畳み込みとは 合成性 移動不変性 Convolutional Neural Networkの構成要素 ゼロパディング(zero padding) ストライド Fully Connected層 Fully Connected層の問題点 Convolution層 Pooling層 TensorFlowによる実装 TensorFlowのインストール CNNでMNIST文字認識する 参考 近年、コンピュータビジョンにおける最もイノベーションと言えるのはConvolutional Neural Networkといっても過言ではない。 コンピュータビジョンの業界におけるオリンピックとも言えるコンペティションがImageNetである。 そのコンペティシ

    定番のConvolutional Neural Networkをゼロから理解する
  • オートエンコーダ:抽象的な特徴を自己学習するディープラーニングの人気者

    オートエンコーダ(自己符号化器)とは何か オートエンコーダ(AutoEncoder) ニューラルネットワークの歴史 誤差逆伝播での勾配消失を防ぐ オートエンコーダは大成功だったか 生成モデルとオートエンコーダ Variational Autoencoder まとめ ディープラーニングが盛んに研究され、実用化されはじめている。Google認識やAlphaGoがプロの囲碁棋士イ・セドル氏を打ち負かしたことは大きな話題を呼んだ。GoogleのプロダクトでもレコメンドやGoogle Photoの画像認識など、その役割は凄まじいものがある。 ディープラーニングの幕開けは2006年にHinton氏がDeep AutoEncoderやDeep Belief Networkを提案してからだと言われている。 また、ディープラーニングの紹介のされ方でよくあるのが ディープラーニングを使うことで、コンピュー

    オートエンコーダ:抽象的な特徴を自己学習するディープラーニングの人気者
  • 1