shikimihuaweiのブックマーク - はてなブックマーク

Facebookが公開した10億語を数分で学習するfastTextで一体何ができるのか

fastTextとは何なのか自然言語処理の学習を高速化するツールこれまで５日かかっていたタスクがたったの１０秒で終了 fastTextで取り組める３つのこと fastTextで出来る３つの全体像 Facebookはニュースフィードから釣り見出しを排除するためにfastTextをつくった？リクルートテクノロジーズでは、レコメンドに応用サイバーエージェントが実用化したAWAでのアーティストレコメンド Yahoo!はレシートメールの文章から製品をオススメする ◯2Vecを考えれば推薦に応用できる fastTextを安全に使うために必要な理論単語をベクトル表現化するWord2Vec ベクトル表現を構築するアーキテクチャ CBoW Skip-gram fastTextを使ってみよう fastTextをインストールする単語のベクトル表現を構築しよう Tweetデータの収集単語のベクトル表

shikimihuawei 2020/04/14

fasttext

リンク

Word2Vec：発明した本人も驚く単語ベクトルの驚異的な力

Word2Vecとは Word2Vecで演算処理する Word2Vecとニューラルネットワーク Word2Vecの仕組み CBoW Skip-gram Word2Vecを応用することができる分野レコメンド機械翻訳 Q&A・チャットボット感情分析 Word2Vecの弱点 Word2Vecの派生系や類似ツール GloVe WordNet Doc2Vec fastText まとめ参考世界中のWebサイトの数は2014年に10億件を超えたようだ。そして、Facebookのユーザー数だけでも16億人を超えている。そして、そのいずれもコンテンツの中身の大部分はテキストから成り立っていることだろう。ということは、莫大に増大し続けるネット上のデータのほとんどはどこかの国の言葉だってことだ。世界中の人が毎日テキストデータを生成し続けたことはこれまでの歴史上無かったんじゃないだろうか。もしそん

shikimihuawei 2020/02/25

リンク

Doc2Vecの仕組みとgensimを使った文書類似度算出チュートリアル

類似したコンテンツのタイトルは、女性アーティストだらけとなっている。浜崎あゆみは日本のレディー・ガガらしい。 Bag-of-wordsの欠点とDoc2Vecのメリット Bag-of-wordsは文書内の単語の出現回数をベクトルの要素とした分散表現だ。例えば、 { I, have, a, pen, I, have, an, apple } という単語区切りの文書があるとしよう。この文書をBag-of-wordsでベクトル化する。ベクトルの並び順をI, have, a, pen, an, appleとすると、 [2, 2, 1, 1, 1, 1] と表現することになる。単に出現頻度を計算しているだけなので、シンプルで計算効率よく分散表現を得ることが出来る。では、Bag-of-wordsの何が問題なのだろうか？Bag-of-wordsでは、単語の出現順序が考慮されず、同様の単語が使われていれば

shikimihuawei 2020/02/25

リンク

Residual Network(ResNet)の理解とチューニングのベストプラクティス

Residual Network（ResNet）とは ResNetのアイデア Shortcut Connectionの導入 Bottleneckアーキテクチャ ResNetの最適化ベストプラクティス Optimizerの選定 Batch Normalizationの位置 Post Activation vs Pre Activation Wide Residual Network まとめ参考 2015年のImageNetコンペティションとCOCOセグメンテーションの最良モデルとしてDeep Residual NetworksがMicrosoft Researchから提案され、最大1000層以上の深いニューラルネットワークを構築することが可能となった。本記事では、 Residual Networkとは何か Residual Networkのチューニング方法 Residual Networ

shikimihuawei 2020/01/24

リンク

高次元のデータを可視化するt-SNEの効果的な使い方

t-SNEは、高次元のデータを可視化する手法としては、非常に便利ですが、時々不可解な挙動をしたり、誤解を招くような可視化をすることがあります。シンプルなデータを可視化して動作の仕組みを理解することで、t-SNEのより効果的な使い方を学ぶことができます。 t-SNEは、高次元のデータを調査するための手法として、2008年にvan der MaatenとHintonによって発表 [1] された人気の手法です。この技術は、数百または数千次元のデータですら無理やり2次元の「マップ」に落とし込むという、ほとんど魔法のような能力を備えているために、機械学習の分野で幅広く普及しています。このような印象を持っている方が多いのですが、こういった捉え方をしていると誤解を招くこともあります。この記事の目的は、よくある共通の誤解を解くためでもあります。 t-SNEで可視化できることと、できないことを説明す

shikimihuawei 2019/11/10

リンク

定番のConvolutional Neural Networkをゼロから理解する

Convolutional Neural Networkとは何か CNNで解決できる問題 Convolutional Neural Networkの特徴畳み込みとは合成性移動不変性 Convolutional Neural Networkの構成要素ゼロパディング（zero padding）ストライド Fully Connected層 Fully Connected層の問題点 Convolution層 Pooling層 TensorFlowによる実装 TensorFlowのインストール CNNでMNIST文字認識する参考近年、コンピュータビジョンにおける最もイノベーションと言えるのはConvolutional Neural Networkといっても過言ではない。コンピュータビジョンの業界におけるオリンピックとも言えるコンペティションがImageNetである。そのコンペティシ

shikimihuawei 2019/10/23

リンク

オートエンコーダ：抽象的な特徴を自己学習するディープラーニングの人気者

オートエンコーダ（自己符号化器）とは何かオートエンコーダ(AutoEncoder) ニューラルネットワークの歴史誤差逆伝播での勾配消失を防ぐオートエンコーダは大成功だったか生成モデルとオートエンコーダ Variational Autoencoder まとめディープラーニングが盛んに研究され、実用化されはじめている。Googleの猫認識やAlpha Goがプロの囲碁棋士イ・セドル氏を打ち負かしたことは大きな話題を呼んだ。GoogleのプロダクトでもレコメンドやGoogle Photoの画像認識など、その役割は凄まじいものがある。ディープラーニングの幕開けは2006年にHinton氏がDeep AutoEncoderやDeep Belief Networkを提案してからだと言われている。また、ディープラーニングの紹介のされ方でよくあるのがディープラーニングを使うことで、コンピュー

shikimihuawei 2019/10/23

リンク

はてなブックマーク

タグ

ブックマーク / deepage.net (7)

お知らせ

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

今週のはてなブックマーク数ランキング（2024年6月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス