タグ

ブックマーク / komachi.hatenablog.com (5)

  • word2vec を超えた異空間 - 武蔵野日記

    今日は第9回最先端 NLP 勉強会参加のためにリクルート MTL カフェへ。 この勉強会は毎年この時期に開催され、最前線で活躍する人たちがみんなが読みたいと思っている論文を紹介する、という趣旨で開催されている勉強会で、読む前に論文の投票があったりなんだりと、独特のプロセスがある。 自分はというと今年は以下の論文を紹介。 Ding et al. Visualizing and Understanding Neural Machine Translation. ACL 2017. 詳しくは紹介スライドを見てもらえるといいのだが、ニューラル機械翻訳を可視化したいというモチベーションで、ニューラル機械翻訳ではデコード時のアテンションを見ることで少しは見当が付くのだが、それでは全然十分ではないのでもっと細かく見たい、という話(アテンションはアライメントとも違うので、解釈しにくい)。 あとで [twi

    word2vec を超えた異空間 - 武蔵野日記
  • リカレントニューラルネットなぜ強い? - 武蔵野日記

    午前中は言語学習支援・機械翻訳の進捗報告。それぞれ新しい研究で各自色々自分で進めているので、話を聞くのは楽しいのだが、年内に実験結果が出るのか? という不安がそこはかとなくある。当は、こんな締め切りに追われるような感じではなく、ゆっくりできるといいと思うのだが、締め切りに追われている方が進むという不思議(いや、あまり不思議ではないか)。 お昼は論文紹介。 Tang et al. Document Modeling with Gated Recurrent Neural Network for Sentiment Classification. EMNLP 2015. を紹介してもらう。感情極性分析では、頑張って素性エンジニアリングした SVM と、適当に作った畳み込みニューラルネットワークが同じくらいの性能になるらしいのだが、リカレントニューラルネットワーク(普通の RNN から、LST

    リカレントニューラルネットなぜ強い? - 武蔵野日記
  • 最大マージン kNN と SVM の関係: kNN も最近はがんばっています - 武蔵野日記

    先日書いた機械学習における距離学習の続き。 kNN (k-nearest neighbour: k 近傍法)は Wikipedia のエントリにも書いてある通り、教師あり学習の一つで、あるインスタンスのラベルを周辺 k 個のラベルから推定する手法。memory-based learning と呼ばれることもある。単純に多数決を取る場合もあれば(同点を解決する必要があるが)、近いインスタンスの重みを大きくする場合もあるのだが、いずれにせよかなり実装は単純なので、他の機械学習との比較(ベースライン)として使われることも多い。 簡単なアルゴリズムではあるが、1-NN の場合このアルゴリズムの誤り率はベイズ誤り率(達成可能な最小誤り率)の2倍以下となることが示されたり、理論的にもそれなりにクリアになってきているのではないかと思う。また、多クラス分類がちょっと一手間な SVM (pairwise に

  • WEB+DB PRESS Vol.49 を読んで Spectral Hashing について考える - 武蔵野日記

    前の Key-Value Store 勉強会でO 野原くんに勧められた Spectral Hashing の論文(NIPS 2008)も読んでみた。前もスペクトラルクラスタリングについて書いたが、要はグラフ分割の問題に落とし込んで、厳密に分割を求めようとすると NP 困難なので、制約を少し緩和して k 個の固有ベクトルを求める問題に帰着して近似解を求める、というもの。主成分分析のように重要な軸から順番に次元抽出して圧縮するので、非常にシンプルな方法だが、高い性能を得られそうであり、実際その通りだそうだ。 具体的に実験を見てみると、人工データと現実のデータの両方で比較実験しており、いずれも Locality Sensitive Hashing (LSH) と Restricted Boltzmann Machine (RBM) より遙かにいい性能を得られるそうである。かなり impressi

    WEB+DB PRESS Vol.49 を読んで Spectral Hashing について考える - 武蔵野日記
    petite_blue
    petite_blue 2009/11/29
    Spectral Hashing 類似度が近いほどハッシュ値が近い グラフ理論
  • スペクトラルクラスタリングは次元圧縮しながらKmeansする手法 - 武蔵野日記

    機械学習系のエントリを続けて書いてみる。クラスタリングについて知らない人は以下のエントリ読んでもちんぷんかんぷんだと思うので、クラスタリングという概念については知っているものとする。 それで、今日はスペクトラルクラスタリングの話。自然言語処理以外でも利用されているが、これはグラフのスペクトルに基づくクラスタリングの手法で、半教師あり学習への拡張がやりやすいのが利点。なにをするかというとクラスタリングをグラフの分割問題(疎であるエッジをカット)に帰着して解く手法で、どういうふうに分割するかによって Normalized cut (Ncut) とか Min-max cut (Mcut) とかいろいろある。 完全にグラフが分割できる場合はこれでめでたしめでたしなのだが、実世界のグラフはそんな簡単に切れないことが往々にしてある。それで近似してこのグラフ分割問題を解くのだが、Normalized c

    スペクトラルクラスタリングは次元圧縮しながらKmeansする手法 - 武蔵野日記
  • 1