タグ

ブックマーク / blog.unnono.net (6)

  • EMNLP2014読み会で単語の表現学習と語義曖昧性解消を同時に解く論文を紹介しました

    先週の土曜日にPFIで行ったEMNLP2014読み会で、Skip-gramモデル(word2vec)と語義曖昧性解消を同時に解く論文の紹介をしました。 発表スライドはこちら。 単語の表現学習と語義曖昧性解消を同時に解く話は、もう一つ論文がありましたが、なんだかいまいちだったのでこちらになりました。 要点だけ整理します。 Skip-gramモデルは、単語に対するベクトル表現を学習する手法として注目を集めています。 このモデルは、ある単語の出現が周囲の出現単語に影響を与えるため、中心単語のベクトルと周囲の単語のベクトル(word2vecの実装では両者は別のベクトルとして区別します)の内積のexpに比例する確率で、周辺単語が決定されるというモデルを置きます(詳細は以前のスライド参照)。 実データを使って、対数尤度が最大になるようにベクトルを学習します。 ここまでがSkip-gramでした。 この

  • AdaGradが12倍速くなる魔法

    AdaGradは学習率を自動調整してくれる勾配法の亜種で、いろんな人が絶賛しています。 勾配を足し込む時に、各次元ごとに今までの勾配の2乗和をとっておいて、その平方根で割ってあげるだけと、恐ろしくシンプルです。 Adaptive Subgradient Methods for Online Learning and Stochastic Optimization John Duchi, Elad Hazan, Yoram Singer. JMLR 2011. 丁度、 @echizen_tm さんがブログを書いてました。 AdaGrad+RDAを実装しました。 通常のSGDなどは学習率をだんだん減衰させながら勾配を足していくわけですが、どの様に減衰させるかという問題にいつも頭を悩ませます。 AdaGradでは最初の学習率こそ外から与えますが、減衰のさせ方や減衰率といったハイパーパラメータから

  • 今、人工知能研究で何が起こっているのか

    半年前くらいに書いた草稿が、投稿されずに残ってたのでちゃんと書きました。 最近、人工知能という言葉がまた流行しているような印象を受けます。 ブームということの質は2つ有ると思っています。 1つは学術会で、最近良い成果が立て続けに出てきたという側面です。 もう一つは、それに呼応して大きな会社、特にIBMやGoogle、Facebookといった大きなコンピュータ系、インターネット関連企業が力を入れていることが大々的に報道されたことです。 両者はもちろん関係していて、いくつか技術的ブレークスルーがあって、それが企業の投資を呼んでいる、それと呼応するように学術的な成果が企業からでているという、正のスパイラルが生まれている様に見えます。 こうした流れをいち早くとらえた新書として、「クラウドからAIへ」というがあったので読んでみたのですが、一般のビジネスマンを意識して、歴史、現在、未来について大局

    今、人工知能研究で何が起こっているのか
  • Statistical Semantics入門の発表をしました

    先週のPFIセミナーで、Statistical Semantics入門という発表をしました。 主に分布仮説をベースにした、単語の意味を文脈の分布で表現する研究を纏めました。 LSIから始まって、PLSI、LDAと続く言語モデル系、NMFなどの行列分解系、そしてNNLM、RNNLMと来て昨年流行したニューラルネット系の3つでまとめるという形をとっています。 あまり専門的になりすぎず、過去からの歴史や流れを踏まえ、一方で実用面や研究テーマのココロ、問題意識を重視するような内容になるように心がけたつもりではあります。 当初、他の「いわゆる意味論」との比較みたいなスライドもあったのですが、変なコト言うと刺されると思ったので消しましたw ところで、応用の観点でこれらの話をどう考えているか、というような点について触れるのを忘れたな、と思ったのでこちらに書いてみます。 基的に私見ですが。 私自身は、単

  • NIPS2013読み会でword2vec論文の紹介をしました

    先週、 @sla さん主催のNIPS2013読み会で、word2vec論文(正確には続報)の紹介をしました。 ちょっと解説を書きます。 このところの深層学習ブームは自然言語処理にも来ていて、それらのウチの1つと言われています(が、全然deepっぽさはない)。 最初のモチベーションがどういうところにあったかというのは、ちょっと色々だと思いますが(おそらく最初は言語モデルにおける低頻度語の確率をウマイことモデル化・推定したかったんではないかな)、何はともあれ単語の意味的なあるいは統語的な振る舞いをベクトル表現で表すという研究が流行っております。 ベクトル表現というのは、1つの単語wに対して、その単語を「表現」するようなベクトル v(w) を作ります。 そんなこといわれても、作れば?ということなんですが、できたベクトルに対して何かしら「都合のいい」性質ができることが真の目標です。 「都合のいい」

  • ICML2013読み会で発表しました(今更)

    気づいたら2週間以上たってしまったのですが、ICML2013読み会で発表しました。内容は、Lifelong learnigのためにマルチタスク学習のGO-MTLという手法を1000倍以上速くしたELLAという手法です。 ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm from Yuya Unno 当日もちゃんと伝わってなかったので、いくつかポイントとなる部分を説明します。 まず、Lifelong learningというのはどういう設定かというと、次々に問題がやってくる状況での学習だと思って下さい。複数の問題が有る設定ですと、それはいわゆるマルチタスク学習になりますが、Lifelong learningの場合、問題(学習データセット)がオンラインでやってきます。マルチタスク学習のオンライン版みたいなイメージです。時刻tでラ

  • 1