タグ

ブックマーク / komachi.hatenablog.com (9)

  • 論文を読んで身につくこともある - 武蔵野日記

    午前中は最先端論文紹介ということで2紹介してもらう。 A. Conneau, G. Lample, L. Denoyer, MA. Ranzato, H. Jégou. Word Translation Without Parallel Data. ICLR 2018. こちら、ちゃんと読んだのは初めてだったが、パラレルコーパスがなくても単語の翻訳ができるという話で一時話題になった論文である(その後、単語じゃなく普通の文も翻訳できる、という展開があるのだが)。 読んでみると、基は Mikolov et al. (2013) のやり方で二言語の単語埋め込みを学習したあと、相互 k 近傍グラフを使ったり、グラフにおけるハブの問題の対処のために平均を引いて cos 類似度を取ったりしつつ、(恐らく語順がかなり似ている言語でないとうまくいかない)ヒューリスティックでなんとか単語翻訳をできるよう

    論文を読んで身につくこともある - 武蔵野日記
  • word2vec を超えた異空間 - 武蔵野日記

    今日は第9回最先端 NLP 勉強会参加のためにリクルート MTL カフェへ。 この勉強会は毎年この時期に開催され、最前線で活躍する人たちがみんなが読みたいと思っている論文を紹介する、という趣旨で開催されている勉強会で、読む前に論文の投票があったりなんだりと、独特のプロセスがある。 自分はというと今年は以下の論文を紹介。 Ding et al. Visualizing and Understanding Neural Machine Translation. ACL 2017. 詳しくは紹介スライドを見てもらえるといいのだが、ニューラル機械翻訳を可視化したいというモチベーションで、ニューラル機械翻訳ではデコード時のアテンションを見ることで少しは見当が付くのだが、それでは全然十分ではないのでもっと細かく見たい、という話(アテンションはアライメントとも違うので、解釈しにくい)。 あとで [twi

    word2vec を超えた異空間 - 武蔵野日記
  • リカレントニューラルネットなぜ強い? - 武蔵野日記

    午前中は言語学習支援・機械翻訳の進捗報告。それぞれ新しい研究で各自色々自分で進めているので、話を聞くのは楽しいのだが、年内に実験結果が出るのか? という不安がそこはかとなくある。当は、こんな締め切りに追われるような感じではなく、ゆっくりできるといいと思うのだが、締め切りに追われている方が進むという不思議(いや、あまり不思議ではないか)。 お昼は論文紹介。 Tang et al. Document Modeling with Gated Recurrent Neural Network for Sentiment Classification. EMNLP 2015. を紹介してもらう。感情極性分析では、頑張って素性エンジニアリングした SVM と、適当に作った畳み込みニューラルネットワークが同じくらいの性能になるらしいのだが、リカレントニューラルネットワーク(普通の RNN から、LST

    リカレントニューラルネットなぜ強い? - 武蔵野日記
  • リソースは深層学習でも必要 - 武蔵野日記

    今日はNL研(情報処理学会自然言語処理研究会)の2日目。午前中から午後にかけては招待講演が2である。それぞれ実況したものをまとめた。 前半の、東北大学の岡谷先生による画像処理における深層学習(deep learning)のお話は大変示唆的で興味深かった。畳み込みニューラルネットワークの気持ちが少し分かった(が、画像処理で使われる一般的な畳み込みニューラルネットワークは、やはり自然言語処理とは設定が違う、という気がする)。あと、物体認識で一躍有名になったのは、深層学習(だけ)の成果ではなく、ImageNet という大規模データセットのおかげで、そういうリソースがない(あるいはクラウドソーシングできない)タスクでは依然性能を上げるのは難しいのではなかろうか。結局教師データが重要である、という結論に見える。同じく教師データを使う他の手法よりよくできる、というのは利点だが、そこの貢献よりは、生成

    リソースは深層学習でも必要 - 武蔵野日記
  • 紙を使うことによる可視化 - 武蔵野日記

    週末に大学が停電になることを忘れていたので、出勤してからサーバの復旧。Mac mini を2台縦に置いているので、最初間違った方の電源を入れていた(メインマシンは先日 Mac mini から iMac にした)……。 午前中は大学院の自然言語処理の授業。TAが来ないのでどうしたものかと思っていたが、インフルエンザになっていたらしい。熱が引いてからも3日間は登校停止らしいのだが、一人暮らしで大丈夫だろうか……(自分も乳児がいるのでインフルエンザウイルスをもらうことはできないのだが) お昼は Skype でミーティング。直前まですっかり忘れていて、急遽準備したりする。10分あれば準備できるのだが、その10分の確保がままならない。うーむ。 昼過ぎは SLP(自然言語処理の教科書)の勉強会。情報抽出の章。研究テーマにしている人が複数いる章だと、みんな聞くモチベーションが上がるかな?自分が担当に当た

    紙を使うことによる可視化 - 武蔵野日記
  • とりあえず deep learning してみる - 武蔵野日記

    いろいろと年度末に向けた TODO が溜まってきている。娘が生まれてからというもの、仕事の時間を8割に削減しているため、ひとまず年度内は新規の仕事は原則的に引き受けないようにしているのだが、継続の仕事だけでも思ったよりあるものである。 午前中は自然言語処理特論(大学院の授業)。みんなのソースコードを見ていると、特徴が出ておもしろい。「あ、これサンプルに使える!」と思ったりする。大規模化したときの効率なんかについて、ときどき補足を入れたりする(可読性や保守性のためにあえて効率を犠牲にしている場合もあるので、一概に効率をよくする必要はないのだが)。結局計算量を見積もるという意識がないと、あっさり何度も実行される重複した処理を書いたり、疎行列なのに密行列を作って演算したりするので、書いて実行し、直して「速くなった!」という経験を何度もするのが近道なのかな。 午後は SLP(自然言語処理の教科書)

    とりあえず deep learning してみる - 武蔵野日記
  • 日本語で読める自然言語処理の参考書まとめ - 武蔵野日記

    第5回入力メソッドワークショップのために京都へ。元々はオープンソース界隈の入力メソッド開発者が中心になって年に1回集まる(同窓)会だったのだが、ここ数年は大学で入力メソッドのレイヤーの研究をしている人や実際に MS, Apple, Google 等入力メソッドの開発に関係している人が中心になってきている。入力メソッドを現在開発していなくても、過去に作っていた人もいらっしゃるので、いろいろとおもしろいお話が聞ける。 自分は去年までは奈良・京都からの参加なので近かったが、今年から東京に引っ越したので、朝起きて品川経由で京都まで。7時40分の便だったが、満席でびっくりした。そうか、世の中的には今日が帰省のピークなのか。 米原で雪のため少し遅れたが、10分遅れで京都に着いたら晴れていた。ワークショップ開催まで時間があったので、NAIST の [twitter:@tom_shibata] さんと近鉄

    日本語で読める自然言語処理の参考書まとめ - 武蔵野日記
  • 公立大学准教授の初年度の年俸 - 武蔵野日記

    雷雨との予報だったのでびびっていたが、結局全然雨は降らなかった。 2人で出かける予定だったのだが、車で目的地に到着すると両親が立っていたり……。休みが取れたから来たそうなのだが、そもそも来る前提じゃなかったから、日程の変更があっても伝える気なかったし、スケジュールが変わっていたらどうするつもりだったのだろう。あと、内容的に母は来ない方がよいと思ってあえて声をかけなかったのだが、母も来ていてなんだかとても申し訳ない感じになる (実際、とても退屈していたそぶりである)。 夕方、印鑑を作るために武蔵境駅前に行く。自分は奈良に行く前に銀行印と実印を作った記憶があるのだが、なんで作ったんだっけな? と思い起こすと、ne.jp のドメインを取得するときに印鑑証明が必要なので実印を作り、そのついでに (セットで頼むと若干安かったので) 銀行印も作った、という流れであったのを思い出した。銀行印自体はすぐは

    公立大学准教授の初年度の年俸 - 武蔵野日記
  • 「女子学生のほうが優秀なんだけどね」は「自分は女子学生を研究者として育てることができません」という意味 - 武蔵野日記

    午前中、研究ミーティング。意味解析にちゃんと取り組む、というのは、大変ではあるが重要な仕事だと思う。難しいところが多いので、研究のスコープをしっかりと決めないと、泥沼にはまりやすいが……。 昼から第5回奈良先端男女共同参画推進シンポジウムに参加。 最初磯貝先生が NAIST の男女共同参画に関するいくつかの数字を挙げられていたのだが、意外と知らずにびっくりする。たとえばここ数年女性教員の採用比率を12%にすることを目標にしてきて、実際は16%だった一方、現在全学合わせても女性の教授は2名 (バイオ1、情報1)、准教授はなんと1名 (バイオ) だそうで、職位が高くなるほど女性の割合が減るということを如実に表しているとか。最近女性教員の採用比率が上がったとはいえ、NAIST は日一若手研究者が多い大学なので、流動性の高い助教や研究員に女性が多くなった、ということだろう。ちなみに、助教の女性比

    「女子学生のほうが優秀なんだけどね」は「自分は女子学生を研究者として育てることができません」という意味 - 武蔵野日記
  • 1