自然言語処理においてSequence-to-Sequenceモデル、そしてAttentionは大きな影響を与えてきました。 いまやSequence-to-Sequence + Attentionモデルは自然言語処理とディープラーニングを語る上では欠かせない存在となりつつあります。 近年の自然言語処理ではこのSequence-to-SequenceとAttentionをベースにしたモデルが多く提案されています。 この記事ではSequence-to-Sequenceをベースとしたモデルがどういった進化を遂げているかを歴史を追いながらまとめていこうと思います。 Sequence-to-Sequenceモデル (2014) Sequence-to-SequenceモデルはSequence to Sequence Learning with Neural Networksの論文で提案され、「Seq2
Sequence-to-Sequence(Seq2Seq)学習は、任意長の入力列から任意長の出力列を出力するような学習のことで、Neural Networkの枠組みで扱う方法が提案されて、いい結果が報告されています。雑なメモ。 入力・出力列の例 (自然)言語処理系 機械翻訳(翻訳元->翻訳先) [1409.3215] Sequence to Sequence Learning with Neural Networks [1406.1078] Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation http://www.slideshare.net/yutakikuchi927/learning-phrase-representations-using-rnn-
@tkngueと共著 TL;DR NMTを試してみました. 翻訳結果を見ると、うまくいっている翻訳は驚きの結果でした. ただ,内容語をとんでもない間違いかたをしているものもあったりして面白かったです. 概要 "でぃ〜ぷらーにんぐ"の波が機械翻訳にも来ていて 大きなパラダイムシフトになりつつあります. その圧倒的な表現能力の高さ や 高価なGPGPUが大量にないと話にならないお金持ちゲーであること や 膨大なハイパパラメータ(学習の際の設定の組み合わせ)が 存在することから 「さわるの嫌だなー」と思いつつも、さわらざるを得ない状況になったので触ってみました. 実際にさわってみて, やっぱり凄かったので 投稿する次第です. 本稿では, 再配布可能な対訳コーパスKFTTを対象に日英翻訳をニューラルネット翻訳(NMT)で試してみます. 加えて, これまでのフレーズベースの統計的機械翻訳の典型的なツ
上図の四角はRNNセルを表しています。またこれらの四角は、最も一般的にはGPUセルもしくはLSTMセル(説明は RNNチュートリアル を参照のこと)を表しています。エンコーダおよびデコーダは重みを共有するかもしくは、より一般的には、異なるパラメータセットを使用します。多層セルが sequence-to-sequence モデルにおいてもうまく使われています。例: 翻訳向け Sutskeverほか 2014年 ( PDF ) ここで表されている基本的なモデルにおいて、あらゆるインプットは、デコーダに引き継がれる唯一のものである、固定サイズのベクトルにエンコード されなければなりません。インプットへの直接アクセスをデコーダに与えるために、注意メカニズム(attention mechanism)は、 Bahdanauほか、2014 ( PDF )にて導入されました。注意メカニズム(attenti
背景 ある日,私は機械翻訳に興味を持った. (英語に苦しむ日本の研究者の声を聞いたからかもしれないし,勉強会の準備に追われていたからかもしれない.) しかし私は門外漢なので,encoder-decoderモデルの "あの" 図を読むことができなかった. 先日気持ちを掴むことができたので,自分なりに噛み砕いたものを記録・共有するためにこの記事を書いた. 先人の詳細な記事 http://qiita.com/odashi_t/items/a1be7c4964fbea6a116e RNNの図を翻訳 翻訳までの流れを別視点から描いた. encoder-decoderモデルによって「彼 は 走る」を「He runs」と翻訳するまでの流れは,以下のようになっている. encode側の図において,日本語の登場順序がodashi_tさんの図とは逆になっている. 逆順に入力すると実験的に良い結果が得られている
Sequence to Sequence Learning with Neural Networks Ilya Sutskever Google ilyasu@google.com Oriol Vinyals Google vinyals@google.com Quoc V. Le Google qvl@google.com Abstract Deep Neural Networks (DNNs) are powerful models that have achieved excel- lent performance on difficult learning tasks. Although DNNs work well whenever large labeled training sets are available, they cannot be used to map sequ
This tutorial: An encoder/decoder connected by attention. While this architecture is somewhat outdated, it is still a very useful project to work through to get a deeper understanding of sequence-to-sequence models and attention mechanisms (before going on to Transformers). This example assumes some knowledge of TensorFlow fundamentals below the level of a Keras layer: Working with tensors directl
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く