TransformerとCloud TPUを使って英語を日本語に翻訳するニューラル翻訳モデルを訓練してみたので紹介します。 前置き 3年前の2016年にTensorFlowとGPUインスタンスで英日翻訳という記事を書きましたが、当時の機械翻訳はLSTMにAttentionを追加したモデルが主流で、ニューラル翻訳のモデルもこれから複雑化の一途を辿るのだろうなと思っていました。 しかし、最近久しぶりにニューラル翻訳のサーベイをしてみて、良い意味で期待を裏切られました。2017年に登場したTransformerでは、LSTMを完全に廃止し、Attentionのみで高精度かつ高速な翻訳を可能にしました。2018年のWMT(機械翻訳のトップ会議)のShared Taskではほぼ全ての参加チームがTransformerベースのモデルに切り替えており、普及のスピードに驚きました。 Attention i