タグ

ブックマーク / akichan-f.medium.com (2)

  • 大きなミニバッチの効力と、Tensorflowを使って大きなミニバッチを学習させる方法(Gradient Accumulation)

    この記事についてこの記事では、大きなミニバッチで学習さえることの効力と、Tensorflow2.0を用いてメモリに乗り切らない大きなミニバッチを学習させる方法を紹介します。この記事に書いてあることは以下の通りです。 Tensorflow2.0を用いた標準的なモデル学習の方法大きなミニバッチで学習させることが効果的な場面各ミニバッチのGradientを積算していき、仮想的な大きなバッチのGradientでモデルを更新する方法今回使った実験のコードはGithubにアップロードしてます。 Tensorflow2.0の標準的なモデル学習の方法tensorflow2.0では、kerasのfitを用いた学習のほかに、gradient tapeを用いた学習方法がチュートリアルで提案されています。以下のコードはチュートリアル[1]からの引用です。 大きなミニバッチで学習させることが効果的な場面当然ですが、

    大きなミニバッチの効力と、Tensorflowを使って大きなミニバッチを学習させる方法(Gradient Accumulation)
  • BERTを超えたXLNetの紹介

    概要https://arxiv.org/abs/1906.08237 XLNetは2019/6/19に、”XLNet: Generalized Autoregressive Pretraining for Language Understanding”と題してArxivに投稿された論文です。一言(?)でいうと Transformer-XLを単語の順序を入れ替えた(元の順序情報は保持)もので学習させることで、自己回帰モデルで双方向の意味依存関係を取得できるようにしたと主張。20を超えるタスクでBERT超え。 といったところでしょうか。この記事では、背景となる関連技術も含めてXLNetの着想と技術について順々に説明していきます。 自然言語処理のタスク学習の流れと事前学習の種類深層学習を用いた自然言語処理は翻訳、QAタスク、文書分類など多岐にわたります。 深層学習でそれらのタスクを解く際は、タス

    BERTを超えたXLNetの紹介
  • 1