今のLLMを取り巻く状況について紹介します。
![LLMの現在 - Speaker Deck](https://cdn-ak-scissors.b.st-hatena.com/image/square/36f9273c4bfb0503da924e8e096a264f158a38e6/height=288;version=1;width=512/https%3A%2F%2Ffiles.speakerdeck.com%2Fpresentations%2F45c4b4b0edc246979fbb6f427758e8ec%2Fslide_0.jpg%3F29487458)
Transformer 深層学習モデル以前の言語モデルの課題 言語モデルでやりたいことは、「今まで生成した単語列を元に、次の単語を予測する」ことで、その単語は今まで生成した単語列を条件とし、次にある単語がくる条件付き確率を求め、その確率が最大のものを選ぶということだった。(LLM資料p.8参照) ただ、これだと単語列が長くなったときや、類義語の処理に課題が生じてしまっていた。 ニューラル言語モデル しかし、計算したい条件付き確率をNNで推定することにより、対処できた。 Encoder-Decoder型のRNN(Recurrent Neural Network)が最も基本的なモデルにはなるが、これでは長文に対応できなかった。(勾配消失&単語間の長距離依存性の把握が困難) RNNが勾配消失するのは、活性化関数のtanhが1未満の値を取るため、BPTT時に掛け算されるとだんだん値が小さくなってし
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く