ブックマーク / zenn.dev/ohtaman (2)

  • 言語モデルはどのようにして知識を蓄えているのか? 関連文献の紹介

    この記事は Ubie Engineering Advent Calendar 2023 15日目の記事です。私は現在、 新しいプロダクトのプロダクトオーナー (PO) として働きつつ、機械学習エンジニアとして大規模言語モデル(LLM)を活用する業務にも携わっています。Ubie は LLM にかなり力を入れており、社員の生産性向上 やプロダクトへの機能追加 など、色々なところで LLM が活用されています。 また、私が所属するチームでは、既存の大規模言語モデル(LLM)の活用に加えて、LLM 自体に関する理解を深め、知見を蓄積する取り組みも行っています。その中で特に「言語モデルはどのようにして知識を蓄えているのだろうか?」という問いは、非常に興味深いと感じました。そこで、この記事では、言語モデルと知識獲得に関する文献をいくつか紹介したいと思います。 知識ベースとしての言語モデル そもそも「言

    言語モデルはどのようにして知識を蓄えているのか? 関連文献の紹介
  • LLMのファインチューニングで事実の学習ができないのは本当か?ちょっと実験してみた

    三行要約 LLM のファインチューニングでは事実の学習ができないという話があったので、事実の学習の例として、シェイクスピアのRomeoをBobに置き換える実験を行った 実験では、訓練対象とする層による結果の違いを確認した。アテンション層のみを訓練した場合は、Bobへの置き換えはできなかった。一方、全結合層を含めて訓練した場合は、学習率を調整するとBobへの置き換えができた ファインチューニングが事実の学習に向いているかはさておき、工夫次第でファインチューニングも事実の学習に利用できる可能性はある 背景 先月 ChatGPT(GPT-3.5 Turbo) のファインチューニングがリリースされました。いろいろな方が試されて、うまくいった、いかなかったという話がちらほらありました。例えば以下の記事では、一晩試してみた程度では、ChatGPTに最新の知識を教え込む目的での Fine-tuning

    LLMのファインチューニングで事実の学習ができないのは本当か?ちょっと実験してみた
  • 1