タグ

algorithmとllmに関するsomathorのブックマーク (2)

  • LLMのキモい算術 - ジョイジョイジョイ

    LLMは「226-68=」のようなプロンプトを与えると「158」と計算してくれますが、この計算は我々が想像するよりも奇妙な方法で行っていることを紹介します [Nikankin+ICLR 2025]。 まずは前提条件を確認します。思考の連鎖は使わず、「226-68=」のようなプロンプトに対して「158」のように答えを直接出力する場合を考えます。 一例として Llama3-8B を考えます。Llama3 のトークナイザは 0 から 1000 までの数に 1 つのトークンを割り当てるので、「226-68=」を入力すると、次のトークン「158」が「0」「1」...「157」「158」「159」...「1000」などのトークンの中から、最も確率が高いものとして選ばれます。 ヤニフ・ニカンキンらの発見 [Nikankin+ICLR 2025] は、Llama3-8B は答えや入力についての粗い条件を多

    LLMのキモい算術 - ジョイジョイジョイ
  • 活性化関数がよくわからん、という人 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Deep Learningについての基礎を教えていると、「活性化関数が何者かよくわからん」と多くの人が学習の最初の躓きポイントになった人が結構います。 入力と重みを行列の掛け算をして~、重みに従って入力が活かされる値が調整されて~、バイアスで調整して~ と、その辺りは高校数学の行列の知識で「なんかうろ覚えだけど言いたいことはわかる」とあまり躓くことはないのですが、 こいつにいきなり「活性化関数」がかけられます。 こいつは何者なんだと 恐らく最初はステップ関数やSigmoid関数が紹介されて「あ、値を0.0~1.0に丸める奴なのかな」と思

    活性化関数がよくわからん、という人 - Qiita
  • 1