misshikiのブックマーク - はてなブックマーク

misshiki id:misshiki

ブックマーク / www.hello-statisticians.com (3)

【Transformer】LLM(Large Language Model)のパラメータ数の概算法 - あつまれ統計の森
昨今LLM(Large Language Model)が大きな注目を集める一方で、パラメータ数がどのように決まるかについて抑えておくと理解に役立ちます。そこで当記事ではLLMの主要モジュールであるTransf ormerに用いられるパラメータの概算法について取りまとめを行いました。 Transf ormerの論文や筆者作成の『直感的に理解するTransf ormer』の内容などを元に取りまとめを行いました。・用語/公式解説 https://www.hello-statisticians.com/explain-terms ・Transf ormer論文・直感的に理解するTransf ormer(運営者作成) パラメータ数の概算パラメータ数の単位 LLM(Large Language Model)関連の論文ではパラメータ数はMillionを表すMやBillionを表すBで略記されるので注意が必要
misshiki 2024/09/27
“LLMの主要モジュールであるTransformerに用いられるパラメータの概算法について取りまとめ”

Transformer
リンク
ネットワーク分析から直感的に理解するTransformerの仕組みと処理の流れ - あつまれ統計の森
グラフ理論と隣接行列グラフ理論は点と線で物事を表す理論です。たとえば駅の路線図では下記のように駅を点、路線を線で表します。東京メトロホームページより上記の路線図では「駅と駅が隣接するかどうか」を中心に取り扱う一方で、それぞれの位置や方角などは厳密に再現はされません。このように、「隣接するかどうか」のみに着目して物事を表す際の理論を「グラフ理論」といいます。グラフ理論では点をノード(node)、線をエッジ(edge)、全体をグラフ(graph)と定義します。数式で表すと$G = (V,E)$のように表しますが、$V$が頂点のVertice、$E$がEdge、$G$がGraphであるとそれぞれ解釈すると良いです。グラフの表記法に関しては主に$2$通りあり、「①図を用いる」と「②隣接行列を用いる」をそれぞれ抑えておくと良いです。例があるとわかりやすいので下記のWikipediaの例を元
misshiki 2023/02/21
“Transformer、基本的には下記に基づいて直感的に理解できます。①Transformerはネットワーク分析に類似する ②Transformerはグラフニューラルネットワークの一種である ③グラフニューラルネットワークはRNNの拡張である”

Transformer
リンク
推測統計フローチャート（推定、検定を考えるにあたっての解法の整理） - あつまれ統計の森
中心極限定理などに基づいて母集団の確率分布のパラメータの点推定・区間推定や、パラメータに関する仮説の検定を行う推測統計は、基本的な考え方は一貫している一方で推定の対象や分散の既知・未知などに置ける場合分けなど、関連する概念が多くわかりにくい。そのため当稿では解法の整理の補助となるように、推測統計に関連するトピックをフローチャートの形式にまとめる。作成にあたっては、「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の$9$章〜$12$章を主に参考にした。大枠の整理推測統計を考える際の前提推測統計を考える際に前提となるのが母集団(population)と標本(sample)である。記述統計学(descriptive statistics)では得られた標本についてのみ考えるが、得られた標本の裏側の母集団についても考察を行うのが推測統計である。推測統計では母集団の持つ分布である、母集団分布(
misshiki 2022/01/04
統計
リンク
1