Table of Contents これは何?byte列をpatchに区切る具体例提案手法のメリット学習効率の向上1つの処理単位に押し込める情報量をコントロールするサブトークンの特徴の利用どのように実現したか?byte列の表現の粒度提案手法における「語彙数」の定義言語モデルのアーキテクチャ所感提案手法のアプローチはマルチバイト言語に対しても有効か?ReferenceAppendixA. byte単位の表現とn-gram表現の持ち方 Metaが2024年12月13日に公開した論文 "Byte Latent Transformer: Patches Scale Better Than Tokens" [Pagnoni, 2024] を読んだのでその内容をまとめます。 ここで掲載された図は特に説明がない限り全て[Pagnoni, 2024]からの引用で、著作権は著者らに所属します。 これは何?
