概要 の要点纏め。 Behind the pipeline pipelineがやっていること Preprocessing with a tokenizer tokenizerがやっていること このすべての前処理は、モデルが事前学習されたときとまったく同じ方法で行われる必要がある。 Splitting the input into words, subwords, or symbols (like punctuation) that are called tokens Mapping each token to an integer Adding additional inputs that may be useful to the model トーカナイザーの読み込み from transformers import AutoTokenizer checkpoint = "distilbe