「LangChain」の「TextSplitter」がテキストをどのように分割するかをまとめました。 前回 1. TextSplitter「TextSplitter」は長いテキストをチャンクに分割するためのクラスです。 処理の流れは、次のとおりです。 (1) セパレータ(デフォルトは"\n\n")で、テキストを小さなチャンクに分割。 (2) 小さなチャンクを特定サイズになるまでマージし、大きなチャンクを作成。 2. CharacterTextSplitterセパレータで分割して、文字数でマージするTextSplitterです。 from langchain.text_splitter import CharacterTextSplitter text_splitter = CharacterTextSplitter( separator = "\n\n", # セパレータ chunk_si