2023年9月13日のブックマーク (1件)

  • 自然言語処理で扱うテキストのchunkingについて

    概要 自然言語処理やLLMを扱っている際、長文を何かしらの方法で分割したいケースがあります。 分割することを「Text chunking」というのですが、その方式について纏めた記事がありました。 要約するとchunkingには様々な方式があり、長所短所があるそうです。 代表的なやり方は以下です。 Langchain Character Text Splitter Langchainのテキストスプリッターを使った方式。 全体の文章をセンテンス(句読点等で区切った文)に分割した後、指定した長さの文字数に収まるようにチャンクとして連結する。 センテンスの配列の先頭から、チャンクに詰められていき、チャンクに含まれる文字列長が一定を超えそうなら新たなチャンクに詰め込まれる感じ。 ※コードはこのあたり 文章の意味に関係なく、各チャンクの文字数がある程度均一になります。 NLTK Sentence To

    自然言語処理で扱うテキストのchunkingについて
    gengohouse
    gengohouse 2023/09/13
    “自然言語処理で扱うテキストのchunkingについて”