エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
自然言語処理で扱うテキストのchunkingについて
概要 自然言語処理やLLMを扱っている際、長文を何かしらの方法で分割したいケースがあります。 分割する... 概要 自然言語処理やLLMを扱っている際、長文を何かしらの方法で分割したいケースがあります。 分割することを「Text chunking」というのですが、その方式について纏めた記事がありました。 要約するとchunkingには様々な方式があり、長所短所があるそうです。 代表的なやり方は以下です。 Langchain Character Text Splitter Langchainのテキストスプリッターを使った方式。 全体の文章をセンテンス(句読点等で区切った文)に分割した後、指定した長さの文字数に収まるようにチャンクとして連結する。 センテンスの配列の先頭から、チャンクに詰められていき、チャンクに含まれる文字列長が一定を超えそうなら新たなチャンクに詰め込まれる感じ。 ※コードはこのあたり 文章の意味に関係なく、各チャンクの文字数がある程度均一になります。 NLTK Sentence To
2023/09/13 リンク