
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント2件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
RAGで使用するPDFの前処理を検証(PDF→マークダウン形式) - Qiita
内容 Amazon Bedrockを使用したRAGシステムを構築します。ベクトルDBに情報を保存する際、事前に適切な... 内容 Amazon Bedrockを使用したRAGシステムを構築します。ベクトルDBに情報を保存する際、事前に適切な形へチャンク分割を行い、回答精度を高めたいと思います。下記の記事ではHTMLファイルの前処理の検証について記載しましたが、今回はPDFファイルの前処理について記載をします。 仕組み まず、サンプル用のPDFファイルを準備します。このPDFファイルをPythonのPdfReaderでページ毎に読み込んでテキスト情報を取得します。取得したテキスト情報をAmazon Bedrockに送信後、整形処理の依頼を行います。この際、マークダウン形式での出力指示を行い、出力結果としてマークダウン形式のファイルを作成します。 実行 まず、サンプル用のPDFファイルを準備します。下記のファイルをダウンロードしてsample.pdfという名前に変更後、下記プログラムと同じディレクトリに保存します。
2025/04/27 リンク