エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
画像付きのHTMLをマークダウンに変換してRAGを行う(Reader-LM + Qwen2-VL)
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
画像付きのHTMLをマークダウンに変換してRAGを行う(Reader-LM + Qwen2-VL)
はじめに 今回は、WEBページ(画像付きのHTML)の内容からRAGを行ってみます。 HTMLは階層構造を持ち、... はじめに 今回は、WEBページ(画像付きのHTML)の内容からRAGを行ってみます。 HTMLは階層構造を持ち、タグや属性の入れ子が複雑になためRAGのコンテキストとしてそのままでは扱うのが難しいです。また、画像が含まれている場合もあるためテキストだけ抽出してもWEBページの全容を把握できません。 そのため一度、HTML内の画像をキャプションに変換して更新 → 更新したHTMLをマークダウンに変換して(RAGに使う)コンテキストにします。 具体的には以下の手順で処理します。 指定したurl先のHTMLを取得 HTMLの画像のalt属性にキャプションを追加して更新(「Qwen2-VL-2B-Instruct」を使用) 更新されたHTMLをマークダウンに変換(「reader-lm-0.5b」を使用) マークダウンからインデックスを作成(「multilingual-e5-large」を使用) イ

