はてなブックマークアプリ

サクサク読めて、
アプリ限定の機能も多数!

アプリで開く

はてなブックマーク

  • はてなブックマークって?
  • アプリ・拡張の紹介
  • ユーザー登録
  • ログイン
  • Hatena

はてなブックマーク

トップへ戻る

  • 総合
    • 人気
    • 新着
    • IT
    • 最新ガジェット
    • 自然科学
    • 経済・金融
    • おもしろ
    • マンガ
    • ゲーム
    • はてなブログ(総合)
  • 一般
    • 人気
    • 新着
    • 社会ニュース
    • 地域
    • 国際
    • 天気
    • グルメ
    • 映画・音楽
    • スポーツ
    • はてな匿名ダイアリー
    • はてなブログ(一般)
  • 世の中
    • 人気
    • 新着
    • 新型コロナウイルス
    • 働き方
    • 生き方
    • 地域
    • 医療・ヘルス
    • 教育
    • はてな匿名ダイアリー
    • はてなブログ(世の中)
  • 政治と経済
    • 人気
    • 新着
    • 政治
    • 経済・金融
    • 企業
    • 仕事・就職
    • マーケット
    • 国際
    • はてなブログ(政治と経済)
  • 暮らし
    • 人気
    • 新着
    • カルチャー・ライフスタイル
    • ファッション
    • 運動・エクササイズ
    • 結婚・子育て
    • 住まい
    • グルメ
    • 相続
    • はてなブログ(暮らし)
    • 掃除・整理整頓
    • 雑貨
    • 買ってよかったもの
    • 旅行
    • アウトドア
    • 趣味
  • 学び
    • 人気
    • 新着
    • 人文科学
    • 社会科学
    • 自然科学
    • 語学
    • ビジネス・経営学
    • デザイン
    • 法律
    • 本・書評
    • 将棋・囲碁
    • はてなブログ(学び)
  • テクノロジー
    • 人気
    • 新着
    • IT
    • セキュリティ技術
    • はてなブログ(テクノロジー)
    • AI・機械学習
    • プログラミング
    • エンジニア
  • おもしろ
    • 人気
    • 新着
    • まとめ
    • ネタ
    • おもしろ
    • これはすごい
    • かわいい
    • 雑学
    • 癒やし
    • はてなブログ(おもしろ)
  • エンタメ
    • 人気
    • 新着
    • スポーツ
    • 映画
    • 音楽
    • アイドル
    • 芸能
    • お笑い
    • サッカー
    • 話題の動画
    • はてなブログ(エンタメ)
  • アニメとゲーム
    • 人気
    • 新着
    • マンガ
    • Webマンガ
    • ゲーム
    • 任天堂
    • PlayStation
    • アニメ
    • バーチャルYouTuber
    • オタクカルチャー
    • はてなブログ(アニメとゲーム)
    • はてなブログ(ゲーム)
  • おすすめ

    セキュリティ

『zenn.dev』

  • 人気
  • 新着
  • すべて
  • 構造化RAGの正体|文書を読む前処理という発想

    3 users

    zenn.dev/startspace

    導入:なぜ今「正体」なのか これまで第二連載では、 PDF取得 LlamaParse整形 構造検査 Vision-Guided Chunking 文書理解レイヤー といったテーマを扱ってきました。 振り返ってみると、やってきたことはすべて「前処理」に関する話でした。 チャンクの話も、パースの話も、構造の話も、どれも検索の前段にある工程です。 では、私たちはいったい何をしてきたのでしょうか。 なぜここまで「構造」にこだわってきたのか。 RAGの改善と言いながら、ベクトルDBや検索戦略の話よりも、読む前の話ばかりを掘り下げてきました。 それは偶然ではなかったのだと思います。 実際に壊れていたのは検索そのものではなく、その手前の文書の状態だったからです。 今回の記事では、ここまで積み上げてきた内容をあらためて整理し、構造化RAGとは結局何だったのかを言葉にしてみたいと思います。 構造化RAGは検

    • テクノロジー
    • 2026/03/03 19:04
    • 構造化RAGの次へ|文書理解レイヤーという設計思想

      5 users

      zenn.dev/startspace

      導入 これまでの連載では、構造化RAG(Structure-Aware RAG)において LlamaParseによるMarkdown整形 構造検索による検査 破綻箇所に対するVision-Guided Chunking(VGC) その上でchunk確定 という前処理パイプラインを整理してきました。 この設計は、PDFのような構造文書を扱う上で現実的かつ有効なアプローチです。 しかし、ここで立ち止まる必要があります。 私たちは一貫して「文書構造をテキストとして再構築する」ことを前提にしてきました。Markdown整形も、構造検査も、その延長線上にあります。 では、そもそも問いはこうではないでしょうか。 文書構造は、本当にテキストとして再構築すべきなのか。それとも、モデルが直接理解すべきレイヤーなのか。 VLM(Vision Language Model)が実用段階に入りつつある現在、「文書を

      • テクノロジー
      • 2026/02/25 21:24
      • LlamaParseは復元ではなく整形|構造化RAGの入口としてのPDFパース設計

        3 users

        zenn.dev/startspace

        はじめに 前回の記事では、PDFをテキスト化した瞬間に、文書構造の多くが失われてしまう現実を確認しました。 では、その失われた構造は、PDFパーサーによって復元できるのでしょうか。 本記事で扱うLlamaParseは、失われた文書構造を復元するものではありません。 あくまで、構造を扱える状態に整形するためのツールです。 構造化RAGにおける「PDFパース」の位置づけ RAGパイプライン全体の中での役割 構造化RAGのパイプラインは、概ね以下の流れで構成されます。 この中でPDFパースは、失われた構造を復元する工程ではなく、文書を扱える状態に整形する入口工程に位置づけられます。 RAGの精度は検索段階だけで決まるものではなく、その前段階である取得・整形・分割の時点ですでに上限が定まっているケースも珍しくありません。 なぜ「パース設計」が軽視されがちなのか 多くのRAG構成では、Embeddi

        • テクノロジー
        • 2026/02/15 23:16
        • pdf
        • RAGの精度は入力構造で決まる|なぜテキストChunkingでは限界に到達するのか

          29 users

          zenn.dev/startspace

          はじめに|RAGは検索以前に、もう壊れている 多くのRAGは、検索やEmbeddingの改善以前に、「入力データの時点で精度の上限が決まっている」。 にもかかわらず私たちは、検索精度・Rerank・評価指標ばかりに目を向けてきた。 だが実際には、RAGに渡されるドキュメントはすでに構造を失ったテキストになっている。 これまでのRAG改善は「正しかった」 これまでの連載では、質問設計(HyDE)、検索戦略(Hybrid Search)、Rerank、評価(RAGAS / Langfuse)など、 RAGに対して取り得る改善策や設計パターンを検証してきました。 これらはすべて、検索精度や回答品質を高める上で間違いなく有効なアプローチです。 しかし、それらを十分に実施していたとしても、ある地点から「改善しても差が出なくなる」状態に直面するケースがあります。 精度が頭打ちになる境界線 ドキュメント

          • テクノロジー
          • 2026/01/29 09:41
          • 検索
          • tips
          • あとで読む
          • RAGの精度は運用で決まる|Langfuseで回す改善サイクルの現実解

            5 users

            zenn.dev/startspace

            なぜRAGは“改善されなくなる”のか RAGの評価結果が出ているにもかかわらず、精度がなかなか改善されない。 この状況は、多くの場合「どこを、どのように直せばよいのか判断できない」ことに起因します。 質問設計が悪いのか、Retrievalが適切でないのか、それともLLMの生成結果に問題があるのか。 評価スコアだけを見ても、改善すべきポイントを特定することは容易ではありません。 システムとしてRAGをリリースした後は、回答結果を継続的に監視し、仮説を立てながら改善していく必要があります。 しかし、そのためのログや比較の仕組みがなければ、評価は「数字を見るだけ」で終わり、次のアクションにつながらなくなってしまいます。 RAGにおける「運用」とは何か ここでいうRAGの運用とは、単に回答結果を監視することではありません。 「なぜその回答が生成されたのか」を後から再現できる状態を保つことが重要にな

            • テクノロジー
            • 2026/01/14 08:15
            • RAGの精度は検索戦略で決まる|ハイブリッド検索が効く理由を検証する

              6 users

              zenn.dev/startspace

              なぜ今「検索戦略」なのか RAGを導入したものの、思ったように精度が出ない。 そのような経験はないでしょうか。 Embeddingモデルを選定し、ベクトル検索を実装した。それでも「欲しいドキュメントが取れていない」「回答が噛み合わない」と感じるケースは少なくありません。 多くの場合、検索の設計を振り返るとEmbeddingによるベクトル検索だけで完結していることがあります。 これまで本連載では HyDEによる質問設計(検索前の改善) top-k調整とRerankによる検索後の最適化 RAGASを用いた定量評価と改善サイクル 構造化チャンク設計 といった手法を通じて、RAG精度の向上を検証してきました。 しかし、それらを適用してもなお「そもそも検索段階で必要なドキュメントを拾えていない」という壁に直面することがあります。 この問題は、モデルや評価以前に検索戦略そのものの設計に原因があるケース

              • テクノロジー
              • 2026/01/03 12:16
              • tips
              • あとで読む

              このページはまだ
              ブックマークされていません

              このページを最初にブックマークしてみませんか?

              『zenn.dev』の新着エントリーを見る

              キーボードショートカット一覧

              j次のブックマーク

              k前のブックマーク

              lあとで読む

              eコメント一覧を開く

              oページを開く

              はてなブックマーク

              • 総合
              • 一般
              • 世の中
              • 政治と経済
              • 暮らし
              • 学び
              • テクノロジー
              • エンタメ
              • アニメとゲーム
              • おもしろ
              • アプリ・拡張機能
              • 開発ブログ
              • ヘルプ
              • お問い合わせ
              • ガイドライン
              • 利用規約
              • プライバシーポリシー
              • 利用者情報の外部送信について
              • ガイドライン
              • 利用規約
              • プライバシーポリシー
              • 利用者情報の外部送信について

              公式Twitter

              • 公式アカウント
              • ホットエントリー

              はてなのサービス

              • はてなブログ
              • はてなブログPro
              • 人力検索はてな
              • はてなブログ タグ
              • はてなニュース
              • ソレドコ
              • App Storeからダウンロード
              • Google Playで手に入れよう
              Copyright © 2005-2026 Hatena. All Rights Reserved.
              設定を変更しましたx