組織には構造化されたデータベースやきれいにフォーマットされたCSVのほか、何気なく書いたメールから複雑な技術マニュアルまでさまざまな形式のデータが大量に保存されています。検索拡張生成(RAG)は大規模言語モデル(LLM)を使用して全てのデータから適切な情報を引き出すための技術ですが、RAGを使用する際にデータの取り込みと前処理をどのように行うと効率的なのかを、RAG向けデータ前処理サービスを展開するUnstructuredが解説しました。 Understanding What Matters for LLM Ingestion and Preprocessing – Unstructured https://unstructured.io/blog/understanding-what-matters-for-llm-ingestion-and-preprocessing LLMを最大限に
![大規模言語モデルを使って組織内の全データを検索する時にはどのような前処理を行うと効率的なのか?](https://cdn-ak-scissors.b.st-hatena.com/image/square/2cbe78426d42f4e80c7890cc6012f0c481a3b279/height=288;version=1;width=512/https%3A%2F%2Fi.gzn.jp%2Fimg%2F2024%2F05%2F05%2Fllm-ingestion-preprocessing%2F00.png)