はじめに こんにちは、バイセル23卒エンジニアの臼井です。 今回はChatGPTに社内の情報を答えてもらうために、テキストのEmbedding APIを使用して、社内情報をRAGで扱う方法について紹介します。 社内の情報には画像データなど、テキスト以外のデータもありますので、それらをどのようにしてEmbeddingするかが論点となります。 対象読者は、自前のデータをChatGPTなどのLLMに組み込みたいと考えている開発者です。 特に、多様なデータ形式(テキスト、画像、スライドなど)を組み込みたい方の参考になれば幸いです。 はじめに 背景 Fine-tuningとRAG その他使用した技術 課題 アプローチ キャプション生成について(フロー図の1に該当) 画像に文字があるか判定(フロー図の2に該当) 文字あり画像のOCRとキャプション生成について(フロー図の3、4に該当) Embeddin