概要 BERT系のモデルを活用した文章のEmbedding取得について、検証を含めていくつかTipsを紹介します。 Paddingの最適化 tokenの平均化 Embeddingを取得するLayer 上記Tipsを複合した文章Embedding取得classの実装 はじめに 近年は、ChatGPTを始めとしたLLM活用が話題となっています(言語処理と言えば初手LLM(GPT系)の雰囲気も一部感じております)。対話型ChatBotにおいてはGPT系の生成AIが一線を画していますが、文章のEmbedding取得では旧来のBERT系のモデルが優れている例も報告されています。 SGPT: GPT Sentence Embeddings for Semantic Search ChatGPT vs BERT:どちらが日本語をより理解できるのか? 今回、社内で簡単な情報検索システムを構築する機会があり