※追記(2025/11/19) 記事タイトルをより内容に即したものへ変更しました トークナイザの構築に関するセクションを新たに追加しました 言い回しを少し修正しました はじめまして。 私は大学で コード特化言語モデルを利用したコード検索の研究を行っています。 概要 本記事では、従来の CodeBERT / GraphCodeBERT 系モデルでは扱いづらかった 最大 512 トークンという入力長の制約 FlashAttention 非対応による学習・推論コストの高さ 事前学習・追加学習の再現性の低さ といった課題を踏まえつつ、ModernBERT アーキテクチャを用いてスクラッチ学習(ゼロから学習)からコード検索向けの埋め込みモデルを自作・公開するまでをまとめました。 具体的には、以下の点を中心に紹介します。 既存のコード特化言語モデル(CodeBERT / GraphCodeBERT 等

