本記事はModernBERT[1]で採用された「モダンな」BERTの学習に関する技術についてまとめたものです。 調査した論文: Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference, Dec 2024 論文中に明記されていない情報は参考文献やソースコードの内容を元に記載(ソースコードの該当箇所はAppendix C参照)。 また、今回未調査だが個人的に気になった技術のリストはAppendix D参照。 ModernBERTとは? 2018年のBERTのリリース以降、業界の興味がLLMに集中していく中でBERTと同規模の小さいパラメータのTransformerについては長らく記録更