シーケンス長が最大8192トークンとし、さらにFlash Attentionに対応した改良BERTモデルであるModernBERTが発表されました。このModernBERTを日本語と英語で学習させたモデルをSoftbank Intuitionsさんが公開しました。そこで日本語で固有表現抽出(NER)を実施してみます。 モデルはこちら: huggingface.co 英語での固有抽出の例はこちら: zenn.dev すばらしい記事ありがとうございます。 stockmarkさんのWikipediaデータセットを使います。 github.com 日本語になったのでTokenizerを考慮すれば出来るはずです。また、データセットに応じたラベルへの配慮が必要になります。 # モデルとトークナイザーの準備 model_name = "sbintuitions/modernbert-ja-130m" t