ストックマークは、GENIACの第2期にて開発した、ハルシネーションを大幅抑止した1,000億パラメータのドキュメント読解基盤モデル「Stockmark-2-VL-100B」をHuggingFace Hubで公開します。本モデルはQwen2.5-VL-72Bの合成データを用いているので、Qwenライセンスの下で提供します。日本語ドキュメント読解性能においてGPT-4oよりも優れた総合性能を示すことがわかりました。このブログでは開発したStockmark-2-VL-100Bのモチベーション、アーキテクチャ、学習、性能評価を紹介します。 【基盤モデル公開先】 Stockmark-2-VL-100B:https://huggingface.co/stockmark/Stockmark-2-VL-100B-beta Stockmark-2-100B-Instruct-beta:https://hu