なぜか公式からアナウンスが出ていない。以下はUnslothのポスト。 DeepSeekがDeepSeek-OCR 2をリリースしました。🐋 新しい3Bモデルは、SOTAの視覚、ドキュメント、OCR理解を達成します。 DeepEncoder V2が導入され、これによりモデルは人間と同じ論理的な順序で画像をスキャンできるようになり、OCRの精度が向上します。 従来のビジョンLLMが画像を固定グリッド(左上→右下)で読み取るのに対し、DeepEncoder V2はまず全体的な理解を構築し、次に人間のような読み取り順序を学習します - 最初に何に注目するか、次に何を、といった具合です。 これにより、複雑なレイアウトでのOCRが改善され、列を追う、ラベルを値にリンクさせる、テーブルを一貫して読む、テキストと構造の混合をより確実に扱うことが可能になります。 DeepSeek-OCR 2はベンチマーク

