エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
数十ページのPDFを1回で処理、ローカルOCRモデル「Unlimited OCR」をバイドゥが無料公開。商用利用もできる(生成AIクローズアップ) | テクノエッジ TechnoEdge
記事へのコメント34件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
数十ページのPDFを1回で処理、ローカルOCRモデル「Unlimited OCR」をバイドゥが無料公開。商用利用もできる(生成AIクローズアップ) | テクノエッジ TechnoEdge
1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、... 1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、Baiduの研究チームが開発した、数十ページのPDFなど長文を一括処理できるエンドツーエンドのOCRモデル「Unlimited OCR」を取り上げます。このモデルはMITライセンスで公開されており、商用利用も可能です。 ▲人間が本を書き写す際のワーキングメモリを模したUnlimited OCRの構成図 大規模言語モデル(LLM)をデコーダーに採用したOCRモデルが注目を集めています。LLMをデコーダーとして用いることで、言語の文脈知識を推論に活かせるため、認識精度が向上するというメリットがありますが、その一方で、出力するテキストが長くなるほど「KVキャッシュ」(過去の計算結果のメモリ保持)が累積し、メモリ消






























2026/06/29 リンク