エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Vision Language Modelの統合で汎用化はできるのか?タスク横断マージを試す - Sansan Tech Blog
こんにちは。研究開発部のMengsay Loemです。 現在は、帳票などの文書画像から情報を抽出・構造化する「... こんにちは。研究開発部のMengsay Loemです。 現在は、帳票などの文書画像から情報を抽出・構造化する「データ化技術」の研究開発に取り組んでいます。 本記事ではその中でも、視覚言語モデルを活用したアプローチに注目し、特に異なる情報抽出に特化したVLM(Vision-Language Model)を統合する方法に関する実験と考察を共有します。 ※ ここで紹介する実験の内容は、実際の当社サービスで用いている技術とは異なります。 背景:帳票情報抽出へのVLM活用とその課題 帳票からの情報抽出には、近年VLMを VQA(Visual Question Answering)形式に適用する方法が注目されています。簡単に説明すると、VQAとは画像に対して質問を自然言語で与え、それに対する答えをモデルが自然言語で返すというタスクです。以下のようなイメージです。 VLMによる情報抽出における入出力帳票
2025/04/23 リンク