Vision Language Modelの統合で汎用化はできるのか？タスク横断マージを試す - Sansan Tech Blog

テクノロジーカテゴリーの変更を依頼記事元:

buildersbox.corp-sansan.com

15users がブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

sh19910711 "帳票からの情報抽出には、近年VLMを VQA（Visual Question Answering）形式に適用する方法が注目 / 本実験では、社内で開発中の内製VLM「Viola」を用いて ~ "

2025/04/23 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

Vision Language Modelの統合で汎用化はできるのか？タスク横断マージを試す - Sansan Tech Blog

こんにちは。研究開発部のMengsay Loemです。現在は、帳票などの文書画像から情報を抽出・構造化する「... こんにちは。研究開発部のMengsay Loemです。現在は、帳票などの文書画像から情報を抽出・構造化する「データ化技術」の研究開発に取り組んでいます。本記事ではその中でも、視覚言語モデルを活用したアプローチに注目し、特に異なる情報抽出に特化したVLM（Vision-Language Model）を統合する方法に関する実験と考察を共有します。 ※ ここで紹介する実験の内容は、実際の当社サービスで用いている技術とは異なります。背景：帳票情報抽出へのVLM活用とその課題帳票からの情報抽出には、近年VLMを VQA（Visual Question Answering）形式に適用する方法が注目されています。簡単に説明すると、VQAとは画像に対して質問を自然言語で与え、それに対する答えをモデルが自然言語で返すというタスクです。以下のようなイメージです。 VLMによる情報抽出における入出力帳票

あとで読む

ブックマークしたユーザー

havanap2025/04/24
honeybe2025/04/24
midas365452025/04/24
lEDfm4UE2025/04/24
yamori04082025/04/23
yug12242025/04/23
yuiseki2025/04/23
sh199107112025/04/23
pokutuna2025/04/23

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

いま人気の記事 - 企業メディア

企業メディアをもっと読む

設定を変更しましたx