「GPT-4」を上回る性能で、グラフィカルな文書を読解するLLM技術:NTTの「tsuzumi」にも採用 NTTは2024年4月12日、大規模言語モデル(LLM)の活用により、文書に含まれる図表やグラフなども含めて理解し、自然言語での指示に従って読解/応答する「視覚読解技術」を実現したと発表した。 NTTは2024年4月12日、大規模言語モデル(LLM)の活用により、文書に含まれる図表やグラフなども含めて理解し、自然言語での指示に従って読解/応答する「視覚読解技術」を実現したと発表した。今後、カスタマーサポート業務の補助や自然言語指示による作業の自動化など、オフィスDX(デジタルトランスフォーメーション)の推進への貢献が期待できる。 視覚読解技術とは、実世界の文書を視覚的に(画像として)理解し読解する技術だ。今日では、図表やグラフ、文字の見た目、レイアウトなどの視覚情報を用いた文書が多く扱
![「GPT-4」を上回る性能で、グラフィカルな文書を読解するLLM技術](https://cdn-ak-scissors.b.st-hatena.com/image/square/62feeedc6dfcd6f3f7e6e9202e335ea2ef6f1c3a/height=288;version=1;width=512/https%3A%2F%2Fimage.itmedia.co.jp%2Fee%2Farticles%2F2404%2F23%2Fcover_news082.jpg)