エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Document Analysisのオープンデータについて - Techブログ - MNTSQ, Ltd.
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Document Analysisのオープンデータについて - Techブログ - MNTSQ, Ltd.
はじめに テキスト情報から自然言語処理の機械学習モデルを構築する際には文字列データのみが解析の対象... はじめに テキスト情報から自然言語処理の機械学習モデルを構築する際には文字列データのみが解析の対象になりますが、文書全体から情報を抽出するモデルを構築する際には、文書レイアウト情報が重要になります。 通常の自然言語処理とは異なり、文書レイアウト情報は画像も入力の対象として想定されるため、文字の位置を表すBounding Box等がアノテーションとして想定されます。 このように、文書に含まれる文字情報だけではなくレイアウトに関する情報も扱うタスクをDocument Analysisと呼んだりします。 本記事ではDocument Analysisタスクに関わるデータセットの作成について考える一助とするため、LayoutLMの論文で用いられたデータセットを見ていきます。 IIT CDIP 1.0 dataset 原論文:Building a Test Collection for Complex