2024年4月22日のブックマーク (2件)

  • Google PinpointでスキャンPDFの文章を読み込む|荻原 和樹 / Kazuki OGIWARA

    PDFは文書を扱う際によく使われるファイル形式ですが、現実には印刷された文書をスキャンした「画像」としてPDFを扱うことも少なくありません。FAX、郵送、またはメールに添付されたPDFが何故か画像だったり……。こうしたPDFは「画像」として扱われるため文字や数字をコピーすることはできません。便宜上ここではスキャンPDFと呼びます。 スキャンPDFの読み込みに便利なGoogle Pinpointというツールがあります。一言で表現すれば大量のドキュメントを探索・分析するためのツールです。PDF、Word文書、画像、メールアーカイブなど、様々な形式のファイルをひとつのフォルダ(コレクションと呼ばれます)にアップロードすることで、横断的に検索したり登場する単語を集計することが可能になります。Google Journalist Studioと呼ばれる、主に報道分野の記者を対象としたツール群のひとつで

    Google PinpointでスキャンPDFの文章を読み込む|荻原 和樹 / Kazuki OGIWARA
  • Google PinpointでスキャンPDFの「表」をCSVに変換する|荻原 和樹 / Kazuki OGIWARA

    前回の記事ではGoogle Pinpointを使ってスキャンPDFの文章を読み込み、単語や日付で絞り込む方法を解説しました。 Google Pinpointでは文章だけでなく、表や箇条書きなど何らかの構造を持つ文書を表形式で取得する「構造化データの抽出(Extract Structured Data)」と呼ばれる機能があります。この記事では、前回と同じく日銀行のスキャンPDF資料から表をCSV形式で抽出する方法を解説します。 サンプルデータの読み込みまずサンプルデータをダウンロードします。 https://drive.google.com/file/d/1GEhAg86ks6WYC8H3d7L9YV_NdL5DILZK/view 前回と同様に、日銀行の金融政策決定会合議事録から抜粋したものです。資料内にはいくつかグラフがありますが、スキャンPDFなのでそのままではコピーすることができま

    Google PinpointでスキャンPDFの「表」をCSVに変換する|荻原 和樹 / Kazuki OGIWARA