pdftotext -raw -f 3 -l 2795 kameiten_touroku_list.pdf - | grep -E '^[0-9]+(,[0-9]+)* |[25]%$' | perl -pe 's/(?<![25]%)\n/ /g' | perl -pe 's/^(\S+) (\S+) (\S+) (.+) (\S+) (\S+) (\S+)$/"$1","$2","$3","$4","$5","$6","$7"/g' > kameiten.csv ※変換しているのは「①固定店舗(EC・通信販売を除く)」のページです。 ※変換結果のCSVは、14MBくらいです。 背景 キャッシュレス・消費者還元事業(公式サイト) 国のキャッシュレスポイント還元PRサイト、「使えるお店一覧」から18万店を網羅した3608ページのPDFに飛ばす(ねとらぼ) 最近話題の「キャッシュレス・消費者