pdftotext -raw -f 3 -l 2795 kameiten_touroku_list.pdf - | grep -E '^[0-9]+(,[0-9]+)* |[25]%$' | perl -pe 's/(?<![25]%)\n/ /g' | perl -pe 's/^(\S+) (\S+) (\S+) (.+) (\S+) (\S+) (\S+)$/"$1","$2","$3","$4","$5","$6","$7"/g' > kameiten.csv ※変換しているのは「①固定店舗(EC・通信販売を除く)」のページです。 ※変換結果のCSVは、14MBくらいです。 背景 キャッシュレス・消費者還元事業(公式サイト) 国のキャッシュレスポイント還元PRサイト、「使えるお店一覧」から18万店を網羅した3608ページのPDFに飛ばす(ねとらぼ) 最近話題の「キャッシュレス・消費者
![キャッシュレス還元対象店一覧(PDF 3608ページ)をワンライナーでCSV形式にしてみた - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/50cdeb752e5814b5d7a55d565afae3d42dc48fef/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9JUUzJTgyJUFEJUUzJTgzJUEzJUUzJTgzJTgzJUUzJTgyJUI3JUUzJTgzJUE1JUUzJTgzJUFDJUUzJTgyJUI5JUU5JTgyJTg0JUU1JTg1JTgzJUU1JUFGJUJFJUU4JUIxJUExJUU1JUJBJTk3JUU0JUI4JTgwJUU4JUE2JUE3JUVGJUJDJTg4UERGJTIwMzYwOCVFMyU4MyU5QSVFMyU4MyVCQyVFMyU4MiVCOCVFRiVCQyU4OSVFMyU4MiU5MiVFMyU4MyVBRiVFMyU4MyVCMyVFMyU4MyVBOSVFMyU4MiVBNCVFMyU4MyU4QSVFMyU4MyVCQyVFMyU4MSVBN0NTViVFNSVCRCVBMiVFNSVCQyU4RiVFMyU4MSVBQiVFMyU4MSU5NyVFMyU4MSVBNiVFMyU4MSVCRiVFMyU4MSU5RiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnM9NmI2NmRmYWRhYzNhMjVkYTkyN2E3ZjRhNjE0NmRiNDQ%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDBuaWhhcnUmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTA1OTQzODA5MGRkNTI1MjMzZmEwZDE1MDFhYTUxMGU4%26blend-x%3D142%26blend-y%3D486%26blend-mode%3Dnormal%26s%3D40c92bbb7ac0b49da4bc0c76bd403be5)