タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

PythonとpythonとPDFに関するboxheadroomのブックマーク (2)

  • 徹底攻略PDFオープンデータ。PDFMinerで始めるPDFテキスト分析。 - Qiita

    紹介 オープンデータは、 政府データを、全ての人が自由に加工し、自由に再配布し、自由に商用利用できるようにしていこうとする政治活動です。 現在、政治の透明性や経済の活性化の観点から注目されており、 日政府も実際にデータを出し始めています。 -> 参考サイト:Open DATA METI | 経済産業省のオープンデータカタログサイト ただし、日のオープンデータの問題として、 ☆1のオープンデータが出てくるケースが多い事が挙げられます。 オープンデータは、そのオープン性により5つ星で評価されます。 ☆1のオープンデータ、つまりPDFは、 構造化データではない為に最もクローズドとされています。 しかし、技術に疎い公務員の方に機械可読性の重要性を説くことは難しく、 それを理解して貰えたとしても機械可読性の為の予算を割り振って貰えるかは微妙です。 現実問題として、PDFに対峙する必要があるのです

    徹底攻略PDFオープンデータ。PDFMinerで始めるPDFテキスト分析。 - Qiita
  • メールに添付されたPDFをテキスト形式にする - Qiita

    import os import sys import email import mailbox import mimetypes import pyPdf def pdfmail(msgfile): fp = open(msgfile) msg = email.message_from_file(fp) fp.close() counter = 1 for part in msg.walk(): if part.get_content_maintype() == 'multipart': continue fname = part.get_filename() if not fname: ext = mimetypes.guess_extension(part.get_type()) if not ext: ext = '.bin' fname = 'part-%03d%s' % (co

    メールに添付されたPDFをテキスト形式にする - Qiita
  • 1