[B! Python][python][PDF] boxheadroomのブックマーク

boxheadroom id:boxheadroom

PythonとpythonとPDFに関するboxheadroomのブックマーク (2)

徹底攻略PDFオープンデータ。PDFMinerで始めるPDFテキスト分析。 - Qiita
紹介オープンデータは、政府データを、全ての人が自由に加工し、自由に再配布し、自由に商用利用できるようにしていこうとする政治活動です。現在、政治の透明性や経済の活性化の観点から注目されており、日本政府も実際にデータを出し始めています。 -> 参考サイト：Open DATA METI | 経済産業省のオープンデータカタログサイトただし、日本のオープンデータの問題として、 ☆１のオープンデータが出てくるケースが多い事が挙げられます。オープンデータは、そのオープン性により５つ星で評価されます。 ☆１のオープンデータ、つまりPDFは、構造化データではない為に最もクローズドとされています。しかし、技術に疎い公務員の方に機械可読性の重要性を説くことは難しく、それを理解して貰えたとしても機械可読性の為の予算を割り振って貰えるかは微妙です。現実問題として、PDFに対峙する必要があるのです
boxheadroom 2014/06/06
PDF

Python
リンク
メールに添付されたPDFをテキスト形式にする - Qiita
import os import sys import em ail import mailbox import mimetypes import pyPdf def pdfmail(msgfile): fp = open(msgfile) msg = em ail.message_from_file(fp) fp.close() counter = 1 for part in msg.walk(): if part.get_content_maintype() == 'multipart': continue fname = part.get_filename() if not fname: ext = mimetypes.guess_extension(part.get_type()) if not ext: ext = '.bin' fname = 'part-%03d%s' % (co
boxheadroom 2014/03/31
Python

PDF
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx