MS Office 2007以降のファイル(.docx, .xlsx, .pptx)はZip圧縮されたXMLファイルなので、ファイルからのテキスト抽出などが簡単にできます。 .pptxファイルをZipファイルとして展開すると上記のようになります。 各スライドがXMLファイルとして保存されています。 .docx, .xlsx, .pptxはそれぞれディレクトリ構造が若干違います。 読み取り、もしくは書き込みパスワードが設定されている場合はZipファイルとして解凍はできないようです。 import os.path import zipfile def _extract_xmls_from_msxml_base(filepath, prefix): xmls = [] zf = None try: zf = zipfile.ZipFile(filepath, 'r') for name in z