MS Office 2007以降のファイル(.docx, .xlsx, .pptx)はZip圧縮されたXMLファイルなので、ファイルからのテキスト抽出などが簡単にできます。 .pptxファイルをZipファイルとして展開すると上記のようになります。 各スライドがXMLファイルとして保存されています。 .docx, .xlsx, .pptxはそれぞれディレクトリ構造が若干違います。 読み取り、もしくは書き込みパスワードが設定されている場合はZipファイルとして解凍はできないようです。 import os.path import zipfile def _extract_xmls_from_msxml_base(filepath, prefix): xmls = [] zf = None try: zf = zipfile.ZipFile(filepath, 'r') for name in z
XMLは、文章の見た目や構造を記述するためのマークアップ言語の一種です。 主にデータのやりとりや管理を簡単にする目的で使われ、記述形式がわかりやすいという特徴があります。 Web技術で頻繁に登場する、HTMLをはじめ、SVG、XHTML、XSLT、RFTなども、 XML と同じマークアップ言語のひとつです。 XMLはさまざまなシーンで利用されるようになりました。マニュアル(取扱説明書)などの電子文書に用いられることもあれば、データベースとして活躍することもあります。また、インターネットとの親和性の高さもXMLの特長のひとつです。インターネット環境の大幅な進化とXMLの普及により注目を浴びている「Webサービス」においても、XMLは大きな役割を果たしています。XMLによるデータ連携ならば、システムの違いを気にすることなく連携が可能で小規模なシステムにも適しています。 WebサービスとXML
昨今では、データ記述フォーマットとしてXML(Extensible Markup Language)を利用するケースが多くなってきました。例えば「web.xml内の記述順を知る(サーブレット2.3)」でも紹介したJSP&サーブレットに関連する標準的な設定ファイル「web.xml」(デプロイメント・ディスクリプタ)は、最も身近な一例です。 XMLは、「Extensible」というその名のとおり、自由にタグ(設定項目)を拡張できるという利点があります。しかし、当然のことながら、特定環境下での設定ファイルとして利用するケース、異なるシステム/アプリケーション間でデータを交換するようなケースでは、使えるタグの種類、登場する順番、階層関係などをあらかじめ規定しておく必要があります。さもなければ、システム/アプリケーションの側が正しくデータを解析することができないからです。 従来、データの妥当性を検証
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く