前回は、テキストファイルとHTMLファイルからテキスト情報を抽出する方法について解説しました。今回はMicrosoft Word等に代表されるアプリケーション固有の文書ファイルからテキスト情報を抽出する方法についてとりあげます。 アプリケーション固有の文書ファイル型式 世の中のアプリケーションの多くは、それぞれ固有のファイル型式で情報を保存しています。たとえば、Microsoft Wordは拡張子.docや.docxのファイル型式、Adobe Acrobatは拡張子.pdfのファイル型式という具合です。そして、各アプリケーションの固有のファイル型式仕様は、オープンになっているものもあれば、アプリケーションベンダがまったく公開していないものもあります。 仕様がオープンになっている文書ファイル型式のファイルからテキスト情報を抽出するには、公開仕様に基づいて文書ファイルを解析し、ファイルの中から
![第15回 テキスト情報の抽出[その2] | gihyo.jp](https://cdn-ak-scissors.b.st-hatena.com/image/square/7dde9d3c2dadf5eaef59bc773920f2f872179120/height=288;version=1;width=512/https%3A%2F%2Fgihyo.jp%2Fassets%2Fimages%2FICON%2F2007%2F032_make-se.png)