平林幹雄さんの Hyper Estraier を Cent OS に入れてみたりしたときの試行錯誤メモ。 OpenOffice.org の .odt, .ods, .odp なんかを検索対象にしたかったので、すこぶる簡易的なフィルタを作ってみました。 といっても、元々 zip 圧縮されている中の「content.xml」というファイルを取り出すだけで、 /usr/bin/unzip -caq "$infile" content.xml で XML を取り出して、あとは HTML として解釈させればそれなりにいけちゃいました。 作成したフィルタスクリプト → estfx_ooo2xml.sh ついでに MS Office 2007 の Office Open XML も .docx の場合 /usr/bin/unzip -caq "$infile" */document.xml .xlsx