タイトルの件、うまくいかなかったことがあったので、色々と調べて対処してみた。 ちなみに対象のHyper Estraierのバージョンは1.4.13。 まず、Hyper Estraierでは、クローリング時にフィルタ用のプログラム(PDFをHTMLに変換して解釈、など)をはさむことで、検索対象としてPDF(.odf)やワード(.doc)、エクセル(.xls)、パワーポイント(.ppt)などのファイルを扱うことが可能です。 Round 1 "estwaver crawl"コマンドで、ドキュメントが配置してあるところをクロールさせた場合に、通常のHTMLファイルは何の問題もなく処理できたんだけど、PDFやWordのファイルに対しては、fetchはするんだけど、ignoreされちゃう問題が起こった。 INFOログ的には以下のような感じ。 2009-06-26T06:52:18Z INFO [12]