仕事で必要になりそうな気配がしてきたので、夏休み中にMS Officeドキュメントに含まれるテキストを抽出するためのツールを作ってみました。 DeltaAttackという名前でGitHubで公開しています。 http://github.com/moro/delta_attack/tree/master 最初はxlhtmlでテキストを抽出しようとしたんですが、SI屋さんがよく見かけるような複雑な段組みのExcel帳票をうまく抜けませんでした。というかよりによって抜きたい部分のテキストだけ抜けないという。そこで、Apache POIを使ってみました。Javaを書くか、、と思ったのですが、まるごとRubyを見ながらJRubyで試してみたら簡単に書けたのでそちらで。WEBrickも使えるし。やらない夫大場さん++。 JRubyは使ってますが、CRubyのRailsアプリから使いたかったので何とかな