ところが寝る前に HMDT3版を読んでいたら RubyCocoa*1 で pdf からの text 抽出が載っていた ので、ちょっと Nature とかの pdf から text 抽出して doi を抜き出せるか試してみた。 #!/usr/bin/env ruby # # Created by mako on 2008-01-29. # What? # This_script.rb extracts text from pdf file # 参考にした URL # http://builder.japan.zdnet.com/sp/07leopard/story/0,3800082822,20360029-2,00.htm begin require 'osx/cocoa' OSX.require_framework 'Quartz' # window = OSX::NSWindow.al
![Rubyで pdf から text 抽出してみる - 気の向くままに](https://cdn-ak-scissors.b.st-hatena.com/image/square/0ed12fc64e765c545327fa26e0ab16639e0a57c8/height=288;version=1;width=512/https%3A%2F%2Fimages-fe.ssl-images-amazon.com%2Fimages%2FI%2F51CJVCWGPFL._SL160_.jpg)