ところが寝る前に HMDT3版を読んでいたら RubyCocoa*1 で pdf からの text 抽出が載っていた ので、ちょっと Nature とかの pdf から text 抽出して doi を抜き出せるか試してみた。 #!/usr/bin/env ruby # # Created by mako on 2008-01-29. # What? # This_script.rb extracts text from pdf file # 参考にした URL # http://builder.japan.zdnet.com/sp/07leopard/story/0,3800082822,20360029-2,00.htm begin require 'osx/cocoa' OSX.require_framework 'Quartz' # window = OSX::NSWindow.al