文献管理ソフトは、pdf ファイルの名前を pmid.pdf にするのが多そうだけど、手作業はめんどい。 => 誰か変換スクリプトを〜。 => ktkr http://www.geocities.jp/researcherinus/perl1 => うまく text 抽出できない場合がある => 自分で書けないもんだろうか? => Ruby で pdf から text 抽出どうやるのか見つからなかった ところが寝る前に HMDT3版を読んでいたら RubyCocoa*1 で pdf からの text 抽出が載っていた ので、ちょっと Nature とかの pdf から text 抽出して doi を抜き出せるか試してみた。 #!/usr/bin/env ruby # # Created by mako on 2008-01-29. # What? # This_script.rb extr