文献管理ソフトは、pdf ファイルの名前を pmid.pdf にするのが多そうだけど、手作業はめんどい。 => 誰か変換スクリプトを〜。 => ktkr http://www.geocities.jp/researcherinus/perl1 => うまく text 抽出できない場合がある => 自分で書けないもんだろうか? => Ruby で pdf から text 抽出どうやるのか見つからなかった ところが寝る前に HMDT3版を読んでいたら RubyCocoa*1 で pdf からの text 抽出が載っていた ので、ちょっと Nature とかの pdf から text 抽出して doi を抜き出せるか試してみた。 #!/usr/bin/env ruby # # Created by mako on 2008-01-29. # What? # This_script.rb extr
![2008-01-29](https://cdn-ak-scissors.b.st-hatena.com/image/square/06a15c64ba0ceec233d86d71001ebb29a9dcbf5d/height=288;version=1;width=512/https%3A%2F%2Fcdn.blog.st-hatena.com%2Fimages%2Ftheme%2Fog-image-1500.png)