http://www.mext.go.jp/a_menu/saigaijohou/syousai/1303723.htm このあたりからデータを取得できるわけだが、なぜか PDF なので、うんざりする。 こんなもんどうみても excel かなにかでつくってるんだから生データを提供しろといいたい。 まあ文句をいっていてもしょうがないので、こういう PDF をスクレイピングする方法について解説する。 pdftotext などのコマンドをつかうのがオススメ。今だと、poppler というライブラリが日本語もあつかえてすばらしすぎるので、これをつかうとよい。これは Perl/Python/Ruby のバインディングがあるので、それをつかってもよいがこういう場合、ライブラリなどでがんばって PDF を解析するのはわりと時間の無駄となる場合がおおい。 poppler は homebrew で一発インス