とちぎ Ruby 会議 05 の懇親会の LT で発表したネタですが、一部の方から関心を持って頂けたようなので記事にします。 関心事の全体 まず、下記のような流れをサーバーで定期的に自動で行いたいという目的があるとします。 WEB で公開されてる PDF を取得 テキストを抽出 テキスト整形 データベースへ格納 今回やること 今回は PDF の取得やテキスト整形やデータベースへの格納は割愛します。 PDF からのテキスト抽出についての紹介だけをします。 今回の題材 今回は適当な go.jp サイトから文化庁の「敬語の指針」を選びました。この PDF を適当に開くと、1ページ目に「敬語の指針」「平成19年2月2日」「文化審議会答申」と書いてあるのが分かると思います。このテキストを Ruby で抽出してみましょう。 なんかライブラリに喰わせればテキストがポンと出てくるでしょ 色々調べた中で、P
