[B! qiita][pdf] Hashのブックマーク

Hash id:Hash

qiitaとpdfに関するHashのブックマーク (1)

Ruby で PDF と戯れるの巻 - Qiita
とちぎ Ruby 会議 05 の懇親会の LT で発表したネタですが、一部の方から関心を持って頂けたようなので記事にします。関心事の全体まず、下記のような流れをサーバーで定期的に自動で行いたいという目的があるとします。 WEB で公開されてる PDF を取得テキストを抽出テキスト整形データベースへ格納今回やること今回は PDF の取得やテキスト整形やデータベースへの格納は割愛します。 PDF からのテキスト抽出についての紹介だけをします。今回の題材今回は適当な go.jp サイトから文化庁の「敬語の指針」を選びました。この PDF を適当に開くと、１ページ目に「敬語の指針」「平成19年2月2日」「文化審議会答申」と書いてあるのが分かると思います。このテキストを Ruby で抽出してみましょう。なんかライブラリに喰わせればテキストがポンと出てくるでしょ色々調べた中で、P
Hash 2015/01/06
pdf

ruby

qiita

japanese
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx