ma_koのブックマーク / 2011年7月4日 - はてなブックマーク

ma_ko id:ma_ko

2011年7月4日のブックマーク (7件)

PDF→text（特に日本語） - chalkless::weblog
PDF Hacks ―文書作成、管理、活用のための達人テクニック作者: Sid Steward,千住治郎出版社/メーカー: オライリージャパン発売日: 2005/03/29メディア: 単行本購入: 3人クリック: 53回この商品を含むブログ (20件) を見るすでに、あちこちで議論はなされているのだが、少しかじってみる羽目に。この本でも触れられているのだが、処理するのには、pdftotextというのとpdftkの2通りがある。前者は文字通り、PDFをテキスト情報にするもの。後者は、もともとPDFを合体さすとか抽出さすもので、読んでも中身がわからんものをdecodeして、それをいじってテキストにしようという魂胆である。いずれにせよ、英語の場合は楽なのだが、日本語になると途端に課題は困難となる。両方いじってみたが、前者の方がうまく日本語が出たので（体裁は不満だが）、そっちの方で。インス
ma_ko 2011/07/04
このページお役立ち. GJ!!

programming

fulltextsearch
リンク
Poppler
Poppler is a PDF rendering library based on the xpdf-3.0 code base. What's with the name? Contact Discuss poppler on the poppler mailing list, or visit the #poppler irc channel on irc.libera.chat. Download The latest stable release is poppler-24.07.0.tar.xz, released on July 1, 2024: core: * Fix crashes in broken files * Internal code improvements qt6: * Add getters for document additional actions
ma_ko 2011/07/04
xpdf よりこっち?

programming
リンク
Lucene - PukiWiki
FrontPage Luceneとは? † Jakarta Luceneは完全にJavaで書かれたハイパフォーマンスな全文検索エンジンのライブラリです。Luceneは全文検索が必要なアプリケーションに適しています。特にクロスプラットフォーム性を重視する場合は有用です。Javaの検索エンジンとしては、Namazu on Java2等もありますが、Namazu on Java2はライセンスがGPLで公開されており、(GPLが悪いという訳ではありませんが...)Namazu on Java2をアプリケーションに組み込むと開発したアプリケーションにもGPLが適用されます。LuceneはApache Software Licence 2.0で配布されており、アプリケーションに組み込んでもソースコードを公開する必要はありません(もちろん公開しても構いません)。LuceneはEclipseのヘルプの検索
ma_ko 2011/07/04
programming

fulltextsearch
リンク
untitled
RONDHUIT REPORT Vol.2 - RAILS & SOLR FULL-TEXT SEARCH DEMO Copyright © RONDHUIT Co.,Ltd. 1 2007 10 22 Apache Solr Solr Ruby Solr Apache Lucene CNET CNET Apache Software Foundation Apache Solr http://lucene.apache.org/solr/ Solr API Lucene Powered by Solr http://wiki.apache.org/solr/PublicServers Solr Solr • • HTTP/XML XML Java • Lucene • • • • • • Jetty Solr WEBrick Flare Flare Ruby on Rails Solr
ma_ko 2011/07/04
全文検索

programming

rails
リンク
全文検索エンジンHyper Estraier導入 - のほほん徒然
第十九回さて，先日の続きである．研究室に論文PDFを閲覧できるWebサーバを設置したわけだが，その論文PDFは色々な学会ごとに分けられている．さらに，それぞれの学会のIndexページが存在し，そこから論文PDFへのリンクが張られているといった感じだ．これだと，自分が見たい論文がどの学会で何年に発表されたか分かっている場合は一本道で論文までたどり着ける．しかし，論文タイトルだけ分かっているとか，誰々が書いたってことだけは分かっているとか，「検索スコアリング」に関する論文が欲しいといった要求に答えることはなかなか難しい．そこで，今回は大量の論文PDFから全文検索の機能を追加する．検索対象は各論文PDFファイルとして，全文検索エンジンにはHyper Estraierを利用した．これは，N-gram法を拡張したN・M-gram法を用いたindexingにより，もれのない全文検索を実現している．
ma_ko 2011/07/04
hyperestraier

programming
リンク
PDF文書からテキストを抽出する - のほほん徒然
第二十一回論文PDFをHyper Estraierで検索できるようにするため，PDF文書をインデックスに登録する必要がある．しかし，Hyper Estraier付属のPDF文書用スクリプトはHTML文書に変換した後，インデックスに追加するという動作をしていた．さらに，タイトルにPDF文書のファイル名ではなく，PDFが作成された際に付けられていたファイル名を付けてしまうなど，いまいちこちらのニーズに合わなかったので自分で作っちゃうことにした．本来は，シェルスクリプトで書かれた標準添付されたスクリプトを書き直すべきなのだろうが，今回はAPIを使用してRubyスクリプトを作りたかった．そこで，まずはPDF文書からテキストを抽出することから始めてみた．様々なツール・ソフトがあるようだが，自分は「pdftotext」を使ってみることに．これは，「xpdf」というLinux用ソフトに添付されてい
ma_ko 2011/07/04
hyperestraier

programming
リンク
ソーシャルレンディング AQUSH（アクシュ）
AQUSHローン（借入）に関するページはこちら運営会社：株式会社Paidy 貸金業: 東京都知事(2) 第31529号　第二種金融商品取引業: 関東財務局長（金商）第2149号　個別信用購入あっせん業　関東（個）第86号-1 日本貸金業協会会員　第005391号　一般社団法人日本クレジット協会　一般財団法人日本情報経済社会推進協会　一般社団法人第二種金融商品取引業協会加入指定信用情報機関：株式会社日本信用情報機構・株式会社シー・アイ・シー © Paidy Inc.
ma_ko 2011/07/04
経済
リンク
- 2011年7月5日
- 2011年7月4日
- 2011年7月1日