タグ

2011年7月4日のブックマーク (7件)

  • PDF→text(特に日本語) - chalkless::weblog

    PDF Hacks ―文書作成、管理、活用のための達人テクニック 作者: Sid Steward,千住治郎出版社/メーカー: オライリージャパン発売日: 2005/03/29メディア: 単行購入: 3人 クリック: 53回この商品を含むブログ (20件) を見るすでに、あちこちで議論はなされているのだが、少しかじってみる羽目に。 このでも触れられているのだが、処理するのには、pdftotextというのとpdftkの2通りがある。前者は文字通り、PDFをテキスト情報にするもの。後者は、もともとPDFを合体さすとか抽出さすもので、読んでも中身がわからんものをdecodeして、それをいじってテキストにしようという魂胆である。いずれにせよ、英語の場合は楽なのだが、日語になると途端に課題は困難となる。両方いじってみたが、前者の方がうまく日語が出たので(体裁は不満だが)、そっちの方で。 インス

    PDF→text(特に日本語) - chalkless::weblog
    ma_ko
    ma_ko 2011/07/04
    このページお役立ち. GJ!!
  • Poppler

    Poppler is a PDF rendering library based on the xpdf-3.0 code base. What's with the name? Contact Discuss poppler on the poppler mailing list, or visit the #poppler irc channel on irc.libera.chat. Download The latest stable release is poppler-24.07.0.tar.xz, released on July 1, 2024: core: * Fix crashes in broken files * Internal code improvements qt6: * Add getters for document additional actions

    ma_ko
    ma_ko 2011/07/04
    xpdf よりこっち?
  • Lucene - PukiWiki

    FrontPage Luceneとは? † Jakarta Luceneは完全にJavaで書かれたハイパフォーマンスな全文検索エンジンのライブラリです。Luceneは全文検索が必要なアプリケーションに適しています。特にクロスプラットフォーム性を重視する場合は有用です。Javaの検索エンジンとしては、Namazu on Java2等もありますが、Namazu on Java2はライセンスがGPLで公開されており、(GPLが悪いという訳ではありませんが...)Namazu on Java2をアプリケーションに組み込むと開発したアプリケーションにもGPLが適用されます。LuceneはApache Software Licence 2.0で配布されており、アプリケーションに組み込んでもソースコードを公開する必要はありません(もちろん公開しても構いません)。LuceneはEclipseのヘルプの検索

  • untitled

    RONDHUIT REPORT Vol.2 - RAILS & SOLR FULL-TEXT SEARCH DEMO Copyright © RONDHUIT Co.,Ltd. 1 2007 10 22 Apache Solr Solr Ruby Solr Apache Lucene CNET CNET Apache Software Foundation Apache Solr http://lucene.apache.org/solr/ Solr API Lucene Powered by Solr http://wiki.apache.org/solr/PublicServers Solr Solr • • HTTP/XML XML Java • Lucene • • • • • • Jetty Solr WEBrick Flare Flare Ruby on Rails Solr

    ma_ko
    ma_ko 2011/07/04
    全文検索
  • 全文検索エンジンHyper Estraier導入 - のほほん徒然

    第十九回 さて,先日の続きである.研究室に論文PDFを閲覧できるWebサーバを設置したわけだが,その論文PDFは色々な学会ごとに分けられている.さらに,それぞれの学会のIndexページが存在し,そこから論文PDFへのリンクが張られているといった感じだ.これだと,自分が見たい論文がどの学会で何年に発表されたか分かっている場合は一道で論文までたどり着ける.しかし,論文タイトルだけ分かっているとか,誰々が書いたってことだけは分かっているとか,「検索スコアリング」に関する論文が欲しいといった要求に答えることはなかなか難しい. そこで,今回は大量の論文PDFから全文検索の機能を追加する.検索対象は各論文PDFファイルとして,全文検索エンジンにはHyper Estraierを利用した.これは,N-gram法を拡張したN・M-gram法を用いたindexingにより,もれのない全文検索を実現している.

    全文検索エンジンHyper Estraier導入 - のほほん徒然
  • PDF文書からテキストを抽出する - のほほん徒然

    第二十一回 論文PDFをHyper Estraierで検索できるようにするため,PDF文書をインデックスに登録する必要がある.しかし,Hyper Estraier付属のPDF文書用スクリプトはHTML文書に変換した後,インデックスに追加するという動作をしていた.さらに,タイトルにPDF文書のファイル名ではなく,PDFが作成された際に付けられていたファイル名を付けてしまうなど,いまいちこちらのニーズに合わなかったので自分で作っちゃうことにした. 来は,シェルスクリプトで書かれた標準添付されたスクリプトを書き直すべきなのだろうが,今回はAPIを使用してRubyスクリプトを作りたかった.そこで,まずはPDF文書からテキストを抽出することから始めてみた. 様々なツール・ソフトがあるようだが,自分は「pdftotext」を使ってみることに.これは,「xpdf」というLinux用ソフトに添付されてい

    PDF文書からテキストを抽出する - のほほん徒然
  • ソーシャルレンディング AQUSH(アクシュ)

    AQUSHローン(借入)に関するページはこちら 運営会社:株式会社Paidy 貸金業: 東京都知事(2) 第31529号 第二種金融商品取引業: 関東財務局長(金商)第2149号 個別信用購入あっせん業 関東(個)第86号-1 日貸金業協会会員 第005391号 一般社団法人日クレジット協会 一般財団法人日情報経済社会推進協会 一般社団法人第二種金融商品取引業協会 加入指定信用情報機関:株式会社日信用情報機構・株式会社シー・アイ・シー © Paidy Inc.

    ma_ko
    ma_ko 2011/07/04