[B! PDF][テキスト抽出] ni66lingのブックマーク

ni66ling id:ni66ling

PDFとテキスト抽出に関するni66lingのブックマーク (3)

PDFやオフィス文書からテキストを抜き出すツールをテスト公開 - ChupaText 0.5.0 - 2010-11-08 - ククログ
全文検索エンジンgroongaを囲む夕べ #1 : ATNDの定員が50人から120人に増えましたね。たぶん、何人かはキャンセルするはずなので、今のうちに登録しておくとおそらく参加できるでしょう。興味のある方はお早めに登録してください。さて、以前、サーバ上でPDFやオフィス文書からテキストを抜き出す方法を紹介しました。これらを使うことにより様々なフォーマットの文書からテキストを抽出し、groongaなどの全文検索エンジンを利用して高速に目的の文書を見つけることができます。例えば、ファイルサーバやデスクトップ上にある文書を検索する用途にも有用です。しかし、文書のフォーマット毎に抽出方法を変えなければいけないため、実際にテキストを抽出する部分（インデクサーの機能の一部）を作る場合に不便です。文書のフォーマットに依らず、同じ方法でテキストを抽出できると便利ですよね。ということで、文書のフォ
ni66ling 2013/10/31
Chupatext

PDF

office

テキスト抽出

ruby
リンク
第15回　テキスト情報の抽出［その2］ | gihyo.jp
前回は、テキストファイルとHTMLファイルからテキスト情報を抽出する方法について解説しました。今回はMicrosoft Word等に代表されるアプリケーション固有の文書ファイルからテキスト情報を抽出する方法についてとりあげます。アプリケーション固有の文書ファイル型式世の中のアプリケーションの多くは、それぞれ固有のファイル型式で情報を保存しています。たとえば、Microsoft Wordは拡張子.docや.docxのファイル型式、Adobe Acrobatは拡張子.pdfのファイル型式という具合です。そして、各アプリケーションの固有のファイル型式仕様は、オープンになっているものもあれば、アプリケーションベンダがまったく公開していないものもあります。仕様がオープンになっている文書ファイル型式のファイルからテキスト情報を抽出するには、公開仕様に基づいて文書ファイルを解析し、ファイルの中から
ni66ling 2013/10/20
microsoft

office

バイナリファイル

doc

xls

pdf

nlp

テキスト抽出

spotlight
リンク
［ウェブサービスレビュー］PDFに含まれるテキストデータをオンラインで抽出する「Convert pdf to Text」
内容：「Convert pdf to Text」は、PDFからテキストデータだけを抽出するサービスだ。手元のPDFファイルをアップロードするとオンラインで解析が実行され、なかに含まれるテキストデータが抽出される。手動でコピペした際のようにテキストの一部を取りこぼすことなく、ファイルに含まれるすべてのテキストを取り出したい場合に向いている。「Convert pdf to Text」は、PDFからテキストデータだけを抽出するサービスだ。手元のPDFファイルをアップロードするとオンラインで解析が実行され、なかに含まれるテキストデータが抽出される。手動でコピペした際のようにテキストの一部を取りこぼすことなく、ファイルに含まれるすべてのテキストを取り出したい場合に向いている。使い方は簡単で、ローカルのPDFファイルを選んでアップロードするだけ。Unicodeか否かを手動で選ぶオプションはあるが、
ni66ling 2013/09/01
pdf

テキスト抽出
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx