hrsttのブックマーク / 2011年2月23日

hrstt id:hrstt

2011年2月23日のブックマーク (9件)

Ubuntu Linuxへインストール - ChupaText
hrstt 2011/02/23
ChupaText のUbuntu リポジトリ

pdf

ruby
リンク
サーバ上でPDFやオフィス文書からテキストを抜き出す方法あれこれ - 2010-08-02 - ククログ
groongaなどを使って全文検索システムを作るときは、PDFやオフィス文書などからテキスト情報を抜きだして検索用インデックスを作る必要があります。Windowsでテキストを抽出するソフトウェアとしてはxdoc2txtなどがありますが、ここでは、Linuxサーバ上でテキストを抽出する方法を紹介します。 PDF Linux上でPDFを閲覧する場合は、昔はXpdfでしたが、最近はEvinceやOkularの方がよく使われているようです。どちらもPDFの処理にはXpdfからforkしたPopplerというライブラリを使っています。 popplerにはPDFからテキストを抽出するpdftotextというコマンドが付属しているため、それを利用してPDFからテキストを抽出できます。 % pdftotext hello.pdf hello.txt これでhello.pdfのテキスト情報がhello.tx
hrstt 2011/02/23
　pdf to text on linux

PDF
リンク
xdoc2txt
xdoc2txt.exe [-s|-e|-j][-c][-f][-p][-n][-r=(0|1|2)] <filename...> -h ヘルプの表示 -s 出力のエンコードはShiftJIS(デフォルト) -j 出力のエンコードはJIS -s 出力のエンコードはEUC -c PDFキャッシュ on(デフォルトはoff) -f 変換結果をファイルに出力。デフォルトでは標準出力に出力 -p OLE2複合文書の場合、文書プロパティを表示(Office、一太郎で有効) -n PDF文書のアクセス権限の設定を無視(cryptlib.dllが必要) -r= HTML文書のルビの変換 -r=0 ルビ削除 -r=1 （） -r=2 《》青空文庫形式 -o= その他のオプション -o=0 PDFで -- ? -- の形式のページ番号を表示しない -o=1 PDFで改行を削除(
hrstt 2011/02/23
windows
リンク
PDFやオフィス文書からテキストを抜き出すツールをテスト公開 - ChupaText 0.5.0 - 2010-11-08 - ククログ
全文検索エンジンgroongaを囲む夕べ #1 : ATNDの定員が50人から120人に増えましたね。たぶん、何人かはキャンセルするはずなので、今のうちに登録しておくとおそらく参加できるでしょう。興味のある方はお早めに登録してください。さて、以前、サーバ上でPDFやオフィス文書からテキストを抜き出す方法を紹介しました。これらを使うことにより様々なフォーマットの文書からテキストを抽出し、groongaなどの全文検索エンジンを利用して高速に目的の文書を見つけることができます。例えば、ファイルサーバやデスクトップ上にある文書を検索する用途にも有用です。しかし、文書のフォーマット毎に抽出方法を変えなければいけないため、実際にテキストを抽出する部分（インデクサーの機能の一部）を作る場合に不便です。文書のフォーマットに依らず、同じ方法でテキストを抽出できると便利ですよね。ということで、文書のフォ
hrstt 2011/02/23
pdf to text on linux

ruby

pdf
リンク
2008-01-29
文献管理ソフトは、pdf ファイルの名前を pmid.pdf にするのが多そうだけど、手作業はめんどい。 => 誰か変換スクリプトを〜。 => ktkr http://www.geocities.jp/researcherinus/perl1 => うまく text 抽出できない場合がある => 自分で書けないもんだろうか？ => Ruby で pdf から text 抽出どうやるのか見つからなかったところが寝る前に HMDT3版を読んでいたら Ruby Cocoa*1 で pdf からの text 抽出が載っていたので、ちょっと Nature とかの pdf から text 抽出して doi を抜き出せるか試してみた。 #!/usr/bin/env ruby # # Created by mako on 2008-01-29. # What? # This_script.rb extr
hrstt 2011/02/23
pdf抜き出し

ruby

cocoa
リンク
PhiloGL: A WebGL Framework for Data Visualization, Creative Coding and Game Development
hrstt 2011/02/23
WebGL
リンク
Ext JS Blog - Ext v1.1 Released
Grid layouts are important for creating web apps because they help organize content attractively and make sure the app functions smoothly. The component-based architecture JavaScript framework takes these layouts to the next level by adding interactivity, flexibility, and advanced functionalities beyond the capabilities of CSS alone. In this article, we’re going to explore 7 JavaScript […] No Comm
hrstt 2011/02/23
WebGL
リンク
話題のテストツール Steak を勉強してみた - yuumi3のお仕事日記
以前 Ruby on Railsの達人 @a_matsuda に薦められたテストツール Steak を現在開発中のプロジェクトで使ってみようと思い、勉強してみました。 Steakとは Steak は Cucumber 同様に Ruby on RailsなどのWebアプリの受け入れテストや総合テストのツールです。Cucumberは仕様(テスト)を自然言語で記述できるのが大きな特徴でしたが、SteakではRSpec＋専用DSLで記述しまます。 Cucumberは仕様(テスト)を自然言語で書けるので、ユーザーに仕様を確認してもらうとか作ってもらえるのが最大のメリットです。しかしその分、feature(仕様)とStep(仕様をプログラムをつなぐコード)の２つを記述する必要あり開発の手間が取られます。それに比べ、 Steak は RSpec (＝ Rubyのコード) なので、プログラマーに取っ
hrstt 2011/02/23
ruby
リンク
jpn.ph
This domain may be for sale!
hrstt 2011/02/23
java
リンク
- 2011年2月24日
- 2011年2月23日
- 2011年2月22日