BoilerplateはURLを与えると本文部分を抽出するライブラリ。 BoilerplateはJava製のオープンソース・ソフトウェア。Webサイトをクローリングしたり、そのサイト内にあるテキストを使って別なWebサービスを構築すると言った手法はよく存在する。そんな時に必要になるのが本文抽出というテクニックだ。 デモ Webサイトには本文以外にも多様なコンテンツが存在する。例えばヘッダー、サイドバー、フッター、広告などだ。そうした無用なコンテンツを除去し、必要な部分だけ取り出すためのライブラリがBoilerplateだ。 BoilerplateはURLを引数に、後は自動的にコンテンツを取得して本文だけを返却してくれるという手軽なライブラリだ。Javaのライブラリなので、既存のJavaシステムに組み込むのはもちろん、Google App Engineを使ってWeb APIとしてコンテンツ抽
java, wicketタイトル通り。WicketではHTMLファイルの場所はclassファイルの場所と同じ、ということになっています。クラスパスから読みたくない場合は、Applicationクラス内で ((WebApplicationPath)getResourceSettings().getResourceFinder()).add("任意のパス"); とかすることで、所定のフォルダから読むようにもできるのですが、それでも、ファイルの完全パスがクラスの完全名と同じになる、という点は変わらないので、本当に任意の場所から読めるわけでもありません。 しかしデザイナに依頼してHTMLファイルを作ってもらって、それをそのまま使いたい場合に、仮に各ページにHTMLファイルの場所を書かなければいけなくなったとしても、任意の場所にあるHTMLファイルを使いたい!ページごとに細かく指定したい!ということ
DeloreanはRuby用のオープンソース・ソフトウェア。デロリアンと言って思い出すのはマイケルJフォックス主演の映画、バックトゥザフューチャーだろう。あの自動車型タイムマシンは、空を飛んだり路上に燃えるタイヤ跡を残したりと、子供心に興奮させられた。 時間を自在に操作する Deloreanというライブラリはこのデロリアンから来ている。すべきことはもちろん時を操ることにある。今時の時間によってデータを制御しているシステムなどで、きっと活躍してくれることだろう。 よくあるのは現在より過去であればデータを表示すると言った使い方だ。現在時刻によってデータが表示されたり、逆にされなかったりするので非常にテストがしづらい。今日のデータだけを出すと言った場合も同様だ。泣く泣く引数に時刻を追加したりするのはよくあることだ。 そんな時に使えるのがDeloreanになる。Deloreanを使い、time_t
米Googleは3月11日、正規表現ライブラリ「RE2」を発表した。動作が高速で「スレッドフレンドリー」な点が特徴。従来のバックトラック型正規表現ライブラリの代替として開発を進めていく。 Googleによると、同社はCode SearchやSawzallといったインフラやアプリケーションで正規表現を利用しているが、バックトラックアルゴリズムを利用した従来の正規表現実装では入力データに対し処理時間が指数的に増加することが問題となっていた。また、固定サイズのスタックを持つC++のマルチスレッドプログラムの場合、従来の正規表現実装ではスタックを使い切ってスタックオーバーフローを発生させることがあったという。これらを解決するために独自の正規表現エンジンを開発したとのこと。 RE2はどのような入力や正規表現に対しても一定の小さいメモリ量で動作するように開発されているのが特徴。オートマトン理論の下、処
Ruby BarcodescannerはRuby製のフリーウェア(ソースコードは公開されている)。携帯電話にはカメラがついているので、外で写真を撮るのも手軽だ。そうした外部の情報をアップロードして楽しむサービスは数多い。書籍のバーコードを使って楽しむサービスも面白い。 実行した所 携帯電話自体にバーコードスキャナーの機能があればそのまま使えるが、それがない場合は別途連携を考える必要がある。例えばRuby Barcodescannerを使ってみると良いだろう。Ruby Barcodescannerは画像を読み込んでバーコードスキャンを行うRubyライブラリだ。 元になるのが画像というのが良い。写真やスキャナーで取り込んだ画像をそのまま利用できる。画像の取り込みにはImageMagickを使い、実際のスキャンはzbarというオープンソースのバーコードライブラリを使っている。Ruby Barco
Blog of 0x1fff 0x1fff: 35 Google open-source projects that you probably don't knowにおいてGoogle Codeでホスティングされているプロジェクトから35のプロジェクトが紹介されている。もとはポーランド語で記載された0x1fff: 34 projekty Open Source udost?pnione przez Googleを英訳したものとあるが、翻訳する段階で1つプロジェクトが追加されて35になっている。その後さらに25のプロジェクトが、その後さらに34のプロジェクトが追加され、合計92のプロジェクトがまとめられている。マイコミジャーナルでニュースやハウツーとして取り上げたものも多い。取り上げられているプロジェクトは次のとおり。 テキストファイル処理 Google CRUSH (Custom Repo
今回は,仕事でよく使うPDFファイルの操作方法を学びます。Javaを利用して,家計簿をPDFファイルとして作成してみます。ついでにPDFファイルの読み込み方法も覚えることにしましょう。PDFファイルの扱い方を習得すれば,仕事の大きな手助けになるはずです。 皆さんこんにちは,kikainekoです。この連載では,日々の定型的な業務をJavaで自動化してラクする方法を紹介しています。今回は,皆さんが仕事やプライベートでよく使っているPDFファイルをJavaから操作してみましょう! 便利なことに,JavaでPDFファイルを操作するためのオープンソースのツールが,いくつか提供されています。今回は,その中でも日本語の情報が比較的充実している「iText」というライブラリを使うことにします。iTextを使うと,JavaからPDFファイルを生成することができます(インストール方法は,以下のカコミ記事を参
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く