タグ

dbとOCRに関するgntのブックマーク (2)

  • 大規模インフラ個人運用:AWS+Hadoopの成功例 | wrong, rogue and log

    これは西村さんからTwitterで教えてもらったことなのであるが、AWS+Hadoopの幸せな成功例である: Self-service, Prorated Super Computing Fun! NY Timesが過去のアーカイブを含めてすべて無料化したわけだが、そのシステム的な移行措置として過去のスキャンしたTIFF画像をPDFに変換する必要があったのだ。TIFFのサイズは合わせて4TBという巨大さ。 これを行うのに次の構成をとったそうだ:PDF変換にiTextを用いる。変換するマシンはAWS上の100インスタンスをHadoopでMapReduce構成をとることで並列化した。これによりすべてのPDF変換(なんと成果物は1.5TB)が、24時間未満の時間で終了したのだ。そして作業をしたのは、一人のプログラマだけである。 だから言ったでしょ。もう時代は一人大規模サービスの時代なんですよ。そ

    大規模インフラ個人運用:AWS+Hadoopの成功例 | wrong, rogue and log
    gnt
    gnt 2009/04/20
    NYTimesの画像アーカイブ4TBのTIFF→PDF変換を、AWS使って2人日+使用料60,000円のみでできちゃった、というお話し。タイミング的にバッチリすぎてAmazon営業が頑張ったんじゃねーかな、とか。
  • インターネットマガジン バックナンバーアーカイブ

    『インターネットマガジン』の創刊は、日でインターネットが格商用化された1994年で、月刊誌の形態として1994年10月号から2006年5月号まで136号を発刊してまいりました。これらに収録された記事は、日のインターネットの1つの歴史として、資料性の高いコンテンツであると考えています。 TIMEMAPとは TIMEMAPは、時間軸に着目した新方式の検索エンジンです。情報の新しい探し方や見方を提供します。 アーカイブ内の記事が時系列に整理された年表が作成でき、また連想検索による関連記事の閲覧も可能です。 詳しくはこちら→ 『インターネットマガジン』の創刊は、日でインターネットが格商用化された1994年で、月刊誌の形態として1994年10月号から2006年5月号まで136号を発刊してまいりました。これらに収録された記事は、日のインターネットの1つの歴史として、資料性の高いコンテンツで

    gnt
    gnt 2007/12/26
    これはすごい。許可取り大変だったろうに。簡易OCRで本文検索も可能
  • 1