タグ

2014年3月3日のブックマーク (4件)

  • 全文検索システム: Fess - オープンソース全文検索サーバー Fess (フェス)

    概要 現在表示されているサイトは旧サイトです。新サイトは http://fess.codelibs.org/ja/ です。 Fess は「5 分で簡単に構築可能な全文検索サーバー」です。Java 実行環境があればどの OS でも実行可能です。Fess は Apache ライセンスで提供され、無料 (フリーソフト) でご利用いただけます。 Seasar2 ベースで構築され、検索エンジン部分には 2 億ドキュメントもインデックス可能と言われる Solr を利用しています。 ドキュメントクロールには S2Robot を利用することで、Web やファイルシステムに対するクロールが可能になり、MS Office 系のドキュメントや zip などの圧縮ファイルも検索対象とすることができます。 特徴 5 分で簡単に構築可能な全文検索サーバー Apache ライセンスで提供 (フリーソフト) OS 非依存

  • EMRってなんじゃ?(ImpalaでCloudfrontの爆速ログ集計)

    EMRがImpalaをサポートするようになりました。ImpalaはClouderaが提供するオープンソースのクエリエンジンで、Hiveより断然速いそうです。 例として、Cloudfrontのログを、タイムスタンプをJSTに直して1時間ごとのアクセス数の集計をしてみます。 ログバケットの確認 まずCloudFrontのログが以下のS3にたまっているとします。 s3://memorycraft-impala-input/cf/logs EMRクラスタの起動 次に、EMRクラスタを起動します。 EMRのダッシュボードで「Create Cluster」をクリックし、新規クラスタ作成画面を表示します。 Cluster Configuration Cluster nameに適当なクラスタ名を入力します。また、今回はEMRのログは出力しないのでLoggingのチェックはOFFなんかにしておきます。起動し

  • CloudFrontのアクセスログを集計・分析したい! | DevelopersIO

    よく訓練されたアップル信者、都元です。CloudFrontにはDistributionの設定により、アクセスログを出力する機能があります。アクセスログは定期的に *1、gzip圧縮ファイルとして、指定したS3バケットに配信されます。 http://docs.aws.amazon.com/AmazonCloudFront/latest/DeveloperGuide/AccessLogs.html さてこの設定を行いますと、指定したバケットがこんな感じになります。どんな単位で集約されているのかは定かではありませんが、同じ時間帯に複数のファイルがありますね。これでも数が少ない時間帯を選んだのですが。要するに物凄い数のログファイルがガンガン配信されてくるようになります。アクセス数にもよりますが、今回の検証環境では1日あたり1000ファイルほどが配信されました。 さて、このログファイルを集計してくだ

    CloudFrontのアクセスログを集計・分析したい! | DevelopersIO
  • Amazon EC2のデータ転送量と課金まとめ

    はじめに クラウドサービスの代名詞でもあるAWS(Amazon Web Services)が待望の東京リージョンを開設してしばらく経ちました。我々Scutum(スキュータム)はSaaS型のWAF(Web Application Firewall)サービスであるため、AWSのEC2のようなIaaS型のインフラ上に積極的に展開をおこなっています。エントリではその際にポイントとなる、EC2でのデータ転送量への課金について調べてみました。 (クリックで拡大します) このエントリの内容はオフィシャルのウェブページやインターネット上の情報を元にしたものであり、実情と異なっている可能性もあるのでご注意ください。また、価格は東京リージョンのものとなっています。 AWSの複雑な課金体系 AWSの特徴のひとつとして、課金の仕組みが非常に複雑であることが挙げられます。これは高いオンデマンド性を実現するために仕

    Amazon EC2のデータ転送量と課金まとめ