2013年11月14日のブックマーク (7件)

  • 実用に耐えるオープンソースの検索エンジン BEST3 – テコラボ

    オープンソースの検索エンジンというのが幾つかあります。オープンソース、つまり無料の検索エンジンですね。 ほとんどは目的がニッチに特化したものが多く、ウェブで一般的に使えそうなものはあまり多くはないのですが、それでもちゃんと実用に使える、使っているものもあります。今回、テコラボでそういった使えるオープンソースの検索エンジンとして選んだものを載せておきます。 なんらかの理由でGoogleやBingを使えない、且つ、初期投資としてお金をかけられない、といったサイト開発やアプリケーション開発の場合に有効です。 BEST1 : [ Fess(Solr)] http://fess.codelibs.org/ja/index.html 検索エンジンにSolrを、クローラーにS2Robotを使う検索システムパッケージ。 5 分で簡単に構築可能な全文検索サーバー! ウェブ、ファイルシステム、データベースのク

    uraxurax
    uraxurax 2013/11/14
  • Skeed社のSSBPの表面的まとめ - ..たれろぐ..

    Interop2012 の現地で SSBP (Skeed Silver Bullet Protocol) のことを聞いてきたのでまとめ。 SSBP のターゲット・特徴 SSBP は LFP (Long Fat Pipe; 物理帯域は太いがRTTが大きい経路)で大容量のファイル転送を短時間に終えるプロトコル。 テープ送ればいいじゃん→物理媒体送るのは税関とか紛失とかが怖いよねって場合に。 RTT が大きい経路やパケット落ちが起きる経路でも TCP より性能が落ちにくい。 既存トラヒックとの公平性についても考慮してる。 デモでの性能 現地デモ。対ヨーロッパ(アイスランド。だっけ?) 1GBのファイル10転送 FTP 比で 1/10 程度の時間でファイル転送を終えていた。 しくみ UDP の上に再送制御・レート制御・セキュリティ機能(DH+AESらしい)を載っけたもの。 TCP だと ACK

    Skeed社のSSBPの表面的まとめ - ..たれろぐ..
    uraxurax
    uraxurax 2013/11/14
  • Apache Solr - Wikipedia

    Solr(ソーラー)は、オープンソースの全文検索システム。Apacheソフトウェア財団のLuceneプロジェクトのサブプロジェクトとして開発されている。 概要[編集] 全文検索エンジンライブラリLuceneをベースに、管理画面やキャッシュ機構を取り入れたアプリケーション。 機能上の特徴は、検索結果にファセットと呼ばれる検索結果を特定の軸でクラスタリング、それぞれの件数情報を付加することができること。商用の検索エンジンでもこの機能があるものは少ない。 構造上の特徴は、内部はいくつかのコンポーネントに分かれ、各所にプラグイン機構を持っているため拡張性に優れる、また、さまざまなキャッシュを持つことからより多くの検索クエリを捌けるようになっていること。 なお、v1.3になって追加されたDataImportHandler (DIH) という追加機能(contribに収録)を使うと、Oracleをはじ

    Apache Solr - Wikipedia
    uraxurax
    uraxurax 2013/11/14
  • Apache HBase - Wikipedia

    Apache HBaseはオープンソースの、列指向、分散データベースであり、GoogleのBigTableをモデルとし、Javaにより書かれている。Apacheソフトウェア財団のHadoopプロジェクトの一部として開発され、HDFS (Hadoop Distributed File System)の上で実行され、Hadoopに対しBigtableのような機能を提供する。 HBaseはBigTable論文に従い圧縮、インメモリ処理の機能、および各列ごとにブルームフィルタを持っている。[2] HBaseにおけるテーブルはHadoop上のMapReduceジョブの入出力として機能し、Java APIのほか、REST、Avro、ThriftといったゲートウェイAPIを通じアクセスが可能である。 HBaseは、古典的なSQLデータベースを直接置き換えるものではないが、近年ではパフォーマンスが向上し、

    uraxurax
    uraxurax 2013/11/14
  • ログ収集基盤のFluentdとFlume NG、どちらが使いやすい?

    ログは、システムの障害解析(デバッグ)や運用モニタリングに使うことを想定して、コンピュータに発生したイベントの履歴を時系列に沿ってファイルに出力したものである。有用なデータではあるが、扱いにくい面がある。そのため、複数のログを突き合わせて分析するといった活用が難しく、従来はもっぱら一つのログを単独で利用するにとどまるケースが多かった。 扱いにくい面とは、例えば「ログを一括して処理するには対象ログを各サーバーから収集しなければならない」「ログはサイズが大きくなりがちなので収集する場合は一部を抜き出すなどの加工が必要」といったことである。ログに新たなデータが書き込まれた際に、それを即座に取り出す手段が用意されていないこともそうだ。 こうしたログの扱いにくさは、「ログ収集基盤」と呼ばれるソフトウエアを使うことで克服可能である。ログ収集基盤は、複数のログを結び付けて分析する際などに必要な、対象ログ

    ログ収集基盤のFluentdとFlume NG、どちらが使いやすい?
    uraxurax
    uraxurax 2013/11/14
  • オープンデータアイディアボックス

    トップへスクロール 「オープンガバメントアイディアボックス」は内閣官房、総務省、経済産業省による意見募集の試みです。 国民の皆様の目線での提案を幅広く受け付けています。 このサイトはオープンガバメントラボで提供されている、アイディアボックスを利用しています。 オープンガバメントラボは、経済産業省の委託事業です。 当サイトに関するお問合せは、infoatopenlabs.go.jpまでお願いいたします。 ※迷惑メール対策のため@をatに変えてあります。メールを送る際には、変更してメールを送信してください。 サイトの掲載情報に関する問い合わせは、経済産業省から、 システムトラブルに関するお問合せには、 システム提供を行っている株式会社自動処理から、 御連絡させていただきます。

    uraxurax
    uraxurax 2013/11/14
  • インデックスを作成しない“超高速”ファイル検索ソフト「MasterSeeker」NOT SUPPORTED

    uraxurax
    uraxurax 2013/11/14