タグ

ブックマーク / aoking.hatenablog.jp (3)

  • grep と sift を比較した - にょきにょきブログ

    sift というツールがあります。 https://sift-tool.org/ sift は better grep なツールで、上記サイトのパフォーマンスによるとすべての場合において grep より速く、場合によっては 40 倍速以上のパフォーマンスを出すという、嘘だろ承太郎!?な状態なのでこの怪しい伝説を検証してみます。 https://sift-tool.org/info.html 環境 僕の環境はこちら。 CPU: Intel Corei7 4790 メモリ: 16GB ストレージ: SSD 256GB OS: Ubuntu 14.04 64bit インストール https://sift-tool.org/download.html から適切なアーカイブをダウンロードして解凍。 $ tar zvxf sift_0.3.4_linux_amd64.tar.gz sift_0.3.4

    grep と sift を比較した - にょきにょきブログ
  • 強烈に素晴らしいプロダクトに変貌した Apache Solr - Solr 4.0 登場 - にょきにょきブログ

    Apache Solr 4.0 がリリースされた。 記事では Solr 4.0 の新機能や改善された点のうち気になるものを紹介する。 概要 Solr 4.0 では、下記の変更が入る。 83 個の新機能 13 個の最適化 121 個のバグ改修 Solr 4.0 はメジャーバージョンアップにふさわしい、非常に強力なリリースとなる。 SolrCloud Solr 4.0 の数ある新機能のうちの目玉機能。 SolrCloud という名前から推測できるように、Solr の分散構成が行えるようになった。とはいうものの、Solr 3.6 以前でもレプリケーションは行えたのだが、Solr 4.0 は一味ちがう。 今までより断然賢くなった。シャーディングもクラスタリングも簡単な設定で行うことができる。インデクス書き込みも複数ノードから行える。そしてなにより自動フェイルオーバーができるようになった。 さらに

    強烈に素晴らしいプロダクトに変貌した Apache Solr - Solr 4.0 登場 - にょきにょきブログ
  • 全文検索エンジン Solr のパフォーマンスチューニングについて - にょきにょきブログ

    この記事は古くなりました。新しい知見は下記を参照。aoking.hatenablog.jp 概要 全文検索エンジン Solr を使用していて、パフォーマンスチューニングに四苦八苦した話。 ここでは、検索時ではなくドキュメントの追加時についてのチューニングについて記してある。 更新自体は参照に比べて頻度が少ないが、参照はレプリケーションして負荷分散しやすい。 更新は整合性を保つために一台のマスターノードに対して行われるので更新はボトルネックになりやすいのだ。 定期的に IO 負荷が高くなる Solr を使っていると、一時的に猛烈に IO 負荷が高まる時がある。fsync になんと1分以上かかるような、猛烈な負荷だ。 これはインデクスのマージ時に起きる IO 負荷で、巨大なインデクス同士のマージだとその合計サイズ分の IO が発生することで IO 処理が専有されたままになっていた。 インデクス

    全文検索エンジン Solr のパフォーマンスチューニングについて - にょきにょきブログ
  • 1