ブックマーク / blog.johtani.info (8)

  • システムの特徴と検索機能について(検索システムに関する妄想その1)

    今年の頭からシステムの検索周りを手伝う仕事フリーランスとしてやっています。 検索の仕組みを知れば知るほど面白くなってきたからという理由になるのかな? LuceneやSolr、Elasticsearchなどを長く触っているというのもあるかと思います。 ということで、検索についていつも考えています。 頭の中でまとまっていない状況ですが、システムにおける検索機能についていくつか頭の中にあることを書き出して、 いろんな方にダメ出しやコメントをもらいたいなと思ったので、色々と書いてみようかと。 思いつきのままに書いているので、はなしがあちこち飛ぶ可能性もありますが、あしからず。 検索って難しい 「「検索」とは、データの集合から目的のデータを探し出すこと」By Wikipedia 一言で「検索」といっても、使う人、ユースケースによっていろいろな「検索」があります。 例えば、新しいスマホを買ったときに

    システムの特徴と検索機能について(検索システムに関する妄想その1)
    nishitki
    nishitki 2020/07/28
  • Elasticsearch unplugged - 2.0におけるネットワークの変更(日本語訳)

    ※この記事は次のブログを翻訳したものになります。 原文:Elasticsearch unplugged - Networking changes in 2.0 Elasticsearchをローカルのマシンで起動します。 そして、昨日試したデータを削除するためにDELETE *を実行します。 すると、悲しそうな叫びを同僚が発していることに気づき、なぜそんなことになっているのか不思議に思うでしょう。。。 Elasticsearchはいつも、親しみやすいものでした。 複数ノードのクラスタがどのように機能するのかをテストするには、 ローカルのマシンでいくつかのElasticsearchのインスタンスを起動するだけでした。 起動したインスタンスはマルチキャストを利用して自動的にお互いを見つけて、1つのクラスタになり、負荷を共有し始めます。 しかし、これは親しみやすすぎました。 カンファレンスなどで、

    Elasticsearch unplugged - 2.0におけるネットワークの変更(日本語訳)
    nishitki
    nishitki 2015/08/31
  • Elasticsearch 1.5.0リリース(日本語訳)

    ※この記事は次のブログを翻訳したものになります。 原文:Elasticsearch 1.5.0 Released 日(3/23)、Lucene 4.10.4ベースのElasticsearch 1.5.0 をリリースしました。 このリリースはElasticsearchの最新の安定バージョンとなります。 多くのresiliency(復元性、弾力性) enhancementとバグフィックスを含んでおり、 すべてのユーザにアップグレードを推奨しています。 すべての変更についてはdownload Elasticsearch 1.5.0 hereをごらんください。 460PRという大量の変更を含むリリースは、Elasticsearchをよりresilient(弾力のあるもの)にするために 費やされています。 Inner hits リリースで追加された、Elasticsearchに最もリクエストさ

    Elasticsearch 1.5.0リリース(日本語訳)
    nishitki
    nishitki 2015/04/28
    Elasticsearch 1.5.0リリース(日本語訳) - @johtaniの日記 2nd
  • ElasticSearchにプラグインで日本語Wikipediaデータを入れてみました

    久々のブログはElasticSearchネタです。勉強会開催する予定だったりすので、もう少し触っておきたいなと。 お手軽に検索するデータとして、よくWikipediaのデータを使っています。 ElasticSearchにはelasticsearch-river-wikipediaという便利なプラグインがあり、Wikipediaのデータを簡単に検索可能な状態にできます。このRiverを利用して日語のWikipediaのデータを入れたので、メモを取っておきます。 まずは、river-wikipediaで日語のデータをインデクシングしてみるまでの説明です。 日語特有の設定(Kuromojiを利用したインデクシング)などはまた後日。 プラグインのインストール 対象とするElasticSearchは現時点で最新版の0.90.3とします。 最新版でRiver動かないなぁとつぶやいた影響かどうかは

    ElasticSearchにプラグインで日本語Wikipediaデータを入れてみました
    nishitki
    nishitki 2015/04/24
  • Kibana 4(日本語訳)

    ※この記事は次のブログを翻訳したものになります。 原文:kibana 4. literally. Kibana 4は現在、文字通り、抽象的に、概念的に、精神的に、そしてとても楽しく、プロダクションレディになりました。 1週間前に準備はできていましたが、満足できるものであるという確信を得たいと思っていました。 そして、Kibana 4.0.0 GAをリリースしました。 次のものはサンプルのスクリーンショットと前日譚です。 これらに興奮してしまった方のために、2ステップのプランを用意しました。 ダウンロードする:Kibana 4 downloadsページからダウンロードします。 理解する:Kibana 4 docsページを読んで理解します。 Tip : もし、まだ、あなたのクラスタがElasticsearch 1.4.4でない場合は、アップグレードする必要があります。 Tip2 : Kiban

    Kibana 4(日本語訳)
    nishitki
    nishitki 2015/02/21
  • CROSS 2015で話をしてきました #cross2015

    今年もCROSS参加しました。そして、話もしてきました。 今年は横浜の大さん橋でした。横浜はあんまりこないので、乗り換えでおたおたしてしまいましたが。。。 なかなかいい景色でした。(寒いけど) 「おおさんばし」って読むんですね。「だいさんばし」だと思ってた。。。 以下はいつもの、自分用メモです。 俺はどうしてそのデータストアを選択したのか 〜銀河と小宇宙を語る会〜 http://2015.cross-party.com/program/c1 遅れて入ったので、ちゃんと聴けてないです。 最近注目しているデータストアは? Postgresql。JSON型が気になってる。 AiroSpike。データ型のあるデータストアが気になってる。 MongoDB。JSON使いたいなら、これじゃないの? AWSAurora。インスタンスタイプを選ばなくていい(選ばないといけないらしい)とか、勝手にスケールし

    CROSS 2015で話をしてきました #cross2015
    nishitki
    nishitki 2015/02/01
  • Elasticsearchのインデキシングに関するパフォーマンス検討

    Elasticsearchのインデキシングに関するパフォーマンス検討 原文:performance considerations for elasticsearch indexing Elasticsearchユーザは様々な楽しいユースケースを持っています。小さなログを追加することから、Webスケールの大きなドキュメントの集合をインデキシングするようなことまでです。また、インデキシングのスループットを最大化することが重要で一般的な目標となります。 「典型的な」アプリケーションに対して良いデフォルト値を設定するようにしていますが、次のちょっとした簡単なベストプラクティスによってインデキシングのパフォーマンスをすぐに改善することができます。それらについて記述します。 第一に、制御できないならば、巨大なJavaヒープを使用しない:必要なサイズ(マシンの持つRAMの半分以下)のheapだけを設定し

    Elasticsearchのインデキシングに関するパフォーマンス検討
    nishitki
    nishitki 2014/09/11
    Elasticsearchのインデキシングに関するパフォーマンス検討 - @johtaniの日記 2nd
  • stream2esと複数データの登録

    kopfの記事の続きも書く必要があるんだけど、こんなツイートを見つけてしまったので。。。 ElasticsearchのBulk APIの仕様、JSONファイルをいい感じに加工して置かなければならないしハマりどころ多い。 http://t.co/hmfycqZlqk — Kenta Suzuki (@suzu_v) 2014, 4月 24 前に思いついたけど、放ったらかしにしてた疑問が再浮上してきたので、せっかくだから調べてみようかなと。 複数JSONデータがある場合にもっと楽にデータを入れる方法ないかなぁと思って、これかな?というのがあったのですが、 そのまま手を動かさずに放置してたので、一念発起してブログ書いてます。 Bulk APIって? ElasticsearchはURLにアクセスしてデータを登録できます。 基的には次のように1件毎の登録になります。 $ curl -XPUT ht

    stream2esと複数データの登録
    nishitki
    nishitki 2014/08/29
  • 1