タグ

ブックマーク / blog.johtani.info (12)

  • ElasticsearchのアーキテクチャとStateless / Serverless

    記事は情報検索・検索技術 Advent Calendar 2022の9日目の記事です。 だいぶ間が空いてしまいましたが、日語のオートコンプリートに関する記事の続きです。 という感じで、Suggesterのデータ構造とか仕組みを書こうと思っていたのですが、思ったよりも調べないといけないことが多くて挫折しました。。。 (これの続きは年末年始で調べて書くはず?) ということで、代わりにElasticsearch/OpenSearchのアーキテクチャの変更に関してさらっとまとめてお茶を濁してみようと思います。 発端はElasticON Tokyo? 先週の11月30日に、ElasticのオフラインイベントであるElasticON Tokyoが開催され参加しました。 参加しようと思ったのは、10月の頭にElasticのブログで公開された「Stateless — your new state of

    ElasticsearchのアーキテクチャとStateless / Serverless
  • 日本語用オートコンプリートのためのAnalyzer

    風のうわさで、日語用のオートコンプリートのためのTokenFilterとAnalyzerがLuceneに取り込まれたと聞きました(LUCENE-10102)。 Elasticsearchでも使えるかなぁ?ということで調べたところ(調べた?聞いた?)、どうやら8.1から利用できるようになっている(GitHub Issue #81858)みたいです(まだ、公式ドキュメントには記載がないのですが)。 8/17追記 作者の打田さんがブログ書いてたの見落としてた(もしくは見たけど忘れてた)ので貼っておきます。マルチテナンシー下での Query Auto Completion 設計・運用戦略 - LegalForce Engineering Blog ということで、こんな感じで使えるよというのを試してみました。 どういうもの? 日本語入力方法を考慮したオートコンプリート用のトークンを生成してくれるT

    日本語用オートコンプリートのためのAnalyzer
  • @johtaniの日記 3rd | @johtaniの日記 3rd | @johtani's blog 3rd edition

    「続ける思考」を読んだのブログで追加しようと思っていることをいくつか挙げていました。 あれから2週間たったので記録として。 今のルーティーン(+

    @johtaniの日記 3rd | @johtaniの日記 3rd | @johtani's blog 3rd edition
    yuiseki
    yuiseki 2022/05/20
  • 辞書の更新についての注意点

    先日、Elasticsearchでのカスタム辞書の利用方法についてブログを書きました。 辞書の設定方法について記載しましたが、今回は辞書の更新について書いていなかったので、書いてみようと思います。 ここで「辞書」としているのは、Kuromojiのユーザー辞書、Synonym Graph Token FilterのSynonym辞書(いわゆる類義語辞書)のことになります。サードパーティのAnalyzer等に関する話ではありません。 辞書更新に関する制限事項 辞書の更新について、大原則と制限事項が存在します。 大原則(辞書の更新=データも更新) ElasticsearchはAnalyzerが切り出した単語を元に転置インデックスを作成して、検索を行っています(この仕組みに関するスライドはこちらを参照のこと)。 Analyzerが辞書を持っている場合、その辞書を元に単語を切り出して転置インデックス

    辞書の更新についての注意点
    yuiseki
    yuiseki 2021/10/26
  • Kibana 4(日本語訳)

    ※この記事は次のブログを翻訳したものになります。 原文:kibana 4. literally. Kibana 4は現在、文字通り、抽象的に、概念的に、精神的に、そしてとても楽しく、プロダクションレディになりました。 1週間前に準備はできていましたが、満足できるものであるという確信を得たいと思っていました。 そして、Kibana 4.0.0 GAをリリースしました。 次のものはサンプルのスクリーンショットと前日譚です。 これらに興奮してしまった方のために、2ステップのプランを用意しました。 ダウンロードする:Kibana 4 downloadsページからダウンロードします。 理解する:Kibana 4 docsページを読んで理解します。 Tip : もし、まだ、あなたのクラスタがElasticsearch 1.4.4でない場合は、アップグレードする必要があります。 Tip2 : Kiban

    Kibana 4(日本語訳)
    yuiseki
    yuiseki 2015/02/21
  • 可視化ツール現状確認会に参加してきました。#可視化

    可視化ツール現状確認会に参加して、カジュアルウォーターじゃなくて可視化ツールの現状を確認してきました。 ということで、いつものメモです。 Mackerel と Graphite について (y_uuk1さん) Graphite 時系列 工夫すればスケーラブル SensuやCollectdと組み合わせたり GrafanaとGrapheneでGUI Mackerel素敵だよと。 架空のわかりやすいグラフが見れた Kibana & Grafana & Influga (hakoberaさん) Kibana かっこいい。 JVM大変。 Grafana Graphiteがカッコ悪いのでKibanaをフォーク なぜか、ESが必要。 InfluxDB浮気しそう Influga @haoberaさん作 InfluxDB Queryサポート 迷ったら、Kibana入れとけ。 DistinctがKibana

    可視化ツール現状確認会に参加してきました。#可視化
    yuiseki
    yuiseki 2014/06/04
  • Nested Objectのフィールドの奇妙な動作

    今年初の「突撃!隣のElasticsearch」ということで、Wantedlyさんにおじゃましました。 ※写真を自分でも撮ったのですが、画像が壊れてたので、一緒に行ったペンギン先生の写真を拝借しました。 第3回のElasticsearch勉強会を開催中にES使ってるってツイートを見つけたので、アタックかけて遊びに行きました。 交渉に快諾いただきありがとうございました! WantedlyさんがどのようにElasticsearchを使用されているかはきっと、ブログを書いてくれると思うので期待しておくとして、書いてくれました!! 「実践!Elasticsearch」 そこで、nestedでハイライトがなんかうまくいかないって話があったので、ちょっと調べてみました。 (※まだ、調査中です) 前提条件 再現する手順はgistにあります。(Senseに貼り付ければ動作します。ただし、elasticse

    Nested Objectのフィールドの奇妙な動作
    yuiseki
    yuiseki 2014/02/25
  • Curator: 時系列インデックスの管理(日本語訳)

    Elasticsearchのcuratorのブログ記事を読んで、日語でツイートしたところ、Aaron Mildensteinさんから日語(ローマ字)で返信を頂きました。 せっかくなので、ブログ記事を翻訳してもいいかを尋ねたところ、快くOKを頂いたので、翻訳してみました。参考になればと。(誤訳など見つけたらコメントください。) @johtani Kore no hou ga ii. Nihongo de no Curator RT, arigatou gozaimasu! #elasticsearch #curator #logstash — Aaron Mildenstein (@theuntergeek) 2014, 1月 22 curator: 時系列インデックスの管理 原文:curator: tending your time-series indices 背景 数年前、Elas

    Curator: 時系列インデックスの管理(日本語訳)
    yuiseki
    yuiseki 2014/01/25
  • Kibana3というのもありまして

    前回は3番煎じぐらいでしたが、今回は初記事かな?(だといいな) Kibanaには、前回の記事で書いたものとは別に開発中のKibana3というのが存在します。 Kibana3って? Kibana2はRubyで書かれていましたが、Kibana3はHTMLJavaScriptで構成されています。 ですので、ApacheなどのWebサーバに配置することで、利用が可能となります。 ただ、HTMLJavaScriptのため、ブラウザ上で動作するためブラウザが動作するマシンからElasticSearch(通常だとhttp://マシン名orIPアドレス:9200/とか)にアクセスできなければいけないという制限があります。 この条件さえクリア出来れば、Kibana3ではKibana2よりも様々なパネルが用意されていて、色々できそうなのでお勧めです。 インストール ElasticSearchやログについて

    Kibana3というのもありまして
  • apache-loggen + fluentd + elasticsearch + kibana = ログ検索デモ

    もう何番煎じだ?ってくらい書かれてますが、コリもせず書いてみました。 Elasticsearch+Kibanaの環境を作って、タムタムさんのログ生成ツールからApacheのダミーログを流しこんで入れてみました。 参考URL memorycraftさんのブログ Kibana Elasticsearch fluentd apache-loggen インストールと起動 今回はCentOSへのインストールです。 基的にはmemorycraftさんのブログの流れのままです。 elasticserchのインストールと起動 ダウンロードして、起動するだけ。 お試しということで、-fオプションにてコンソールにログ出力。 curl -OL https://download.elasticsearch.org/elasticsearch/elasticsearch/elasticsearch-0.90.1.

    apache-loggen + fluentd + elasticsearch + kibana = ログ検索デモ
  • 日本語Wikipediaをインデクシング(Kuromojiバージョン)

    前々回紹介した、日Wikipediaのデータをインデックス登録する記事の続きです。 今回は、Kuromojiのアナライザを利用してインデックス登録してみます。 余談(Proxy環境でのプラグインインストール) ElasticSearchのpluginコマンドはJavaで実装されています。(org.elasticsearch.plugins.PluginManager) プラグインのダウンロードには、java.net.URL.openConnection()から取得URLConnectionを使用しています。 ですので、pluginのインストールを行う際に、Proxy環境にある場合は以下のようにコマンドを実行します。 ./bin/plugin -DproxyPort=ポート番号 -DproxyHost=ホスト名 -i elasticsearch/elasticsearch-analysi

    日本語Wikipediaをインデクシング(Kuromojiバージョン)
    yuiseki
    yuiseki 2013/09/03
  • ElasticSearchにプラグインで日本語Wikipediaデータを入れてみました

    久々のブログはElasticSearchネタです。勉強会開催する予定だったりすので、もう少し触っておきたいなと。 お手軽に検索するデータとして、よくWikipediaのデータを使っています。 ElasticSearchにはelasticsearch-river-wikipediaという便利なプラグインがあり、Wikipediaのデータを簡単に検索可能な状態にできます。このRiverを利用して日語のWikipediaのデータを入れたので、メモを取っておきます。 まずは、river-wikipediaで日語のデータをインデクシングしてみるまでの説明です。 日語特有の設定(Kuromojiを利用したインデクシング)などはまた後日。 プラグインのインストール 対象とするElasticSearchは現時点で最新版の0.90.3とします。 最新版でRiver動かないなぁとつぶやいた影響かどうかは

    ElasticSearchにプラグインで日本語Wikipediaデータを入れてみました
    yuiseki
    yuiseki 2013/08/27
    きょうみぶかい
  • 1