yuisekiのブックマーク - はてなブックマーク

ElasticsearchのアーキテクチャとStateless / Serverless

本記事は情報検索・検索技術 Advent Calendar 2022の9日目の記事です。だいぶ間が空いてしまいましたが、日本語のオートコンプリートに関する記事の続きです。という感じで、Suggesterのデータ構造とか仕組みを書こうと思っていたのですが、思ったよりも調べないといけないことが多くて挫折しました。。。（これの続きは年末年始で調べて書くはず？）ということで、代わりにElasticsearch/OpenSearchのアーキテクチャの変更に関してさらっとまとめてお茶を濁してみようと思います。発端はElasticON Tokyo？先週の11月30日に、ElasticのオフラインイベントであるElasticON Tokyoが開催され参加しました。参加しようと思ったのは、10月の頭にElasticのブログで公開された「Stateless — your new state of

yuiseki 2022/12/10

あとで読む

リンク

日本語用オートコンプリートのためのAnalyzer

風のうわさで、日本語用のオートコンプリートのためのTokenFilterとAnalyzerがLuceneに取り込まれたと聞きました（LUCENE-10102）。 Elasticsearchでも使えるかなぁ？ということで調べたところ（調べた？聞いた？）、どうやら8.1から利用できるようになっている（GitHub Issue #81858）みたいです（まだ、公式ドキュメントには記載がないのですが）。 8/17追記作者の打田さんがブログ書いてたの見落としてた（もしくは見たけど忘れてた）ので貼っておきます。マルチテナンシー下での Query Auto Completion 設計・運用戦略 - LegalForce Engineering Blog ということで、こんな感じで使えるよというのを試してみました。どういうもの？日本語入力方法を考慮したオートコンプリート用のトークンを生成してくれるT

yuiseki 2022/08/10

あとで読む

リンク

@johtaniの日記 3rd | @johtaniの日記 3rd | @johtani's blog 3rd edition

「続ける思考」を読んだのブログで追加しようと思っていることをいくつか挙げていました。あれから2週間たったので記録として。今のルーティーン（＋

yuiseki 2022/05/20

リンク

辞書の更新についての注意点

先日、Elasticsearchでのカスタム辞書の利用方法についてブログを書きました。辞書の設定方法について記載しましたが、今回は辞書の更新について書いていなかったので、書いてみようと思います。ここで「辞書」としているのは、Kuromojiのユーザー辞書、Synonym Graph Token FilterのSynonym辞書(いわゆる類義語辞書)のことになります。サードパーティのAnalyzer等に関する話ではありません。辞書更新に関する制限事項辞書の更新について、大原則と制限事項が存在します。大原則(辞書の更新=データも更新) ElasticsearchはAnalyzerが切り出した単語を元に転置インデックスを作成して、検索を行っています(この仕組みに関するスライドはこちらを参照のこと)。 Analyzerが辞書を持っている場合、その辞書を元に単語を切り出して転置インデックス

yuiseki 2021/10/26

リンク

Kibana 4（日本語訳）

※この記事は次のブログを翻訳したものになります。原文：kibana 4. literally. Kibana 4は現在、文字通り、抽象的に、概念的に、精神的に、そしてとても楽しく、プロダクションレディになりました。 1週間前に準備はできていましたが、満足できるものであるという確信を得たいと思っていました。そして、Kibana 4.0.0 GAをリリースしました。次のものはサンプルのスクリーンショットと前日譚です。これらに興奮してしまった方のために、2ステップのプランを用意しました。ダウンロードする：Kibana 4 downloadsページからダウンロードします。理解する：Kibana 4 docsページを読んで理解します。 Tip : もし、まだ、あなたのクラスタがElasticsearch 1.4.4でない場合は、アップグレードする必要があります。 Tip2 : Kiban

yuiseki 2015/02/21

リンク

可視化ツール現状確認会に参加してきました。#可視化

可視化ツール現状確認会に参加して、カジュアルウォーターじゃなくて可視化ツールの現状を確認してきました。ということで、いつものメモです。 Mackerel と Graphite について（y_uuk1さん） Graphite 時系列工夫すればスケーラブル SensuやCollectdと組み合わせたり GrafanaとGrapheneでGUI Mackerel素敵だよと。架空のわかりやすいグラフが見れた Kibana & Grafana & Influga （hakoberaさん） Kibana かっこいい。 JVM大変。 Grafana Graphiteがカッコ悪いのでKibanaをフォークなぜか、ESが必要。 Influx DBに浮気しそう Influga @haoberaさん作 Influx DB Queryサポート迷ったら、Kibana入れとけ。 DistinctがKibana

yuiseki 2014/06/04

tech

リンク

Nested Objectのフィールドの奇妙な動作

今年初の「突撃！隣のElasticsearch」ということで、Wantedlyさんにおじゃましました。 ※写真を自分でも撮ったのですが、画像が壊れてたので、一緒に行ったペンギン先生の写真を拝借しました。第3回のElasticsearch勉強会を開催中にES使ってるってツイートを見つけたので、アタックかけて遊びに行きました。交渉に快諾いただきありがとうございました！ WantedlyさんがどのようにElasticsearchを使用されているかはきっと、ブログを書いてくれると思うので期待しておくとして、書いてくれました！！「実践！Elasticsearch」そこで、nestedでハイライトがなんかうまくいかないって話があったので、ちょっと調べてみました。（※まだ、調査中です）前提条件再現する手順はgistにあります。（Senseに貼り付ければ動作します。ただし、elasticse

yuiseki 2014/02/25

tech

リンク

Curator: 時系列インデックスの管理(日本語訳)

Elasticsearchのcuratorのブログ記事を読んで、日本語でツイートしたところ、Aaron Mildensteinさんから日本語（ローマ字）で返信を頂きました。せっかくなので、ブログ記事を翻訳してもいいかを尋ねたところ、快くOKを頂いたので、翻訳してみました。参考になればと。（誤訳など見つけたらコメントください。） @johtani Kore no hou ga ii. Nihongo de no Curator RT, arigatou gozaimasu! #elasticsearch #curator #logstash — Aaron Mildenstein (@theuntergeek) 2014, 1月 22 curator: 時系列インデックスの管理原文：curator: tending your time-series indices 背景数年前、Elas

yuiseki 2014/01/25

tech

リンク

Kibana3というのもありまして

前回は3番煎じぐらいでしたが、今回は初記事かな？（だといいな） Kibanaには、前回の記事で書いたものとは別に開発中のKibana3というのが存在します。 Kibana3って？ Kibana2はRubyで書かれていましたが、Kibana3はHTML＋JavaScriptで構成されています。ですので、ApacheなどのWebサーバに配置することで、利用が可能となります。ただ、HTML＋JavaScriptのため、ブラウザ上で動作するためブラウザが動作するマシンからElasticSearch（通常だとhttp://マシン名orIPアドレス:9200/とか）にアクセスできなければいけないという制限があります。この条件さえクリア出来れば、Kibana3ではKibana2よりも様々なパネルが用意されていて、色々できそうなのでお勧めです。インストール ElasticSearchやログについて

yuiseki 2013/09/14

kibana
tech

リンク

apache-loggen + fluentd + elasticsearch + kibana = ログ検索デモ

もう何番煎じだ？ってくらい書かれてますが、コリもせず書いてみました。 Elasticsearch＋Kibanaの環境を作って、タムタムさんのログ生成ツールからApacheのダミーログを流しこんで入れてみました。参考URL memorycraftさんのブログ Kibana Elasticsearch fluentd apache-loggen インストールと起動今回はCentOSへのインストールです。基本的にはmemorycraftさんのブログの流れのままです。 elasticserchのインストールと起動ダウンロードして、起動するだけ。お試しということで、-fオプションにてコンソールにログ出力。 curl -OL https://download.elasticsearch.org/elasticsearch/elasticsearch/elasticsearch-0.90.1.

yuiseki 2013/09/05

リンク

日本語Wikipediaをインデクシング（Kuromojiバージョン）

前々回紹介した、日本語Wikipediaのデータをインデックス登録する記事の続きです。今回は、Kuromojiのアナライザを利用してインデックス登録してみます。余談（Proxy環境でのプラグインインストール） ElasticSearchのpluginコマンドはJavaで実装されています。（org.elasticsearch.plugins.PluginManager）プラグインのダウンロードには、java.net.URL.openConnection()から取得URLConnectionを使用しています。ですので、pluginのインストールを行う際に、Proxy環境にある場合は以下のようにコマンドを実行します。 ./bin/plugin -DproxyPort=ポート番号 -DproxyHost=ホスト名 -i elasticsearch/elasticsearch-analysi

yuiseki 2013/09/03

tech

リンク

ElasticSearchにプラグインで日本語Wikipediaデータを入れてみました

久々のブログはElasticSearchネタです。勉強会開催する予定だったりすので、もう少し触っておきたいなと。お手軽に検索するデータとして、よくWikipediaのデータを使っています。 ElasticSearchにはelasticsearch-river-wikipediaという便利なプラグインがあり、Wikipediaのデータを簡単に検索可能な状態にできます。このRiverを利用して日本語のWikipediaのデータを入れたので、メモを取っておきます。まずは、river-wikipediaで日本語のデータをインデクシングしてみるまでの説明です。日本語特有の設定（Kuromojiを利用したインデクシング）などはまた後日。プラグインのインストール対象とするElasticSearchは現時点で最新版の0.90.3とします。最新版でRiver動かないなぁとつぶやいた影響かどうかは

yuiseki 2013/08/27

きょうみぶかい

リンク

はてなブックマーク

タグ

ブックマーク / blog.johtani.info (12)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス