[B! Elasticsearch] clavierのブックマーク

クラシルにおけるElasticsearch v7へのアップグレードおよびElastic Cloudへの移行 - dely Tech Blog

はじめに移行が必要となった背景 Elastic Cloudへの移行およびv7へのバージョンアップ旧構成について構成図なぜElastic Cloudかなぜ移行と同時にアップグレードを行ったかなぜ最新のv8ではなくv7かサーバサイドの修正内容新構成について構成図 Traffic Filter経由での接続監視 Datadog Elastic Status ログ deprecation slowlog audit 権限管理 S3バックアップ Kibana Spaceのロゴ調整辞書・同義語の運用補足(unassigned shardの調査) 移行後に起きた問題 CPUクレジット枯渇原因対応今後の展望さいごにはじめにクラシルSREのkashと申します。クラシルでは検索エンジンとしてElasticsearchを様々な用途で使用しています。 Elasticsearch

clavier 2024/03/19

elasticsearch

リンク

Elasticsearchのパフォーマンス問題をプロファイラを使って解決する | メルカリエンジニアリング

search infra teamのmrkm4ntrです。我々のチームではElasticsearchをKubernetes上で多数運用しています。歴史的経緯によりElasticsearchのクラスタは全てElasticsearchクラスタ専用のnode pool上で動作していました。ElasticsearchのPodは使用するリソースが大きいため、このnode poolのbin packingが難しくコストを最適化できないという問題がありました。そこで全てのElasticsearchクラスタを専用のnode poolから他のワークロードと共存可能なnode poolへ移行しました。ほとんどのクラスタが問題なく移行できたのですが、唯一移行後にlatencyのスパイクが多発してしまうものがありました。この記事では、その原因を調査する方法と発見した解消方法について説明します。発生した現象共

clavier 2024/03/15

リンク

Elasticsearchを使ってリストAPIを100倍高速化した話

はじめにこんにちは！私がつとめている CastingONE という会社の SaaS には、テーブル形式のデータ一覧ページがあります。この一覧ページですが、最近データ数が増えれば増えるほど、じわじわとパフォーマンスが悪くなっていってました…。そこで今回は、そのリストデータ取得におけるパフォーマンス改善を行なった時の、パフォーマンス計測方法や検討内容、最終的な結果をまとめてみました。対象読者バックエンドのパフォーマンス改善の方法や改善の流れに興味がある方ちなみに私がこの改善を行なった時のスペックですが、パフォーマンス改善については初心者寄りでした。「パフォーマンス改善って何それ美味しいの？」というレベル感だった当初、「達人が教える Web パフォーマンスチューニング〜ISUCON から学ぶ高速化の実践」という本には基礎を知るところから大変お世話になったので、ご興味のある方はぜひ読んで

clavier 2024/01/02

リンク

Elasticsearch運用ノウハウ | メルカリエンジニアリング

こんにちは、メルカリMicroservices SREチームの藤本(@jimo1001)です。私は現在、Embedded SRE としてサーチインフラチームに入り活動しています。このサーチインフラチームは、Elasticsearchを使用した検索基盤を管理し、様々なマイクロサービスに検索機能を提供するチームです。この検索基盤は非常に巨大なプラットフォームで、メルカリ全体のマシンリソースの高い割合を占めており、メルカリの検索を支える非常に重要なものです。私の Embedded SRE としてのミッションは検索基盤の信頼性の向上と自動化を推進することです。今回は、メルカリの検索基盤で利用している Elasticsearch における運用のノウハウを紹介したいと思います。 Elasticsearch とは Elasticsearch は、Elastic社が開発する Apache Lucen

clavier 2022/03/15

リンク

検索の応答性能を維持するための Benchmarking Automation | メルカリエンジニアリング

※この記事は、"Blog Series of Introduction of Developer Productivity Engineering at Mercari" の一環で書かれています。はじめにこんにちは、メルカリMicroservices SREチームの藤本(@jimo1001)です。私は Embedded SRE としてメルカリJPの検索に関連するマイクロサービスを提供しているサーチインフラチームに入り、サービスの信頼性向上やインフラ周りの自動化に従事しています。今回は、メルカリの商品検索の応答性能を維持するための Benchmarking Automation の取り組みについて紹介したいと思います。検索基盤のアーキテクチャまず、検索基盤のアーキテクチャについて簡単に説明します。主要なコンポーネントに絞ってシンプルに表現したものが以下の図になります。各コンポー

clavier 2022/02/10

リンク

メルカリの検索基盤の変遷について | メルカリエンジニアリング

※この記事は、"Blog Series of Introduction of Developer Productivity Engineering at Mercariの一環で書かれています。はじめにこんにちは、メルカリ、サーチインフラチームのshinpeiです。今回はメルカリの検索基盤の裏側について、そのアーキテクチャ変遷について書こうと思います。2018~2021年の4年間で、大きく3回、変化をしました。設計の段階では希望と期待にあふれているアーキテクチャでも、問題は後からやってきます。設計には良し悪しがあり、変化することで知見を得ながら、改善を続けています。え、これだと危ないのでは？、、あぁ、やはりそうなるのね。などと、ご笑覧いただければ幸いです。前回までのお話メルカリの検索は、創業時から、Solrをベースにしたシステムで組まれてました。その変遷はこちらのスライドにまとめてあ

clavier 2022/02/10

リンク

検索結果の品質向上 / Improvement of The Quality of Search Results

2021年度リクルートエンジニアコース新人研修の講義資料です

clavier 2022/01/10

リンク

Elasticsearchで日本語を同義語展開する

全文検索における同義語展開の必要性全文検索では、基本的に文字列のマッチにより検索を行います。しかし我々が言葉を扱うときには、同じものを違う表現で指し示すことが多々あります。例えば「独占禁止法」と呼ばれる法律があります。これは経済憲法とも言われる大変重要な法律なのですが、日本では「昭和二十二年法律第五十四号（私的独占の禁止及び公正取引の確保に関する法律）」という法律がそれに該当し、独占禁止法という名前にはなっていません。これを皆、「独占禁止法」や「独禁法」といった代替可能な別表現（同義語）で呼んでいるわけです。同法律には法令用語で言うところの「題名」は付されておらず、頭書の名称は制定時の公布文から引用したいわゆる「件名」である。独占禁止法ないし独禁法と略称されることも多い。もし「独禁法」で検索して当該法律がヒットしなければ、ユーザーとしては不満足でしょう。検索システムのクオリティを向

clavier 2022/01/01

リンク

ZOZOTOWNの検索基盤におけるElasticsearch移行で得た知見 - ZOZO TECH BLOG

こんにちは。ZOZOテクノロジーズZOZOTOWN部検索チーム兼 ECプラットフォーム部検索基盤チームの有村です。 ZOZOTOWNでは、以前からキーワード検索時にはRDBと併用してElasticsearchを使用していました。本記事ではこれまでRDBで行っていたIDによる索引検索も含め、すべての検索をElasticsearchへ置き換えた事例と、その際に行った設定内容の一部をご紹介します。背景弊社CTOによるこちらの記事にもある通り、ZOZOTOWNでは現在マイクロサービス化を進めており検索システムについてもその対象となっています。検索の文脈では、全文検索/サジェスト/ロギング等関連する様々な課題への解決策として有効であるElasticsearchを採用しマイクロサービス化を進めています。また、もう1つの背景として検索のパーソナライズ化があります。これまでZOZOTOWNでは

clavier 2021/12/27

elasticsearch

リンク

Sudachi同義語辞書をElasticsearchで使う（暫定方法）

TL;DR Sudachi同義語辞書を「Solr Synonyms形式」に変換して使うあくまで暫定的な使い方: 本来は形態素解析結果を元に厳密に展開されるべきちゃんとしたフィルタープラグインは、徳島のSudachi公式がもうすぐ公開してくれるはず Sudachi同義語辞書とはワークス徳島NLPが開発する、専門家の手による大規模で高品質な辞書 Apache2.0ライセンス、商用利用可詳細は公式ドキュメントを参照のこと同義語が単に羅列されているわけではなく、詳細化した同義関係が付与されています。そして、この言語資源は定期的に専門家によりメンテナンス、更新されています。例えば、以下のような語も2020年7月のアップデートなどで追加されています; ... 023538,1,0,1,0,0,0,(医療),新型コロナウイルス感染症,, 023538,1,0,1,2,0,0,(医療),COV

clavier 2021/12/04

リンク

niconicoの検索システム(2019年版)

2019年のniconicoの検索システムの説明です。

clavier 2021/12/04

リンク

GitHub - twintproject/twint: An advanced Twitter scraping & OSINT tool written in Python that doesn't use Twitter's API, allowing you to scrape a user's followers, following, Tweets and more while evading most API limitations.

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

clavier 2021/11/14

リンク

Elasticsearchで日本語検索を扱うためのマッピング定義 - ZOZO TECH BLOG

こんにちは、検索基盤部検索基盤ブロックの渡です。私は検索基盤ブロックで、主にZOZOTOWNの検索周りのシステム開発に従事しています。以前の記事では、Elasticsearchのマッピング設定の最適化について取り上げました。そして、今回は日本語による形態素解析を実現するまでの手順をご紹介します。 tech blog.zozo.com 目次目次はじめに Elasticsearchで全文検索を実現させる手順全文検索のためのマッピング定義 Analyzerの構造日本語対応のAnalyzer 日本語対応のためのプラグイン追加 kuromoji Analyzerを指定したマッピング定義の例 kuromojiプラグイン機能カスタムしたAnalyzerのマッピング定義 Analyzerの動作確認 modeを選択した場合のマッピング定義の例 Analyzer適用の注意点 kuromoji以外の

clavier 2021/11/07

リンク

ElasticSearchで、documentをupsertする | ITに頼って生きていく

Advertisements TL; DR indexとdocument idの組み合わせてデータを管理し、不要なデータはindex単位で削除していく公式で使用されている通り、時系列データを1日単位でindexを作る古い不要なindexを1日単位で削除できるようにする index単位の処理は高速 document idもElasticSearchに任せ、こちらで指定しないほうが性能的に良いなので、つまり document idをユーザ側で指定することは非推奨どこかに書いてあったはずですが失念しました。。。その指定したdocument idのdocumentをupdateすることは非推奨当然、upsertも非推奨でも、必要に迫らせてやらざるを得ない場合もあります。これをどうやるか？というお話です。確認環境 docker-composeで環境を準備します。 kibanaのDe

clavier 2021/11/04

elasticsearch

リンク

メタデータ管理OSS個人的まとめ - うさだのブログ

いろいろ触ったのでまとめる。(今後追記予定あり) TL;DR データガバナンスツールのOSSにおいて、世間的にデファクトスタンダード的なものも、個人的にこれは!というものも見た限りなかった。テクニカルメタデータの収集はだいたいどこも同じな一方、ビジネスメタデータ、リネージへの取り組みには顕著な差がある。お金があるなら有償製品を導入したほうがいいかもしれない。 1 データガバナンスツールは、JIRAみたいなビジネスツールとして捉えるべきという所感。変更履歴 2020-05-18 Egeriaを追加前提と関心のある領域ベンチャーではなく様々な領域の事業を扱う大きめの企業。マルチクラウド、マルチベンダー、マルチプラットフォーム。データストアは数百以上。 ETL基盤、データ分析基盤はすでに存在し、内製のメタデータ管理ツールもある。データ利活用よりもガバナンスを強化したい。調べたOS

clavier 2021/10/19

リンク

Elasticsearchのmatchとmatch_phraseの違い - grep Tips *

Elasticsearchで全文検索する際にmatchとmatch_phraseの違いがはっきり身についていないのでまとめてみる。 version: Elasticsearch 7.5 matchクエリ matchクエリを使うといわゆる曖昧検索ができる。matchクエリに渡した文字列はanalyzeされてから検索に使用される。例えばtitleというフィールドに「2021年春に発売される新着本の特集!!NEW!!」という文字を保存していたとして、「2021春」で検索できるかどうかを考えてみる。 GET sample-index/_search { "query": { "match": { "title": "2021春" } } } 解析されたクエリはORで検索される indexをkuromojiで形態素解析されるように設定したので、「2021春」は「2021」と「春」に形態素解析される

clavier 2021/07/10

リンク

新規サービスの検索システム立ち上げ時に考慮すること - Qiita

例外はたくさんあるのでこちらの表はあくまでも参考です。バッチ更新の場合はcrontabやAirflow、Rundeckなどのワークフローエンジンが使えます。一方、リアルタイム更新ではAWS KinesisやGCP pub/sub等を活用したり、Apache Beamなどを用いたりしてデータパイプラインを構築することがあります。アイテムの特性と検索時のクエリ検索対象となるアイテムの特性と検索する際にどのようなクエリが想定されるかを考えます。全文検索エンジンを使っているので、基本的にはテキストにより表現されているとは思いますが、どのようなフィールドが存在するか、テキスト以外の検索項目などを洗い出します。クエリに関しても基本は「キーワード」ですが、整理したアイテム情報に対してどのようなクエリで問い合わせが可能かを考えます。システムとして「誰」が検索結果を取得するか、検索結果をどの程

clavier 2020/01/24

リンク

Elastic Cloud を使うようになって変わったこと

寒くなってきましたね。趣味のキャンプも１１月で今年はおしまいです。上の写真は今年最後のキャンプで撮った１枚。焚き火をしながら凍えそうでした。 Elasticsearch Advent Calendar 2019 ２日目、最近まったく情報発信できていなかったのでリハビリもかねて。久しぶりに Elasticsearch 関連の記事がんばって書きます！ Elasticsearch を使い始めたのは、かれこれ５、６年前（Hello! Elasticsearch ブログを公開したのが、２０１４年なので、多分その１、２年前）。その前は、今は無き FAST ESP (Fast Datasearch) と言う商用のサーチエンジンを使ってシステムを設計、構築していました。 Elasticsearch に出会って衝撃を受けたのは、そのシステム構築のし易さと、柔軟なスキーマ・インデックス設計。それまでの検索エン

clavier 2019/12/22

リンク

Cybozuにおける大規模インフラ基盤の移行プロジェクトManekiの紹介

Vault Secrets Operator と Dynamic Secrets で安全にシークレットを使おう / Vault Secrets Operator and Dynamic Secrets

clavier 2019/12/22

リンク

全文検索で文書の新しさを考慮したスコアリング - Taste of Tech Topics

皆さんこんにちは。@Ssk1029Takashiです。この記事はElastic Stack (Elasticsearch) Advent Calendar 2019の13日目になります。 qiita.com 何か調べ物をしているとき、見つけた記事が古く使えないということが良くあります。例えばElasticsearchのクエリを調べていたら、ver5時代の記事ですでに仕様が変わっていたりなど。。。検索結果としては基本的には時系列が新しいものを優先して出してほしいことが多いです。このように、検索システムでは基本的には新しい記事、なおかつ検索キーワードと関連度が高い記事を優先して出してほしいということがあります。この時、単純に時系列でソートすると関連度を考慮できないため、検索スコアにいい感じに時系列情報を組み込む必要があります。 Elasticsearchでは、この問題をscript

clavier 2019/12/15

リンク

はてなブックマーク

タグ

関連タグで絞り込む (158)

Elasticsearchに関するclavierのブックマーク (278)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス