You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
こんにちは、メルカリMicroservices SREチームの藤本(@jimo1001)です。 私は現在、Embedded SRE として サーチインフラチームに入り活動しています。このサーチインフラチームは、Elasticsearchを使用した検索基盤を管理し、様々なマイクロサービスに検索機能を提供するチームです。この検索基盤は非常に巨大なプラットフォームで、メルカリ全体のマシンリソースの高い割合を占めており、メルカリの検索を支える非常に重要なものです。私の Embedded SRE としてのミッションは検索基盤の信頼性の向上と自動化を推進することです。 今回は、メルカリの検索基盤で利用している Elasticsearch における運用のノウハウを紹介したいと思います。 Elasticsearch とは Elasticsearch は、Elastic社が開発する Apache Lucen
全文検索における同義語展開の必要性 全文検索では、基本的に文字列のマッチにより検索を行います。しかし我々が言葉を扱うときには、同じものを違う表現で指し示すことが多々あります。 例えば「独占禁止法」と呼ばれる法律があります。これは経済憲法とも言われる大変重要な法律なのですが、日本では「昭和二十二年法律第五十四号(私的独占の禁止及び公正取引の確保に関する法律)」という法律がそれに該当し、独占禁止法という名前にはなっていません。これを皆、「独占禁止法」や「独禁法」といった代替可能な別表現(同義語)で呼んでいるわけです。 同法律には法令用語で言うところの「題名」は付されておらず、頭書の名称は制定時の公布文から引用したいわゆる「件名」である。独占禁止法ないし独禁法と略称されることも多い。 もし「独禁法」で検索して当該法律がヒットしなければ、ユーザーとしては不満足でしょう。検索システムのクオリティを向
TL;DR Sudachi同義語辞書を「Solr Synonyms形式」に変換して使う あくまで暫定的な使い方: 本来は形態素解析結果を元に厳密に展開されるべき ちゃんとしたフィルタープラグインは、徳島のSudachi公式がもうすぐ公開してくれるはず Sudachi同義語辞書とは ワークス徳島NLPが開発する、専門家の手による大規模で高品質な辞書 Apache2.0ライセンス、商用利用可 詳細は公式ドキュメントを参照のこと 同義語が単に羅列されているわけではなく、詳細化した同義関係が付与されています。 そして、この言語資源は定期的に専門家によりメンテナンス、更新されています。例えば、以下のような語も2020年7月のアップデートなどで追加されています; ... 023538,1,0,1,0,0,0,(医療),新型コロナウイルス感染症,, 023538,1,0,1,2,0,0,(医療),COV
エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。最近、AI・機械学習チーム配下の検索基盤チームでElasticsearchのAnalyzerをKuromojiからSudachiに移行しました。今回はSudachi移行の背景と、Sudachiの概要、実際に移行するにあたってのプロセスや注意事項をお話しします。 対象読者 なぜSudahchiに移行したのか 検索基盤チームが抱えていた検索の課題 Sudachiとは Sudachiへの移行戦略と実践 今使っているKuromojiユーザー辞書をSudachiユーザー辞書に移行する 今使っているシノニム辞書からSudachi正規化機能でまかなえるものを削除する 平仮名/カタカナの正規化辞書を作る 移行時のSudachi切り替え戦略 移行後の影響の事前確認 Sudachi移行時のハ
クエリに対する関連キーワード機能 エムスリーエンジニアリンググループ AI・機械学習チームの中村(@po3rin) です。 好きな言語はGo。仕事では主に検索周りを担当しています。 Overview 最近の仕事で医師に質問ができるサービスで「Elasticsearchを使ってなるべく低コストで関連キーワード機能を実装する」という案件に携わっていました。本記事では関連キーワード機能を低コストで実装するための技術調査の結果と、実際に採用した方法をご紹介します。 今回紹介する方法は機械学習などは使わず、なるべく低コストである程度の品質を目指すものです。この記事を読むことで検索アプリケーションにサクッと関連キーワード機能を実装できるようになるでしょう。 Overview 検索における関連キーワード機能とは 実装の前提条件 実装パターンの紹介 (1) ログで出現した単語を数えあげる (2) ログに対
エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。 好きな言語はGo。仕事では主に検索周りを担当しています。 Overview 最近、社内で情報検索論文輪読会を立ち上げました。 情報検索論文読み会のスケジュール そこでNGT-ONNGについての論文*1を紹介したところ1時間の予定のところを盛り上がりすぎて2時間超えてしまいました。 大盛り上がりのついでに、今回は情報検索論文輪読会で紹介した近似最近傍探索ライブラリNGTを内部で利用するValdを使って、類似文書検索がどのように出来るのか、現状の問題を解決できるのかを試したのでその結果を報告します。 Overview 弊社が抱える類似文書検索の課題 Sentence-BERT Valdを使った近似最近傍探索 NGT Vald Vald×Sententce-BERTで類似文書
2021年度リクルート エンジニアコース新人研修の講義資料です
Try Gemini 1.5 models, the latest multimodal models in Vertex AI, and see what you can build with up to a 2M token context window. Try Gemini 1.5 models, the latest multimodal models in Vertex AI, and see what you can build with up to a 2M token context window. Vector Search is based on vector search technology developed by Google research. With Vector Search you can leverage the same infrastructu
急に冷え込んできてお布団が恋しい季節になってきました。 こんにちは。@Ssk1029Takashiです。 この記事は自然言語処理 Advent Calendarの6日目の記事になります。 qiita.com 全文検索システムは単語検索であることが多いですが、単語検索だけだと困ることもあります 症例検索を例にとって見てみましょう。 検索エンジンに以下の2つの文章が登録されているとします。 「ずっと胃がキリキリと痛い。ただ、熱は無く平熱のままだ。」 「昨日からとても頭が痛い。おまけに胃がむかむかする。」 この時、「胃が痛い」と検索したとき、通常の単語検索の場合だと両方ともヒットしてしまいますが、下の文章は意味としては異なる文章のためゴミになります。 この記事では、GiNZAとElasticsearchを使って意味的に正しい上の文章だけを拾ってくる仕組みを簡単に実現してみようと思います。 どうや
tl;dr (要約) Kuromojiに代わる新しい形態素解析器「Sudachi」 なにが良いの? 最新の辞書 企業(ワークスアプリケーションズ)による継続的な更新 複数の分割単位 → 検索用途での再現率と適合率の向上 プラグインによる拡張 省メモリ Elasticsearchで使いたい プラグイン: WorksApplications/elasticsearch-sudachi 使い方は当記事の後半をご覧ください 注: この記事の執筆者はSudachiの開発に関わっています さまざまな形態素解析器 形態素解析は、伝統的な自然言語処理(Natural Language Processing, NLP)において基盤となる技術です。そして世の中にはさまざまな形態素解析器が存在します。販売されているものもありますが、一般に公開されているものだけでもいくつか例をあげると、JUMANとRNNLMを利
こんにちは。@Ssk1029Takashiです。 最近は家でもどうにかラーメンを食べられないかと試行錯誤しています。 タグ検索とは、キーワード検索とは違い、検索する前からユーザーが選択肢からキーワードをセレクトボックスなどで選んで、検索できる検索方法です。 通常のキーワード検索と違って、ユーザーが0からキーワードを考える必要がないため、効率的に情報を絞り込めます。 もしくは、キーワード検索と併用して使用することも可能です。 ただ、コンテンツごとにタグを設定するのはとても手間がかかります。 コンテンツ作成者も必ずしもタグを設定してくれるとは限りません。 このような時に、自動でタグ付けをしてくれる仕組みがあると楽にタグ検索を実現できます。 ただ、単純な形態素解析で名詞をタグとすると、ゴミが多くなってしまいます。 そこで、今回は、日本語処理ライブラリであるGiNZAの固有表現抽出機能とElast
サジェストは、優れた検索エクスペリエンスにおける重要な要素です。一方で、この機能は一部の言語では実装が難しい場合があり、日本語もそのような言語の1つです。このブログでは、日本語のサジェスト機能を実装する際の課題と、Elasticsearchを使用してこれらの課題を克服する方法をご紹介します。 日本語のサジェストの特徴次の図にはGoogleの日本語サジェスト候補を表示しています。この例では、キーワードは「日本」です。 日本語のサジェスト機能の実装が英語よりも困難であることには、いくつかの要因があります。 単語の区切りがわかりにくいサジェストの機能を実装するには、単語を分割するためのアナライザーが必要です。英語を含む大半のヨーロッパ言語では、単語がホワイトスペースで区切られるため、容易に文章を単語に分割できます。しかし、日本語では個々の単語をホワイトスペースで分割することはありません。そのため
こんにちは。ZOZO研究所の山﨑です。 ZOZO研究所では、検索クエリのサジェスト(以下、サジェスト)や検索後のアイテムの並び順といったZOZOTOWNでの検索改善にも取り組んでいます。 本記事では、ZOZOTOWNにおける実例を交えながら、サジェストの改善方針についてご説明します。 目次 目次 一般的なサジェストの概要 サジェストの分類 サジェストの評価指標 ZOZOTOWNでのサジェストの改善 サジェスト改善のサイクル 1. サジェスト改善方針の仮説 2. KPIの策定 3. サジェストの改善施策 4. ABテストの実施 まとめと今後の改善案 おわりに 一般的なサジェストの概要 はじめに、一般的なサジェストの分類や評価指標を説明します。 サジェストの分類 サジェストとは、検索窓にキーワードが入力された際に関連するクエリを表示する機能を指します。また、本記事ではサジェストに候補として表れ
Photo by LyftBy Stefan Zier and Vinay Kakade IntroductionAt Lyft, we use an in-house Feature Service to store batch and streaming features used by ML models, making them accessible in both offline mode (for training) and online mode (for inference). The service replicates these features in Elasticsearch to enable advanced queries. For Growth products, we use Elasticsearch to power internal tools l
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く