タグ

2023年10月4日のブックマーク (8件)

  • Elasticsearchで日本語検索を扱うためのマッピング定義 - ZOZO TECH BLOG

    こんにちは、検索基盤部 検索基盤ブロックの渡です。私は検索基盤ブロックで、主にZOZOTOWNの検索周りのシステム開発に従事しています。 以前の記事では、Elasticsearchのマッピング設定の最適化について取り上げました。そして、今回は日語による形態素解析を実現するまでの手順をご紹介します。 techblog.zozo.com 目次 目次 はじめに Elasticsearchで全文検索を実現させる手順 全文検索のためのマッピング定義 Analyzerの構造 日語対応のAnalyzer 日語対応のためのプラグイン追加 kuromoji Analyzerを指定したマッピング定義の例 kuromojiプラグイン機能 カスタムしたAnalyzerのマッピング定義 Analyzerの動作確認 modeを選択した場合のマッピング定義の例 Analyzer適用の注意点 kuromoji以外の

    Elasticsearchで日本語検索を扱うためのマッピング定義 - ZOZO TECH BLOG
  • kuromoji | Atilika

    Kuromojiは下記の機能を持った、使い勝手のいい自己完成型の日形態素解析エンジンです。 単語の分割。文章を形態素と呼ばれる単語に分割します。品詞タグ付け。単語を名詞、動詞、助詞、形容詞などに分けます。基形抽出。活用の動詞、形容詞から辞書の基形の見出しを抽出します。読み方。漢字の読み方を抽出します。他の機能はあります。詳細は各辞書のToken classをご参照ください。 実用例この例では、Kuromojiの簡単な使い方を表示しています。 入力文章を形態素に分割してからそれぞれの形態素のフィーチャーを出力します。 1package com.atilika.kuromoji.example; 2 3import com.atilika.kuromoji.ipadic.Token; 4import com.atilika.kuromoji.ipadic.Tokenizer; 5imp

  • Elasticsearchで日本語のサジェストの機能を実装する

    サジェストは、優れた検索エクスペリエンスにおける重要な要素です。一方で、この機能は一部の言語では実装が難しい場合があり、日語もそのような言語の1つです。このブログでは、日語のサジェスト機能を実装する際の課題と、Elasticsearchを使用してこれらの課題を克服する方法をご紹介します。 日語のサジェストの特徴次の図にはGoogleの日語サジェスト候補を表示しています。この例では、キーワードは「日」です。 日語のサジェスト機能の実装が英語よりも困難であることには、いくつかの要因があります。 単語の区切りがわかりにくいサジェストの機能を実装するには、単語を分割するためのアナライザーが必要です。英語を含む大半のヨーロッパ言語では、単語がホワイトスペースで区切られるため、容易に文章を単語に分割できます。しかし、日語では個々の単語をホワイトスペースで分割することはありません。そのため

    Elasticsearchで日本語のサジェストの機能を実装する
  • How to implement Japanese full-text search in Elasticsearch

    全文検索は一般的に知られていますが、検索エクスペリエンスで非常に重要な役割を果たしています。ただし、日語など、一部の言語では、全文検索を実装するのが難しい場合があります。このブログでは、日語で全文検索を実装する際の課題を探り、Elasticsearchでこれらの課題を解決する方法をいくつか示します。 全文検索とは? Wikipediaより、下記が定義となります。 全文検索とは、コンピュータにおいて、複数の文書(ファイル)から特定の文字列を検索すること。「ファイル名検索」や「単一ファイル内の文字列検索」と異なり、「複数文書にまたがって、文書に含まれる全文を対象とした検索」という意味で使用される。 全文検索は、現在多くのデジタル体験を強化するものです。全文検索は、データセット内に隠れている可能性のある単語やフレーズを見つけようとしてくれます。例えば、ネットショッピングして「phone」を検

    How to implement Japanese full-text search in Elasticsearch
  • Apache ベースの HTTP クライアントの設定 - AWS SDK for Java 2.x

    翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。 Apache ベースの HTTP クライアントの設定 AWS SDK for Java 2.x の同期サービスクライアントは、デフォルトで ApacheHttpClient という Apache ベースの HTTP クライアントを使用します。SDK の ApacheHttpClient は ApacheHttpClient をベースにしています。 SDK には URLConnectionHttpClient も用意されており、ロードは速くなりますが、機能が少なくなっています。UrlConnectionHttpClient の設定の詳細については、「URLConnection ベースの HTTP クライアントを設定する」を参照してください。 ApacheHttpCli

    yggdra_w
    yggdra_w 2023/10/04
  • OpenSearch: everything you need to know for the perfect setup

  • Elasticsearchによる出前館店舗検索機能のパフォーマンス改善

    LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは。LINE Growth Technologyの宇都宮です。現在は出前館に出向して、主に出前館のコンシューマ向けアプリケーションのAPI開発を担当しています。 私が出前館の開発に携わり始めたのは昨年(2020年)の夏でした。当時、懸案事項となっていたのがメインDB(Oracle)の高負荷です。出前館のメインDBはオンプレミスで構築されており、スケールアップもスケールアウトも難しい状況にありました。 そこで、データ参照用DB(PostgreSQL)をAWSに構築し、データ取得のみ行うAPI(参照系API)のDBアクセスを参照用DBに向ける、というプロジェクトが発足しました。このプロジェクトについては、出前館のエンジニア

    Elasticsearchによる出前館店舗検索機能のパフォーマンス改善
  • Guide to Elasticsearch in Java | Baeldung