並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 63件

新着順 人気順

search_engineの検索結果1 - 40 件 / 63件

search_engineに関するエントリは63件あります。 検索searchAI などが関連タグです。 人気エントリには 『ChatGPTに自社データを組み込んで新しい検索体験を模索してみました|masa_kazama』などがあります。
  • ChatGPTに自社データを組み込んで新しい検索体験を模索してみました|masa_kazama

    イントロChatGPTやBing、NotionAIなどの大規模自然言語モデル(LLM)を活用したサービスが注目を集めています。対話、要約、翻訳、アイデア生成などの多様なタスクにおいて、とても性能が高いです。ただ、ChatGPTでは、ときどき嘘が混じっていたり、文献が捏造されたりすることがあります。 ChatGPTとの対話画面(結果の書籍は存在しない)それを防ぐために、BingやPerplexityでは、文献を引用した上で、なるべく嘘が紛れ込まない形で回答してくれます。 Perplexityでは引用もつけてくれるしかし、これらのAIは、Web上の公開されている一部のデータを元に学習しているので、公開されてないデータに対しては当然ながら、正しく回答できません。 そこで、この記事では、自社が保有しているデータをChatGPTに組み込んで、自社オリジナルのPerplexityのようなシステムを作る

      ChatGPTに自社データを組み込んで新しい検索体験を模索してみました|masa_kazama
    • Perplexity

      Upgrade for image upload, smarter AI, and more Pro Search.

        Perplexity
      • 2022 年に学んで良かった技術

        雑に書いていきます。 バックグラウンド自分のバックグラウンドスキルは以下の通り。専門はリアルタイムな通信プロトコルを利用したサーバーの設計と開発とマーケティング。 Erlang/OTPWebRTCEnd to End Encryption細かいのはこちら。 SQLGo で sqlc を使うために学ぶことにした。sqlc を採用したのは複数人数で開発するときの共通言語としては SQL の方がいいだろうというのと、SQL はどんなデータを持たせたいのかを伝えるのに便利と判断したため。 今までずっと通信系ミドルウェアの開発をしてきたこともあって SQL を学ぶ必要が無かったが、今回いい機会なのでちゃんと学ぶことにした。 まずは利用データベースを完全にしぼって TimescaleDB (PostgreSQL ベース) で利用する SQL だけを学ぶことにした。 書籍は元 SIer のガチ SQL

        • 人気順検索のSolrはスケールのためにディスクを捨てた - クックパッド開発者ブログ

          技術部クックパッドサービス基盤グループの id:koba789 です。 昨年まではデータ基盤グループというところで 最新のログもすぐクエリできる速くて容量無限の最強ログ基盤 を作ったりしていました。 今年はちょっとチームを移動しまして、検索システムをいじっていました。今回はそのお話です。 なお、クックパッドには様々な検索システムがありますが、この記事では説明を簡単にするためにレシピの検索のみに焦点をあてています。 クックパッドの検索システムにあった課題 クックパッドにはレシピを検索できる機能があります。 プレミアム会員限定の人気順検索もこの機能の一部です。 しかし、この重要な機能を支える検索システムにはいくつもの課題がありました。 Solr が古すぎる クックパッドでは、レシピ検索を含む多くの検索機能にSolrを用いています。 今年の始めに私がこの課題に取り組み始めた時点では、その Sol

            人気順検索のSolrはスケールのためにディスクを捨てた - クックパッド開発者ブログ
          • ChatGPTを使った社内ドキュメントを読み込んで回答できるアシスタントBotを作りました!|howdy39

            ※2023.04.25 予想以上に見られているので追記 ChatGPTはAPIでの利用なので学習はされません。また入れてる情報は社内のだれでも見れてよい情報に留めており、顧客情報を始めとした個人情報などは一切含めていません。STORES サービスに関わる情報も含んでおりません。 入れているのは社内業務における経費精算などの各種申請の手順、オフィスの利用ルール、福利厚生の解説などに限定されています。 この記事は STORES PX Advent Calendar 2023 Spring 16日目の記事です こんにちは!STORES のPX部門IT本部でマネージャーをしている@howdy39です。 先日、社内向けにChatGPTを使ったアシスタントBot(Slack Bot)を開発しリリースしたのでそのご紹介記事になります。 リリースアナウンスのSlackメッセージどんなBOT?STORES

              ChatGPTを使った社内ドキュメントを読み込んで回答できるアシスタントBotを作りました!|howdy39
            • GPT-3を使って根拠付きで正確に質問応答してくれるシステムを作ってみる - Taste of Tech Topics

              こんにちは。社内データサイエンスチームYAMALEXの@Ssk1029Takashiです。 最近はChatGPTが出て注目を浴びたり、BingにもChatGPTのように質問応答してくれるAIが搭載されるなど、OpenAIのGPTモデルが世の中を騒がせています。 私もChatGPT使ってみましたが、受け答え自体は人が書いていた文章と遜色なく、文章の自動生成もここまで来たか。。という感じでした。 そんなChatGPTの特徴の一つとして、回答には時々嘘が含まれるというものがあります。 ChatGPT自体は知識を持っているわけではないので、学習データにないことなどはそれっぽいけどでたらめな回答を返してしまいます。 ただし、最近追加されたBingのGPTでは、ChatGPTよりもはるかに正確な回答が返ってくるように感じます。 画面を見ると回答の根拠となっている詳細情報が出ています。 ここから推測する

                GPT-3を使って根拠付きで正確に質問応答してくれるシステムを作ってみる - Taste of Tech Topics
              • オンラインドキュメントと日本語全文検索

                自社では Sphinx というドキュメントツールを利用しているのですが、残念ながらこれに付属している検索機能の日本語検索はかなり厳しいです。また残念ながら Sphinx 開発側も検索周りを改善するという予定は直近ではないようです。 そして検索というのはとても難しい技術なため自分のような素人では導入して「普通に期待する動作」をさせるまでの距離はとても遠いです。 ただ、なんとかして日本語全文検索を実現したいという思いはここ10 年くらいずっと思っていました。これは自社の Sphinx テーマを作ってくれている社員ともよく話をしていたのですが、どうしてもリソースをつぎ込めずにいました。 まとめ日本語検索に対応している Meilisearch を採用したドキュメントスクレイパーの実行は GItHub Actions (Self-hosted Runner) を採用した自社 Sphinx テーマの検

                  オンラインドキュメントと日本語全文検索
                • 検索エンジン自作入門 Go Conference 2021 Spring

                  Go Conference 2021 Springの登壇資料です アウトライン 1. 検索エンジンとは ~ 一般的な検索エンジンの仕組みと構成要素 2. 自作した検索エンジンの紹介 ~ 具体的に自作した検索エンジンの構成要素と動作例 3. 自作した検索エンジンの実装 ~ アルゴリズムとデータ構造、ライブラリ 4. おわりに ~ 検索エンジンを自作した感想

                    検索エンジン自作入門 Go Conference 2021 Spring
                  • 静的サイトに特化した全文検索ライブラリ「Pagefind」、さくらのレンタルサーバで動かしてみた

                    先日、静的サイトに特化した全文検索ライブラリとして「Pagefind」というソフトウェアがあることを、下記の記事が話題になったことで知りました。 参考:静的サイトに特化した検索ライブラリ Pagefind を試す | grip on minds 実は、いまお読みのPublickeyはまさに、Movable TypeというCMSを用いて生成された静的なWebサイトです。現在、PublickeyではGoogleが提供している「Googleカスタム検索エンジン」を全文検索エンジンとして採用しています(右上の虫眼鏡アイコンから呼び出せます)。 しかしPublickeyでは以前からGoogleに依存しない、自前の全文検索エンジンを持てないかと模索しており、まさにPagefindは私が探し求めていたソフトウェアだったと言えます。 そこでさっそくPagefindがPublickeyに導入できるかどうか、

                      静的サイトに特化した全文検索ライブラリ「Pagefind」、さくらのレンタルサーバで動かしてみた
                    • GPT-3.5-turboの新機能を使ってCVPRの論文を良い感じに検索・推薦・要約するシステム

                      はじめに 5月からTuringに中途入社した棚橋です。リクルートで広告配信システムの開発や量子アニーリングに関する研究開発に関わっていました。現在、Turingのリサーチチームで完全自動運転システムの研究開発に取り組んでいます。 3行でまとめ 今月開催されるCVPR2023では約2400本もの論文が発表されるため、見るべき論文を事前に検索しておきたい。 社内で行われた大規模言語モデル(LLM)ハッカソンをきっかけに、LLMのEmbeddingを用いて論文の「検索・推薦・要約」システムを作成し公開した。 検索クエリに文章を使った曖昧な検索が行えたり、類似論文の推薦ができる。6/13にアップデートされたGPT3.5の新機能であるファンクション機能を使うことで、複数観点に分けて研究内容の要約を出力させた。 ↓ 今回作成した、LLMを使ったCVPR論文検索システム 事の発端 Turingは、ハンド

                        GPT-3.5-turboの新機能を使ってCVPRの論文を良い感じに検索・推薦・要約するシステム
                      • GitHub - openai/chatgpt-retrieval-plugin: The ChatGPT Retrieval Plugin lets you easily find personal or work documents by asking questions in natural language.

                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                          GitHub - openai/chatgpt-retrieval-plugin: The ChatGPT Retrieval Plugin lets you easily find personal or work documents by asking questions in natural language.
                        • Elasticsearch における類似度ベクトル検索のベストプラクティスを求めて/es-vector-search

                          Cookiecutter Template for Data Scientists Working in Docker Containers

                            Elasticsearch における類似度ベクトル検索のベストプラクティスを求めて/es-vector-search
                          • ZOZOTOWNにおける検索速度改善までの道のり - ZOZO TECH BLOG

                            こんにちは。ZOZOテクノロジーズZOZOTOWN部 検索チーム 兼 ECプラットフォーム部 検索基盤チームの有村です。 ZOZOTOWNでは先日公開した記事の通り、すべての検索をElasticsearchへ置き換えました。置き換え直後は順調に見えたのですが、実際に数%ずつリリースしていく中で一部時間帯、一部リクエストでレスポンス速度の低下がみられました。 本記事ではその解決のために行ったパフォーマンス調査、チューニング方法についてご紹介します。なお、一般的に行われるであろうElasticsearch本体のパラメータチューニングの話ではなく、クエリやmapping、setting面の話がメインとなります。 改善前後の速度について 詳細な内容の前に、本改善によるレスポンス速度の最終的な改善結果を示します。 今回の計測では、一定パターンのリクエストを10秒間繰り返し、95%tileのレスポンス

                              ZOZOTOWNにおける検索速度改善までの道のり - ZOZO TECH BLOG
                            • セマンティック検索の活用で、Elasticsearchの検索が根本的に変わる!? - Taste of Tech Topics

                              こんにちは、@shin0higuchiです😊 業務では、Elasticsearchに関するコンサルティングを担当しています。 最近すっかり春らしく、暖かくなってきました。 新年を迎えたばかりの感覚でしたが、あっという間に時が経ちますね。 さて、今回の記事では、Elasticsearchの検索を根本的に変える可能性を秘めたセマンティック検索に関して書かせていただきます。 概要 Elasticsearchは元々、キーワードベースのアプローチを主に取っており、クエリで指定されたキーワードを対象のドキュメント内で検索し、それらの出現頻度や位置に基づいて結果をランク付けしています。この方法では、文脈や意図に関係なく、単純にキーワードの一致度に基づいて検索結果が返されます。 一方、セマンティック検索とは、ユーザーのクエリの背後にある文脈と意図を理解しようとする検索手法で、キーワードだけに頼るのではな

                                セマンティック検索の活用で、Elasticsearchの検索が根本的に変わる!? - Taste of Tech Topics
                              • Elasticsearchで作るメディアサイト

                                体験メディアサイトYOKKA (よっか) のES活用例紹介 第41回Elasticsearch勉強会 2021.04.22 #elasticsearchjp

                                  Elasticsearchで作るメディアサイト
                                • 10X の検索を 10x したい - 10X Product Blog

                                  いやー、まいったね。 入社して三ヶ月が経ちました @metalunk です。この三ヶ月は検索インフラの改善に取り組み、検索速度 10x, インフラコスト 80% 減の成果が出ました。この記事では検索インフラ改善でやったことを説明します。 ところで、検索インフラの改善ができるということは、先人たちが検索機能を作り、PMF してサービスが利用されるようになったおかげです。感謝して改善しましょう。 2021年12月の Stailer の検索 10X は開発不要でネットスーパーアプリを立ち上げられるシステムである Stailer を開発しております。Stailer での購入のうち 35% が検索経由で行われており、検索はとても重要な機能です。 しかし、2021年12月、増加するリクエストによるサーバー負荷の増大、速度の低下に悩まされておりました。一時的にサーバーを増やし、スケールアウトをすることで

                                    10X の検索を 10x したい - 10X Product Blog
                                  • An important next step on our AI journey

                                      An important next step on our AI journey
                                    • 大規模言語モデルの知識を補完するための Retriever の紹介 - ACES エンジニアブログ

                                      こんにちは、株式会社ACESでインターンをしている篠田 (@shino__c) と申します。普段は博士課程の学生としてNLPの研究をしています。 ここ数ヶ月で ChatGPT に加えて GPT-4 等の大規模言語モデル (LLM) が次々とリリースされていますね。 ChatGPT (gpt-3.5-turbo) はAPIの使用料が安いことから、多くの人が気軽にLLMを使用できるようになり、AI、特にNLPを売りにしている多くの企業は技術的にどうやって競争優位性を築けばいいのか模索しているのではないでしょうか。 その問いに対する1つの答えになりそうなものに、Retriever というものがあります。 例えば、社内にある外部には出せない文書を元に顧客からの質問に答える質問応答のサービスを作りたい場合、ChatGPT のような LLM の訓練にはそのようなデータは使われていないため、prompt

                                        大規模言語モデルの知識を補完するための Retriever の紹介 - ACES エンジニアブログ
                                      • Elasticsearchで分散表現を使った類似文書検索

                                        概要 Elasticseachに分散表現のベクトルに対する類似文書検索が実装されたということで、以下のElasticのブログ記事を参考に類似文書検索を試してみました。 Text similarity search in Elasticsearch using vector fields | Elastic Blog 類似文書検索とは、与えられたクエリの文書と似ている文書を文書集合内から検索する技術です。この際に必要となるのが「似ている」という概念で、計算機上でどうやって2つの文書間の類似度を数値として表現するかがポイントになります。例えば、互いの文書に出現する単語の一致度や重複度合いを測ったり、TF-IDFやBM25などで文書をベクトル化して比較する方法があります。ただしこれらの方法では、言い換え表現や表記の違いにより同じ意味の単語が異なる単語だと判定されたり、文書の中では重要でない単語に

                                          Elasticsearchで分散表現を使った類似文書検索
                                        • ファッションにおける類似商品検索アルゴリズムの性能評価 - DROBEプロダクト開発ブログ

                                          概要 背景・目的 実験 実験の概要 定量評価 定性評価 おわりに 参考文献 DROBEで機械学習エンジニアをしております、藤崎です。 概要 類似商品検索の基盤となる複数の特徴抽出アルゴリズムについて、DROBEの保有するデータで評価した 定量評価によると、画像単体を入力とする ResNet-50(自己教師あり学習)とCLIPの性能が高かった 定性評価によって、取り扱うモーダルの違いによる各モデル出力の顕著な差異が確認できた 背景・目的 小売において、商品の在庫は無数に存在しています。そのため、消費者やサービス提供者が商品に紐づく情報(画像、商品の説明文など)を解釈して、特定の商品と類似したアイテムを人手で行うのは困難です。 この課題を解決するために、機械学習手法の活用が注目されています。 機械学習を用いた処理の流れは、 商品に紐づく情報を適切に 「要約」 し、 1.で 「要約」 した商品情

                                            ファッションにおける類似商品検索アルゴリズムの性能評価 - DROBEプロダクト開発ブログ
                                          • ElasticsearchとKubernetesの組み合わせはかなりいい LegalForceの検索インフラ運用法と活用法

                                            リーガルテック領域のリーディングカンパニーである株式会社LegalForceが、「検索インフラTechTalk!」を開催しました。インフラ領域の中でも「検索インフラ」にフォーカスした今回は、検索インフラに関する具体的な事例や取り組みについて各スピーカーから発表がありました。浜地亮輔氏は、LegalForce社における全文検索インフラ活用事例について話しました。 株式会社LegalForceのSREチームメンバー 浜地亮輔氏(以下、浜地):浜地から発表します。最近風邪気味で、咳き込むことがあるかもしれません。お聞き苦しいところ大変恐縮なんですが、ご了承ください。 まず自己紹介です。浜地亮輔と申します。2020年9月に株式会社LegalForceにジョインして、SRE(サイト・リライアビリティ・エンジニアリング)で仕事をしています。Twitterでは、@aibouというIDで日々活動しています

                                              ElasticsearchとKubernetesの組み合わせはかなりいい LegalForceの検索インフラ運用法と活用法
                                            • Elasticsearchを理解するためにLuceneを使った検索エンジン構築に入門してみた - 好奇心に殺される。

                                              Java / Lucene / Elasticsearch Elasticsearchを理解するためにLuceneを使った検索エンジン構築に入門してみた Elasticsearchを理解する為にLuceneに入門しました。今回は簡単な検索エンジンを構築します Overview こんにちは pon です。Elasticsearchで思わぬ挙動にでくわすと、Javaすらやったことのない僕に出来ることはネットの海を彷徨うだけでした。これはよくないと思い、Elasticsearchの仕組みをある程度理解できるように Lucene に入門しました。今回はLuceneのパッケージを利用して簡単な検索エンジンを動かしてみようと思います。Elasticsearch内部でどのようにLuceneを使っているのか知りたい人は必見です。 Lucene とは https://lucene.apache.org/ E

                                                Elasticsearchを理解するためにLuceneを使った検索エンジン構築に入門してみた - 好奇心に殺される。
                                              • 検索基盤を安全にElasticsearchに置き換えるためにやったこと

                                                Feature Toggleとダークローンチで安全にElasticsearchクラスタをリリースした話。

                                                  検索基盤を安全にElasticsearchに置き換えるためにやったこと
                                                • Webからのデータ収集の入門書としておすすめ「Pythonクローリング&スクレイピング[増補改訂版]」 - Sansan Tech Blog

                                                  こんにちは。 DSOC R&D グループの高橋寛治です。 つい先日に同僚の加藤が執筆した書籍「Pythonクローリング&スクレイピング[増補改訂版]―データ収集・解析のための実践開発ガイドー」の改訂版が発売されました。 gihyo.jp 私が業務でPythonを用いたクローリングおよびスクレイピングに取り組んでいることもあり、改訂版のレビューをさせていただきました。 実は、初版は読んで実践させていただいていたため、レビュー依頼を受けた際には感激しました(本当にお世話になっている本です)。 読んでいて私自身非常に勉強になった点が多く素直に良い本だと思ったため、本書籍の紹介をさせていただきます。 書籍の概要 Unix コマンドによるクローリングの基礎から始まり Python を用いた実践的なクローリング・スクレイピングなど様々なトピックに関して、豊富なサンプルコードとともに解説されています。

                                                    Webからのデータ収集の入門書としておすすめ「Pythonクローリング&スクレイピング[増補改訂版]」 - Sansan Tech Blog
                                                  • 協調フィルタリングとベクトル検索エンジンを利用した商品推薦精度改善の試み | メルカリエンジニアリング

                                                    こんにちは、メルカリのレコメンドチームで ML Engineer をしている ML_Bear です。 以前の記事 [1] では、item2vecと商品メタデータを用いた、メルカリのホーム画面のレコメンド改善のお話をさせていただきました。今回は商品詳細画面でレコメンド改善を行ったお話をさせていただきます。商品詳細画面の例は図1の通りです。ユーザーはアイテムの詳細な説明を見たいときにこの画面に来訪するため、同様の商品を推薦する自然な接点として非常に重要です。 まず、私たちが商品詳細画面で行った改善の概要を示します。各部の詳細については次節以降で詳しく触れます。 日本有数の大規模ECサービスにおいてベクトル検索ベースの商品推薦アルゴリズムを実装し、推薦精度の大幅な改善を実現しました。 協調フィルタリングとニューラルネットワーク (以下、NN) を利用した商品推薦アルゴリズムを構築し、コールドスタ

                                                      協調フィルタリングとベクトル検索エンジンを利用した商品推薦精度改善の試み | メルカリエンジニアリング
                                                    • OSSベクトルDBのChromaを使ってQ&AボットをLangChainで作成する|mah_lab / 西見 公宏

                                                      新興で勢いのあるベクトルDBにChromaというOSSがあり、オンメモリのベクトルDBとして気軽に試せます。 LangChainやLlamaIndexとのインテグレーションがウリのOSSですが、今回は単純にベクトルDBとして使う感じで試してみました。 データをChromaに登録する今回はLangChainのドキュメントをChromaに登録し、LangChainのQ&Aができるようなボットを作成しようと思います。 しかしLangChainのドキュメントはほとんどがJupyter Notebook形式なので、ベクトルDBへ取り込みやすいようにフラットテキストにしてあげる必要があります。 以下の関数はJupyter Notebook形式(JSON)のファイルを分解してMarkdown形式に変換し、その後Unstructured.ioのMarkdownスプリッタを利用してコンテンツをチャンクに分割

                                                        OSSベクトルDBのChromaを使ってQ&AボットをLangChainで作成する|mah_lab / 西見 公宏
                                                      • 社内文書検索&QAシステムの RAG ではないところ - Algomatic Tech Blog

                                                        こんにちは。NEO(x) 機械学習エンジニアの宮脇(@catshun_)です。 RAG システムの開発、いざ業務に統合するとなると結構大変ですよね。 構築してみたがユーザ数が伸びず、、なんてことはよくあると思います。 実際こんな記事も話題になりましたね。 本記事では、コラムとして RAG システムの設計で考慮したい点を自戒を込めて記述したいと思います。 誤っている記述等もあると思いますが、本記事を読んだ方の議論のネタになってくれれば幸いです。 また Retrieval-based LM の技術的な話は、以下で触れておりますので併せてご覧ください。 RAG とは RAG (Retrieval-Augmented Generation) とは、社内文書・長期記憶に該当する対話履歴・API 仕様書などの 外部知識資源 を、言語モデルが扱えるよう入力系列に挿入する手法です。もともと Lewis+'

                                                          社内文書検索&QAシステムの RAG ではないところ - Algomatic Tech Blog
                                                        • Your Personalized AI Assistant.

                                                          Conversational and continuously learning, You.com enhances web search, writing, coding, digital art creation, and solving complex problems.

                                                            Your Personalized AI Assistant.
                                                          • ZOZOTOWN検索におけるA/Bテスト分析の自動化の取り組み - ZOZO TECH BLOG

                                                            はじめに こんにちは。検索基盤部の岩崎です。検索基盤部ではZOZOTOWNの検索機能の改善に日々取り組んでいます。ZOZOTOWNのおすすめ順検索のプロジェクトでは、機械学習モデルを活用した検索結果の並び順の改善に取り組んでおり、全ての施策はA/Bテストで検証しています。なお、最近の並び順精度改善の取り組みについては以下の記事をご参照ください。 techblog.zozo.com 本記事におけるA/Bテストとは、特定期間中ランダムに振り分けたユーザーに対してそれぞれ別の施策を提示し、その成果の差を検定するテストのことを指します。A/Bテストは施策の効果を検証するための優れた手段として広く知られており、おすすめ順検索改善のリリース判断には欠かせない存在となっています。ZOZOではA/Bテスト基盤の整備を進めており、おすすめ順検索以外にもさまざまな施策でA/Bテスト基盤を用いた運用がされていま

                                                              ZOZOTOWN検索におけるA/Bテスト分析の自動化の取り組み - ZOZO TECH BLOG
                                                            • SVMを使った類似 embeddings 検索 - kNN ではない類似検索の選択肢 - A Day in the Life

                                                              LangChain v0.0.141 に SVM Retriever という実装が入った。これは embeddings(集合)から、単一 embedding と類似しているもの top-K を SVM を使って見つけるという実装で、えっどうやってるの?と追っかけてみたら、知らない知識で面白かったのでメモ記事に。 kNN vs SVM この実装の元となった、knn_vs_svm.ipynbというnotebookがあって、冒頭を機械翻訳すると以下となる。 よくあるワークフローは、あるデータを埋め込みに基づいてインデックス化し、新しいクエリの埋め込みがあれば、k-Nearest Neighbor検索で最も類似した例を検索することです。例えば、大規模な論文コレクションをその抄録に基づいて埋め込み、興味のある新しい論文を与えると、その論文に最も類似した論文を検索することが想像できます。 私の経験では

                                                              • 10X の検索を 10x したい パートII - 10X Product Blog

                                                                今 Q もお疲れさまでした!10X の @metalunk です. 3ヶ月前に 10X の検索を 10x したい というブログを書きました.その記事にあるとおり,1-3月で検索インフラの改善を実施し,検索速度 10x, インフラコスト 80% 削減という成果をあげました.そして,直近の3ヶ月では検索精度の改善に取り組みました.この記事では今 Q にリリースした機能と,それぞれの効果を説明します. 長い記事になったので飛ばし飛ばし読んでください. どんな Q だったか KPI の変化 Zero match rate Conversion rate リリースした機能 検索キーワードサジェスト システム概要 評価 カテゴリフィルタ 並び順の改善 評価 bigram 解説 評価 シノニム辞書を Search time に展開 解説 イベントログからシノニムルールの生成 解説 改善の背景 KPI D

                                                                  10X の検索を 10x したい パートII - 10X Product Blog
                                                                • 日経のデータベース事業を支える検索基盤の現在と未来

                                                                  以下のイベントでの登壇資料です。 https://nikkei.connpass.com/event/278034/

                                                                    日経のデータベース事業を支える検索基盤の現在と未来
                                                                  • Twitter の検索システムを学ぶ - 概要編

                                                                    2023-04-17 Twitter’s Recommendation Algorithm Elon Mask が以前から計画していた、Twitter の検索&推薦関連のシステムが GitHub で公開された。 良い機会なので、いままでの Twitter 検索の記事をまとめつつ、コードも読んでみます。 単発の記事でまとめようとするとドデカ記事になってしまうので、一連の記事を通じて Twitter の検索システムを学んでいきたいと思っており、以下の構成で進めていく。 概要編論文解説コードを読んでみたTwitter’s New Search Architecture 2010-10-06 公開 この時期に新しいアーキテクチャに移行MySQL による検索から Lucene による検索へ移行要件1000 tweets/sec12000 queries/sec1 billion queries /

                                                                      Twitter の検索システムを学ぶ - 概要編
                                                                    • ChatGPT Retrieval Pluginに任意のベクトル検索エンジンProviderを実装する - エムスリーテックブログ

                                                                      Overview エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。検索とGoが好きです。 エムスリーではChatGPTの可能性にいち早く注目して活用を検討している段階ですが、本格的なデータ投入にはまだ懸念もあり、セキュリティチームと検討を進めている段階です。 そんな中で個人または組織のドキュメントのセマンティック検索と取得を可能にするChatGPTプラグイン「ChatGPT Retrieval Plugin」が登場しました。 github.com 情報検索好きとしては黙っていられず、外部公開用のエムスリーAI・機械学習チームのメンバー紹介ドキュメントを使ってローカルで試してみました。 # 用意したドキュメント 中村弘武は東京都在住で、エムスリーという企業で働いでいます。 エムスリーの検索基盤を主に担当しています。また、書

                                                                        ChatGPT Retrieval Pluginに任意のベクトル検索エンジンProviderを実装する - エムスリーテックブログ
                                                                      • 検索エンジンのMore-Like-Thisクエリとグラフアルゴリズムによる類似記事集約

                                                                        本記事は Grouping Similar Articles with Search Engine More-Like-This Queries and Graph Algorithms の翻訳記事です。以前の記事である More Like This Query を活用した類似記事集約 入門 から、より踏み込んだ内容になっています。 はじめにストックマークでは、毎日数千のメディアから数万件のニュース記事を収集しています。そのときに、異なるメディアから類似した内容の記事がクロールされることもあります。その一方で、これらの内容の重複した記事をそのままユーザに表示してしまうと、ユーザの情報収集体験を損ねてしまう可能性があります。そのため、ストックマークのプロダクトであるAnewsので記事推薦や、Astrategyでの事業活動比較などのニュース分析サービスにおいて、より良いユーザー体験を提供するた

                                                                          検索エンジンのMore-Like-Thisクエリとグラフアルゴリズムによる類似記事集約
                                                                        • 分散密ベクトル探索エンジンValdとSentence-BERTを使った類似文書検索を試す - エムスリーテックブログ

                                                                          エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。 好きな言語はGo。仕事では主に検索周りを担当しています。 Overview 最近、社内で情報検索論文輪読会を立ち上げました。 情報検索論文読み会のスケジュール そこでNGT-ONNGについての論文*1を紹介したところ1時間の予定のところを盛り上がりすぎて2時間超えてしまいました。 大盛り上がりのついでに、今回は情報検索論文輪読会で紹介した近似最近傍探索ライブラリNGTを内部で利用するValdを使って、類似文書検索がどのように出来るのか、現状の問題を解決できるのかを試したのでその結果を報告します。 Overview 弊社が抱える類似文書検索の課題 Sentence-BERT Valdを使った近似最近傍探索 NGT Vald Vald×Sententce-BERTで類似文書

                                                                            分散密ベクトル探索エンジンValdとSentence-BERTを使った類似文書検索を試す - エムスリーテックブログ
                                                                          • [メモ]大規模言語モデル(LLM)のための文章検索に関する勉強・試行錯誤 | ドクセル

                                                                            Retrieve(検索)型のChatBot GPTに最近の情報や先端知識を覚えさせ、回答させるためのテクニック (Context learning, prompt tuning, …) 質問と類似度の高い データを検索して GPTに一次記憶させる GPTの記憶容量: 原稿用紙 数十枚程度 世の中のデータ: 超大量 3 Retrieve型で回答するChatBot 質問 猫の名前は何ですか? 期待する回答 猫の名前はありません。 文献情報を読み込んだ上で、GPTが回答 参考文献 1. 吾輩は猫である。名前はまだ無い。どこで生れたかとんと見当が つかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた 事だけは記憶している。 2. 彼等は我儘なものだと断言せざるを得ないようになった。ことに 吾輩が時々同衾する小供のごときに至っては言語同断である。 3. … 4 文献の検索方法 質問 猫の名前は

                                                                              [メモ]大規模言語モデル(LLM)のための文章検索に関する勉強・試行錯誤 | ドクセル
                                                                            • 人名とニックネームが混じった検索の改善 - エムスリーテックブログ

                                                                              エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。検索とGoが好きです。 今回は弊社で運用しているメンバーズメディアと言う医療系記事サービスの著者名検索を改善したお話をします。目新しいことはやってませんが、ちょっぴり特殊な対応なので共有します。 人名とニックネームが混じった検索とは 課題 解決方法 部分一致的な検索をする ひらがな/カタカナや小文字/大文字を寄せる 苗字+名前の間のスペースを全体で削除する スコアの調整 まとめ さらなる改善を行う場合 We're hiring! 人名とニックネームが混じった検索とは メンバーズメディアというサービスでは専門家が医師向けの記事を執筆しています。著者の中には人気の方もおり、ユーザーが著者の名前で検索されることもあります。 著者には人名(苗字+名前)の方もいればニックネームで登録

                                                                                人名とニックネームが混じった検索の改善 - エムスリーテックブログ
                                                                              • 検索におけるtypoへのアプローチ方法と検証結果の紹介 - ZOZO TECH BLOG

                                                                                はじめに こんにちは。検索基盤部の倉澤です。 検索機能におけるtypo(誤字脱字や綴り間違いなど)は難しい問題1とされています。typoの扱い方によってはユーザーに悪い検索体験を提供してしまう恐れがあります。例えば、typoを含む検索クエリを入力された時にユーザーが意図している検索結果を得ることができないといった問題があります。 例に漏れず、ZOZOTOWNでもtypoを含む検索クエリが入力された場合に検索結果が表示されないといった問題が発生しています。以下、「レディース」と入力するつもりが「レデース」と入力してしまった場合の検索結果です。 今回は日本語におけるtypoの一般的な解決策を調査・検証し、その結果・課題点を紹介します。手法の検証が容易であることを優先し、以下の2つの方法について検証しました。 Elasticsearchを用いてtypoを含む検索クエリでも検索結果を得る方法 ユー

                                                                                  検索におけるtypoへのアプローチ方法と検証結果の紹介 - ZOZO TECH BLOG
                                                                                • ZOZOTOWNの検索サジェスト機能改善の取り組み紹介 - ZOZO TECH BLOG

                                                                                  こんにちは。検索基盤部の倉澤です。 ZOZOTOWNには、ユーザーが検索クエリを入力した際に、入力の続きを補完したキーワードを提示するサジェスト機能があります。この機能は一般に「Query Auto Completion」と呼ばれ、素早くユーザーの検索を完了させることを目的としています。 検索基盤部では、ZOZOTOWNの商品検索だけではなくサジェスト機能の改善にも取り組んでいます。今回は近年実施したサジェスト機能の改善事例を紹介します。2年程前にまとめたサジェスト改善事例の記事も併せてご覧ください。 techblog.zozo.com 目次 目次 システム概要 インデキシングフェーズ 検索フェーズ 改善事例 ユーザーインタフェース サジェスト候補のハイライト サジェスト機能の視覚的な奥行き サジェスト候補のキーワード ブランド名やショップ名の表記揺れ 検索クエリの読み仮名と異なるサジェス

                                                                                    ZOZOTOWNの検索サジェスト機能改善の取り組み紹介 - ZOZO TECH BLOG

                                                                                  新着記事