タグ

*algorithmとsearchに関するsh19910711のブックマーク (209)

  • KDD2021論文読み会・Neural Instant Search for Music and Podcast

    sh19910711
    sh19910711 2025/11/19
    2021 / "ポッドキャストは1回限りの視聴がほとんど / 検索データ自体まだ少なく、単独で学習したモデルはベースラインに劣る / 音楽とポッドキャスト双方のデータで学習することによってそれぞれの検索精度向上を ~ "
  • Owl/Crow:ModernBERTをゼロから学習したコード検索特化モデル

    ※追記(2025/11/19) 記事タイトルをより内容に即したものへ変更しました トークナイザの構築に関するセクションを新たに追加しました 言い回しを少し修正しました はじめまして。 私は大学で コード特化言語モデルを利用したコード検索の研究を行っています。 概要 記事では、従来の CodeBERT / GraphCodeBERT 系モデルでは扱いづらかった 最大 512 トークンという入力長の制約 FlashAttention 非対応による学習・推論コストの高さ 事前学習・追加学習の再現性の低さ といった課題を踏まえつつ、ModernBERT アーキテクチャを用いてスクラッチ学習(ゼロから学習)からコード検索向けの埋め込みモデルを自作・公開するまでをまとめました。 具体的には、以下の点を中心に紹介します。 既存のコード特化言語モデル(CodeBERT / GraphCodeBERT 等

    Owl/Crow:ModernBERTをゼロから学習したコード検索特化モデル
    sh19910711
    sh19910711 2025/11/19
    "行単位のマスキング(Span Masking)を用いて継続事前学習 / 行レベルで文脈を落とす事前学習が検索性能を底上げ / StarCoder: GitHub 上の大規模コードをライセンス準拠で収集したデータセット"
  • "Item Recommendation from Implicit Feedback"の紹介 | | AI tech studio

    AILab Creative Researchチームの富樫です。 このブログでは先月末にarxivに投稿された“Item Recommendation from Implicit Feedback”[1]という論文を軸に紹介しつつ、 周辺分野の話題について議論したいと思います。 この論文はitem推薦というタスクにおける手法の各種パラダイムの概観をコンパクトに解説した教科書的内容になっています。 著者はBayesian Personalized Ranking (BPR)[2]を開発したGoogle Research所属のSteffen Rendle氏であり、 長年この分野を開拓してきた権威の一人です。 元論文の内容は元論文を読めばわかることですし、 蛇足かもしれませんが、最近の研究との関連性や議論、個人的な感想などを示すことで、このブログが元論文に対する補足資料のようになることを目指した

    "Item Recommendation from Implicit Feedback"の紹介 | | AI tech studio
    sh19910711
    sh19910711 2025/11/16
    2021 / "大規模かつone-classなデータを前提としたランキング学習のタスクにおいて、損失とサンプリング分布/重み関数を主役にして、高いランキング性能をスケールするアルゴリズムで達成するための様々な工夫がある"
  • 論文解説 IntentRec: Netflixにおける訪問意図を考慮したパーソナライズ推薦

    この記事は、Netflixが発表した推薦システムに関する手法 IntentRecについて解説します。 ユーザーが「今、何をしたいか」という意図を予測し、それを次の推薦アイテムの予測に活用する「階層的マルチタスク学習」のアーキテクチャを提案し、Netflixの実データでSOTA(最高性能)を達成した内容です。 この論文のすごいところ ユーザーの「次に何をしたいか」という意図 (例:新しい作品の発見、いつもの続きを視聴)を予測し、それを推薦に活かす新しい手法 IntentRecを提案しました。 「意図予測」→「アイテム予測」という階層的マルチタスク学習(Hierarchical-Multi-Task-Learning, 以下H-MTL)を採用しました。これにより、意図を予測するだけでなく、その予測結果を「特徴量」として次のアイテム推薦に利用することで、推薦精度を大幅に向上させた。Netflix

    論文解説 IntentRec: Netflixにおける訪問意図を考慮したパーソナライズ推薦
    sh19910711
    sh19910711 2025/11/16
    "同じ行動履歴を持っていても、ユーザーのその時々の「意図」によって、次に求めるアイテムは大きく異なる / IntentRec: 意図予測を先に行い、その結果をアイテム予測の入力とする + 短期的興味を別エンコーダでモデル化"
  • [CCSE] メルカリでのパーソナライゼーション機能の研究開発サイクル / CCSE2020-Pesonalization-Research-and-Development-Cycle

    CCSE2020 12月11日(金) 13:10~ A3会場

    [CCSE] メルカリでのパーソナライゼーション機能の研究開発サイクル / CCSE2020-Pesonalization-Research-and-Development-Cycle
    sh19910711
    sh19910711 2025/11/16
    2020 / "良い研究開発: 信頼性高い実験結果から大きな学び + 素早い検証から多くの実験を実施できる / 事前の実験設計を丁寧に行いチーム内でレビューすることで「仮説自体」と「実験プロセス」の品質を上げている"
  • 日経電子版におけるリアルタイムレコメンドシステム開発の事例紹介/nikkei-realtime-recommender-system

    日経電子版におけるリアルタイムレコメンドシステム開発の事例紹介/nikkei-realtime-recommender-system

    日経電子版におけるリアルタイムレコメンドシステム開発の事例紹介/nikkei-realtime-recommender-system
    sh19910711
    sh19910711 2025/11/16
    2024 / "閲覧記事に基づくレコメンド / オンボーディングにおける課題 + 新規ユーザー・アイテムはログが少なく効果的なレコメンドが難しい / クリック系列を学習するTwo Towerモデルを作成"
  • 日本語SPLADEモデルと学習コードのOSS公開

    はじめに こんにちは。株式会社ビズリーチの検索基盤グループで機械学習エンジニアをしているDatと申します。 求職者検索の高度化とセマンティック検索への挑戦 「ビズリーチ」では、企業と求職者との最適なマッチング機会を最大化するため、日々検索品質の向上に取り組んでいます。特に、求職者の職務経歴書や企業の求人票の複雑な内容を深く理解し、関連性の高い候補者を見つけ出すことは、プラットフォームのコアな課題です。この課題を解決するため、我々はセマンティック検索の開発を進めています。 セマンティック検索は、単語の一致だけでなく、意味的な類似性に基づいて結果を返す技術です。この技術のプロダクトへの展開において、我々は高精度かつ低レイテンシと高い解釈性というプロダクト要件を満たす検索モデルの採用が必要でした。その解決策として着目したのが、SPLADE (Sparse Lexical AnD Expansio

    日本語SPLADEモデルと学習コードのOSS公開
    sh19910711
    sh19910711 2025/11/15
    "従来のBM25のような語彙ベースの検索が持つ高速性と解釈性を保ちつつ、BERTによる意味的な拡張の恩恵を受ける / 入力されたテキストは元の単語だけでなく、関連する概念や同義語を含む疎ベクトルへと変換"
  • Item2vecを用いた商品レコメンド精度改善の試み | メルカリエンジニアリング

    こんにちは、メルカリのレコメンドチームで ML Engineer をしている ML_Bear です。 普段はメルカリのホーム画面などに表示されるレコメンドパーツの改善を担当しています。今回はメルカリの莫大なユーザーログデータと、出品された商品に付与されているメタデータ(詳細後述)を活用したレコメンドロジック改善事例をご紹介します。 商品メタデータについて メルカリではユーザーの商品検索体験を向上させるため、出品された商品に対して様々なメタデータを付与しています。ファッションアイテムだと色や生地感、家電だと型番といった、主として商品の属性をあらわす様々なデータをメタデータと呼称しています。 今回、私はやマンガに紐づいているメタデータ (以下、タイトルデータと記載) に着目しました。 メルカリアプリ内では、やマンガに商品が属するシリーズを表現するメタデータが付与されています。例えば「キング

    Item2vecを用いた商品レコメンド精度改善の試み | メルカリエンジニアリング
    sh19910711
    sh19910711 2025/10/25
    2022 / "ログとタイトルデータを突き合わせつつ、Item2Vecというレコメンドの手法を利用することでユーザーの興味にあった本やマンガのレコメンド / 膨大なログが日々蓄積されるサービスとは非常に相性がいい"
  • ウォンテッドリーにおける推薦システムのオフライン評価の仕組み

    第35回 MLOps 勉強会:https://mlops.connpass.com/event/297976/ ウォンテッドリーでは、多様なユーザーと会社の理想的なマッチングを実現するために、会社訪問アプリ「Wantedly Visit」の推薦システム開発に力を入れています。今回の発表では、推薦チ…

    ウォンテッドリーにおける推薦システムのオフライン評価の仕組み
    sh19910711
    sh19910711 2025/10/25
    2023 / "サービスで閲覧する募集の並び順は、推薦モデルの結果をそのまま返すのではなく、その上に何かしらの後処理を行った結果を返している / 実際にユーザーが見るものと異なる推薦結果を評価してしまっている"
  • UI/UXが無意識に検索行動に与える影響について

    検索技術勉強会「Search Engineering Tech Talk #1」でお話した内容です。 株式会社メルカリ Tairo Moriyama(森山 大朗) https://twitter.com/tairo

    UI/UXが無意識に検索行動に与える影響について
    sh19910711
    sh19910711 2025/10/25
    2019 / "検索しているのは、買いたい人だけじゃないらしい / NDCGでメルカリ検索結果の良し悪しを決めると順位でスコアをDiscountし過ぎてしまう"
  • 入力テキストと文書の関連度に基づく指示追従検索

    入力テキストと文書の関連度に基づく指示追従検索 こんにちは!愛媛大学大学院 修士1年の杉山誠治です。この度は、株式会社レトリバの夏季インターンシップに参加し、指示追従検索に関する研究に取り組みました。記事では、インターンシップで取り組んだ研究内容について報告します。 はじめに 情報検索では、ユーザが検索時に入力した語句(クエリ)と文書をコンピュータが比較できる数値列(ベクトル)に変換し、ベクトル間の類似度に基づいてクエリに最も近い文書を検索します。 例えば、図1のように「池袋 グルメ」というクエリが与えられた場合、「東京 池袋のマップ」という文書よりも「東京 池袋おすすめグルメ」のベクトルが近ければ、類似度が高いとみなされ、クエリに対する上位の検索結果として選択されます。 図1:クエリと文書による検索 近年、クエリだけでなくユーザの嗜好や意図を反映した具体的な補足・リクエスト(指示文)に

    入力テキストと文書の関連度に基づく指示追従検索
    sh19910711
    sh19910711 2025/10/18
    "指示追従検索では、同じクエリに対しても、指示文によって関連する文書は異なるというのが特徴 / 指示文: ユーザの嗜好や意図を反映した具体的な補足・リクエスト"
  • RecSys 2025参加レポート - ZOZO TECH BLOG

    はじめに こんにちは、データシステム部推薦基盤ブロックの上國料(@Kamiko20174481)とMA推薦ブロックの住安(@kosuke_sumiyasu)です。 私たちは2025年9月22日〜9月26日にチェコのプラハにて開催されたRecSys2025(19th ACM Conference on Recommender Systems)に現地参加しました。記事では会場の様子や現地でのワークショップ、セッションの様子をお伝えすると共に、気になったトピックをいくつか取り上げてご紹介します。 はじめに RecSys とは 開催地のプラハについて 会場の様子 論文の紹介 Orthogonal Low Rank Embedding Stabilization 感想・考察 Suggest, Complement, Inspire: Story of Two-Tower Recommendatio

    RecSys 2025参加レポート - ZOZO TECH BLOG
    sh19910711
    sh19910711 2025/10/18
    "推薦モデルを定期的に再学習すると埋め込み空間の座標系が変化 / 後処理のみで埋め込みの座標系を揃える手法を提案 / 各埋め込みベクトルにd×dの直交行列を1回掛けるだけで埋め込み空間を安定化できる"
  • Two-Tower モデルで作る高速でスケーラブルなレコメンドシステム|株式会社ココペリ Tech blog

    こんにちは、Fact & Dataグループの岡﨑です。近年、ECサイトやコンテンツプラットフォームにおいて、リアルタイムでパーソナライズされたレコメンデーションの重要性が増しています。しかし、大規模なユーザー・アイテムデータを扱うレコメンドシステムでは、スケーラビリティ(大規模なデータへの対応力)を確保しながら、低レイテンシ(高速応答)を実現することが課題となっています。 従来のMatrix FactorizationやFactorization Machinesといった手法では、特徴量の柔軟な追加が難しく、新しいユーザーやアイテムが追加された場合や特徴量が変化した際にモデル全体の再学習が必要となるため、大規模サービスでの運用においてスケーラビリティの課題があります。 この課題を解決する手法として注目されているのが『Two-Tower モデル』です。この手法では、ユーザーとアイテムの特徴を

    Two-Tower モデルで作る高速でスケーラブルなレコメンドシステム|株式会社ココペリ Tech blog
    sh19910711
    sh19910711 2025/10/06
    2024 / "temperatureパラメータは、コサイン類似度のスケーリングに使用され、学習時の勾配の大きさを調整"
  • KDD2022論文読み会:LinkedInの推薦システムから学ぶ

    KDD2022 論文読み会の発表資料です。 https://line.connpass.com/event/258930/ Workshop URL https://sites.google.com/view/kdd22onlinemarketplaces/home Workshop P…

    KDD2022論文読み会:LinkedInの推薦システムから学ぶ
    sh19910711
    sh19910711 2025/10/06
    2022 / "ジョブマッチ: 双方向の興味がマッチする必要 + アウトカムがわかるまでに時間がかかる / どれだけ実験を高速化できるか、運用を効率化できるか"
  • 検索結果0件を回避するためのクエリ書き換えアプローチ - ZOZO TECH BLOG

    はじめに こんにちは、データサイエンス部の朝原です。普段はZOZOTOWNにおける検索の改善を担当しています。 ZOZOTOWNには100万点を超える商品が存在し、毎日2700点もの新商品が追加されています。このような膨大な商品数を扱うZOZOTOWNにおいて、ユーザーが求める商品を見つけやすくするための検索機能は非常に重要です。 一方で、ファッションという日々ニーズが激しく変化するドメインにおいて、ユーザーのニーズを検索クエリから正確に把握し、適切な商品を提示することは困難を伴います。特に、検索システムにおいて検索結果が0件である(以下 0件ヒット)ことはユーザーにとって悪い体験となり、離脱を招いてしまいます1。実際にZOZOTOWNでは、日々0件ヒットが発生しており、大きな課題となっています。 記事では、検索結果が0件になる主な原因と、その対策の1つであるクエリ書き換えについて紹介し

    検索結果0件を回避するためのクエリ書き換えアプローチ - ZOZO TECH BLOG
    sh19910711
    sh19910711 2025/10/05
    "Zuo: GAT(Graph Attention Network)を用いてユーザーの検索履歴をグラフ構造として表現し、クエリ間の関係性を考慮したクエリ書き換えを提案"
  • おすすめされた理由がわかるXAIレコメンドモデルを動画配信サービスログで試してみた - ENGINEERING BLOG ドコモ開発者ブログ

    はじめに 記事はNTTドコモ R&D Advent Calendar 2022の20日目の記事です。 こんにちは。 NTTドコモ サービスイノベーション部の明石です。 私は業務でドコモが持つECサイトや動画配信サービスにおけるレコメンドシステムの研究開発をしております。 記事では、レコメンドとは?という部分から、レコメンドされた内容の理由を説明するXAI(eXplainable AI)モデルの評価結果について述べます。 記事の内容は情報処理学会所属、MBL研究会*1第104回発表会にて報告した内容*2を基に執筆しております。光栄なことに当発表会において優秀発表賞を頂くことができましたので、論文の方も是非ご覧になってください。 忙しい方向け レコメンドは様々なサービスで利用され、ユーザに合ったコンテンツを推薦します。 XAIとは、判断に至った理由を説明してくれるAIです。 レコメンドに

    おすすめされた理由がわかるXAIレコメンドモデルを動画配信サービスログで試してみた - ENGINEERING BLOG ドコモ開発者ブログ
    sh19910711
    sh19910711 2025/10/05
    2022 / "レコメンドシステムにおける課題として、推薦理由が不明確なことによる信頼性やユーザ満足度の低下 / AMCF: 推薦コンテンツに加え、各ユーザの嗜好を推薦理由として提示"
  • Zennのレコメンド機能(For you)の裏側 - LLMとベクトル近傍検索を使った記事のレコメンドシステムの仕組み

    はじめに Zennではこれまで、独自の集計方法により新着記事のランキングTrending)を提供してきました。Zennの読者にはWeb開発系のユーザーが多く、TrendingにはWeb開発系の記事が上位になりやすい傾向がありました。 昨年実施したユーザーアンケートでは、「Trendingが自分にマッチしていない」という意見が一定数寄せられ、レコメンド機能を求めるユーザーが75%に上ることが判明しました。 読者層の多様化に伴う新たなニーズに応えるため、記事のレコメンド機能(For you)を開発することにしました。 左が Trending、右が For you 記事では、Zennのレコメンドシステムで活用している、LLMとベクトル近傍検索を使った記事のレコメンドシステムの仕組みについて説明します。 方針の検討 一口にレコメンドと言っても、目的や適応箇所によって、その手法はさまざまです。大

    Zennのレコメンド機能(For you)の裏側 - LLMとベクトル近傍検索を使った記事のレコメンドシステムの仕組み
    sh19910711
    sh19910711 2025/10/03
    "アンケートでは、「Trendingが自分にマッチしていない」という意見が一定数寄せられ、レコメンド機能を求めるユーザーが75% / レコメンドの結果をユーザーがコントロールできることが、ユーザーにとって重要な要素"
  • 論文要約:Multi-word Term Embeddings Improve Lexical Product Retrieval

    論文要約:Multi-word Term Embeddings Improve Lexical Product Retrieval 論文:https://arxiv.org/pdf/2406.01233 この論文を読もうとしたきっかけ セマンティック検索でファッションドメインの語を扱う方法を理解 Elasticsearch9系でrank_vectors mappingによりlate-interactionが可能になったので理解 Abstract ECにおける製品検索に特化した新しい埋め込みモデル「H1」について述べている。 H1モデルの主な特徴と利点 複数の単語からなる製品名を一つのトークンとして(つまりフレーズのように)処理できる点が大きな特徴 例えば「new balance shoes」や「gloria jeans kids wear」といった検索クエリに対して、「new balanc

    論文要約:Multi-word Term Embeddings Improve Lexical Product Retrieval
    sh19910711
    sh19910711 2025/09/28
    "Elasticsearch9系でrank_vectors mappingによりlate-interactionが可能になった / インデックス構造がトークン→商品群のため、新しい語彙(トークン)が追加されたらそれに対応する商品群を追加"
  • スタンバイにおける検索への取り組み - Stanby Tech Blog

    1 はじめに はじめまして、スタンバイのSearchAdvertisingCoreGroup(検索・広告コアグループ、以降SACG)でAPI・インフラ周りの開発を行なっている金正です。 この記事では、スタンバイにおける検索への取り組みを紹介します。 2 一般的な検索システムに関して まず一般的な検索改善の取り組みを紹介します。 以下の図のように一般的な検索システムは大きく分けて2つのコンポーネントに分けられます。 2.1 クエリプリプロセス ユーザーが入力したクエリをより検索マッチしやすく加工したり、 ユーザーの検索理解をする、いわゆる「クエリアンダースタンディング」と一般的には呼ばれているコンポーネントもこのクエリプリプロセスに含まれます。 そもそも検索システムに使い慣れているユーザーなら、クエリアンダースタンディングは必要ありません。 検索窓されあれば自分で意図通りの検索クエリを入力し

    スタンバイにおける検索への取り組み - Stanby Tech Blog
    sh19910711
    sh19910711 2025/09/28
    2022 / "クエリ拡張: 「メガネ バイト」に対して、「(メガネ or サングラス) and (バイト or アルバイト)」のようにクエリを拡張することで検索対象のドキュメントを増やす"
  • レコメンドシステム—— Wide&Deep モデル

    シリーズの目次 レコメンドシステムのシリーズをここにまとめています。 はじめに 稿では、レコメンデーション分野において画期的な影響を与えた論文「Wide & Deep Learning for Recommender Systems」について詳しく解説します。この論文は、2016年にGoogle Play Storeのレコメンデーションチームによって発表されました。ディープラーニングが実用化され始めた黎明期において、レコメンデーションシステムのCTR(クリック率)予測にディープラーニングを効果的に応用した先駆的な研究として高く評価されています。この研究は、レコメンデーションシステムにおけるディープラーニング活用の成功事例として、現在も多くの実務者や研究者に参照されています。 論文のリンク:https://dl.acm.org/doi/pdf/10.1145/2988450.2988454

    レコメンドシステム—— Wide&Deep モデル
    sh19910711
    sh19910711 2025/09/28
    2024 / "レコメンデーションシステムは、本質的にアイテムのランキングシステムとして捉えることができ / 記憶力(memorization)と汎化性(generalization)のバランスが重要"