※追記(2025/11/19) 記事タイトルをより内容に即したものへ変更しました トークナイザの構築に関するセクションを新たに追加しました 言い回しを少し修正しました はじめまして。 私は大学で コード特化言語モデルを利用したコード検索の研究を行っています。 概要 本記事では、従来の CodeBERT / GraphCodeBERT 系モデルでは扱いづらかった 最大 512 トークンという入力長の制約 FlashAttention 非対応による学習・推論コストの高さ 事前学習・追加学習の再現性の低さ といった課題を踏まえつつ、ModernBERT アーキテクチャを用いてスクラッチ学習(ゼロから学習)からコード検索向けの埋め込みモデルを自作・公開するまでをまとめました。 具体的には、以下の点を中心に紹介します。 既存のコード特化言語モデル(CodeBERT / GraphCodeBERT 等
AILab Creative Researchチームの富樫です。 このブログでは先月末にarxivに投稿された“Item Recommendation from Implicit Feedback”[1]という論文を軸に紹介しつつ、 周辺分野の話題について議論したいと思います。 この論文はitem推薦というタスクにおける手法の各種パラダイムの概観をコンパクトに解説した教科書的内容になっています。 著者はBayesian Personalized Ranking (BPR)[2]を開発したGoogle Research所属のSteffen Rendle氏であり、 長年この分野を開拓してきた権威の一人です。 元論文の内容は元論文を読めばわかることですし、 蛇足かもしれませんが、最近の研究との関連性や議論、個人的な感想などを示すことで、このブログが元論文に対する補足資料のようになることを目指した
この記事は、Netflixが発表した推薦システムに関する手法 IntentRecについて解説します。 ユーザーが「今、何をしたいか」という意図を予測し、それを次の推薦アイテムの予測に活用する「階層的マルチタスク学習」のアーキテクチャを提案し、Netflixの実データでSOTA(最高性能)を達成した内容です。 この論文のすごいところ ユーザーの「次に何をしたいか」という意図 (例:新しい作品の発見、いつもの続きを視聴)を予測し、それを推薦に活かす新しい手法 IntentRecを提案しました。 「意図予測」→「アイテム予測」という階層的マルチタスク学習(Hierarchical-Multi-Task-Learning, 以下H-MTL)を採用しました。これにより、意図を予測するだけでなく、その予測結果を「特徴量」として次のアイテム推薦に利用することで、推薦精度を大幅に向上させた。Netflix
日経電子版におけるリアルタイムレコメンドシステム開発の事例紹介/nikkei-realtime-recommender-system
はじめに こんにちは。株式会社ビズリーチの検索基盤グループで機械学習エンジニアをしているDatと申します。 求職者検索の高度化とセマンティック検索への挑戦 「ビズリーチ」では、企業と求職者との最適なマッチング機会を最大化するため、日々検索品質の向上に取り組んでいます。特に、求職者の職務経歴書や企業の求人票の複雑な内容を深く理解し、関連性の高い候補者を見つけ出すことは、プラットフォームのコアな課題です。この課題を解決するため、我々はセマンティック検索の開発を進めています。 セマンティック検索は、単語の一致だけでなく、意味的な類似性に基づいて結果を返す技術です。この技術のプロダクトへの展開において、我々は高精度かつ低レイテンシと高い解釈性というプロダクト要件を満たす検索モデルの採用が必要でした。その解決策として着目したのが、SPLADE (Sparse Lexical AnD Expansio
こんにちは、メルカリのレコメンドチームで ML Engineer をしている ML_Bear です。 普段はメルカリのホーム画面などに表示されるレコメンドパーツの改善を担当しています。今回はメルカリの莫大なユーザーログデータと、出品された商品に付与されているメタデータ(詳細後述)を活用したレコメンドロジック改善事例をご紹介します。 商品メタデータについて メルカリではユーザーの商品検索体験を向上させるため、出品された商品に対して様々なメタデータを付与しています。ファッションアイテムだと色や生地感、家電だと型番といった、主として商品の属性をあらわす様々なデータをメタデータと呼称しています。 今回、私は本やマンガに紐づいているメタデータ (以下、タイトルデータと記載) に着目しました。 メルカリアプリ内では、本やマンガに商品が属するシリーズを表現するメタデータが付与されています。例えば「キング
入力テキストと文書の関連度に基づく指示追従検索 こんにちは!愛媛大学大学院 修士1年の杉山誠治です。この度は、株式会社レトリバの夏季インターンシップに参加し、指示追従検索に関する研究に取り組みました。本記事では、インターンシップで取り組んだ研究内容について報告します。 はじめに 情報検索では、ユーザが検索時に入力した語句(クエリ)と文書をコンピュータが比較できる数値列(ベクトル)に変換し、ベクトル間の類似度に基づいてクエリに最も近い文書を検索します。 例えば、図1のように「池袋 グルメ」というクエリが与えられた場合、「東京 池袋のマップ」という文書よりも「東京 池袋おすすめグルメ」のベクトルが近ければ、類似度が高いとみなされ、クエリに対する上位の検索結果として選択されます。 図1:クエリと文書による検索 近年、クエリだけでなくユーザの嗜好や意図を反映した具体的な補足・リクエスト(指示文)に
はじめに こんにちは、データシステム部推薦基盤ブロックの上國料(@Kamiko20174481)とMA推薦ブロックの住安(@kosuke_sumiyasu)です。 私たちは2025年9月22日〜9月26日にチェコのプラハにて開催されたRecSys2025(19th ACM Conference on Recommender Systems)に現地参加しました。本記事では会場の様子や現地でのワークショップ、セッションの様子をお伝えすると共に、気になったトピックをいくつか取り上げてご紹介します。 はじめに RecSys とは 開催地のプラハについて 会場の様子 論文の紹介 Orthogonal Low Rank Embedding Stabilization 感想・考察 Suggest, Complement, Inspire: Story of Two-Tower Recommendatio
こんにちは、Fact & Dataグループの岡﨑です。近年、ECサイトやコンテンツプラットフォームにおいて、リアルタイムでパーソナライズされたレコメンデーションの重要性が増しています。しかし、大規模なユーザー・アイテムデータを扱うレコメンドシステムでは、スケーラビリティ(大規模なデータへの対応力)を確保しながら、低レイテンシ(高速応答)を実現することが課題となっています。 従来のMatrix FactorizationやFactorization Machinesといった手法では、特徴量の柔軟な追加が難しく、新しいユーザーやアイテムが追加された場合や特徴量が変化した際にモデル全体の再学習が必要となるため、大規模サービスでの運用においてスケーラビリティの課題があります。 この課題を解決する手法として注目されているのが『Two-Tower モデル』です。この手法では、ユーザーとアイテムの特徴を
はじめに こんにちは、データサイエンス部の朝原です。普段はZOZOTOWNにおける検索の改善を担当しています。 ZOZOTOWNには100万点を超える商品が存在し、毎日2700点もの新商品が追加されています。このような膨大な商品数を扱うZOZOTOWNにおいて、ユーザーが求める商品を見つけやすくするための検索機能は非常に重要です。 一方で、ファッションという日々ニーズが激しく変化するドメインにおいて、ユーザーのニーズを検索クエリから正確に把握し、適切な商品を提示することは困難を伴います。特に、検索システムにおいて検索結果が0件である(以下 0件ヒット)ことはユーザーにとって悪い体験となり、離脱を招いてしまいます1。実際にZOZOTOWNでは、日々0件ヒットが発生しており、大きな課題となっています。 本記事では、検索結果が0件になる主な原因と、その対策の1つであるクエリ書き換えについて紹介し
はじめに 本記事はNTTドコモ R&D Advent Calendar 2022の20日目の記事です。 こんにちは。 NTTドコモ サービスイノベーション部の明石です。 私は業務でドコモが持つECサイトや動画配信サービスにおけるレコメンドシステムの研究開発をしております。 本記事では、レコメンドとは?という部分から、レコメンドされた内容の理由を説明するXAI(eXplainable AI)モデルの評価結果について述べます。 本記事の内容は情報処理学会所属、MBL研究会*1第104回発表会にて報告した内容*2を基に執筆しております。光栄なことに当発表会において優秀発表賞を頂くことができましたので、論文の方も是非ご覧になってください。 忙しい方向け レコメンドは様々なサービスで利用され、ユーザに合ったコンテンツを推薦します。 XAIとは、判断に至った理由を説明してくれるAIです。 レコメンドに
はじめに Zennではこれまで、独自の集計方法により新着記事のランキング(Trending)を提供してきました。Zennの読者にはWeb開発系のユーザーが多く、TrendingにはWeb開発系の記事が上位になりやすい傾向がありました。 昨年実施したユーザーアンケートでは、「Trendingが自分にマッチしていない」という意見が一定数寄せられ、レコメンド機能を求めるユーザーが75%に上ることが判明しました。 読者層の多様化に伴う新たなニーズに応えるため、記事のレコメンド機能(For you)を開発することにしました。 左が Trending、右が For you 本記事では、Zennのレコメンドシステムで活用している、LLMとベクトル近傍検索を使った記事のレコメンドシステムの仕組みについて説明します。 方針の検討 一口にレコメンドと言っても、目的や適応箇所によって、その手法はさまざまです。大
論文要約:Multi-word Term Embeddings Improve Lexical Product Retrieval 論文:https://arxiv.org/pdf/2406.01233 この論文を読もうとしたきっかけ セマンティック検索でファッションドメインの語を扱う方法を理解 Elasticsearch9系でrank_vectors mappingによりlate-interactionが可能になったので理解 Abstract ECにおける製品検索に特化した新しい埋め込みモデル「H1」について述べている。 H1モデルの主な特徴と利点 複数の単語からなる製品名を一つのトークンとして(つまりフレーズのように)処理できる点が大きな特徴 例えば「new balance shoes」や「gloria jeans kids wear」といった検索クエリに対して、「new balanc
1 はじめに はじめまして、スタンバイのSearchAdvertisingCoreGroup(検索・広告コアグループ、以降SACG)でAPI・インフラ周りの開発を行なっている金正です。 この記事では、スタンバイにおける検索への取り組みを紹介します。 2 一般的な検索システムに関して まず一般的な検索改善の取り組みを紹介します。 以下の図のように一般的な検索システムは大きく分けて2つのコンポーネントに分けられます。 2.1 クエリプリプロセス ユーザーが入力したクエリをより検索マッチしやすく加工したり、 ユーザーの検索理解をする、いわゆる「クエリアンダースタンディング」と一般的には呼ばれているコンポーネントもこのクエリプリプロセスに含まれます。 そもそも検索システムに使い慣れているユーザーなら、クエリアンダースタンディングは必要ありません。 検索窓されあれば自分で意図通りの検索クエリを入力し
シリーズの目次 レコメンドシステムのシリーズをここにまとめています。 はじめに 本稿では、レコメンデーション分野において画期的な影響を与えた論文「Wide & Deep Learning for Recommender Systems」について詳しく解説します。この論文は、2016年にGoogle Play Storeのレコメンデーションチームによって発表されました。ディープラーニングが実用化され始めた黎明期において、レコメンデーションシステムのCTR(クリック率)予測にディープラーニングを効果的に応用した先駆的な研究として高く評価されています。この研究は、レコメンデーションシステムにおけるディープラーニング活用の成功事例として、現在も多くの実務者や研究者に参照されています。 論文のリンク:https://dl.acm.org/doi/pdf/10.1145/2988450.2988454
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く