[DL輪読会]Adaptive Gradient Methods with Dynamic Bound of Learning Rate
![[DL輪読会]Adaptive Gradient Methods with Dynamic Bound of Learning Rate](https://cdn-ak-scissors.b.st-hatena.com/image/square/d99958630e56d841519bd8ef69695d84250b8177/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2Fadabound-190325085133-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
[DL輪読会]Adaptive Gradient Methods with Dynamic Bound of Learning Rate
こんにちは、Fact & Dataグループの岡﨑です。近年、ECサイトやコンテンツプラットフォームにおいて、リアルタイムでパーソナライズされたレコメンデーションの重要性が増しています。しかし、大規模なユーザー・アイテムデータを扱うレコメンドシステムでは、スケーラビリティ(大規模なデータへの対応力)を確保しながら、低レイテンシ(高速応答)を実現することが課題となっています。 従来のMatrix FactorizationやFactorization Machinesといった手法では、特徴量の柔軟な追加が難しく、新しいユーザーやアイテムが追加された場合や特徴量が変化した際にモデル全体の再学習が必要となるため、大規模サービスでの運用においてスケーラビリティの課題があります。 この課題を解決する手法として注目されているのが『Two-Tower モデル』です。この手法では、ユーザーとアイテムの特徴を
Evolutionary Optimization of Model Merging Recipesについて 先日、sakana.aiが発表した論文になっています。大規模言語モデル(LLM)のパラメータと下流タスクでの性能の関係は、Task Arithmeticなどで研究されてきました。そこから、複数のLLMのレイヤーをパラメータを混ぜて一つにする方法が提案されてきました。この論文では、パラメータの混ぜ方だけでなく、レイヤーのマッチングまで一本化して最適化する手法を提案しています。 個人的に、この手法の発展が楽しみです。行く末は、ビッグテックが要するクローズドな大きなモデル(GPT4, Geminiなど)を、オープンソースの複数のモデルが超えていく未来が来るかもしれません(スイミーのように)。 この論文が扱う問題の理解 この論文が解く問題は、モデルの合体(model merging)の最適
概要 勾配ベースの最適化手法について直近数ヶ月で読んだ論文を元にまとめる。網羅的ではないことに注意。 構成 以下のような構成でまとめる。 Adamの派生手法 補助的に用いられる最適化手法 リソース消費を最適化する手法 1. Adamの派生手法 Decoupled weight decay (SGDW, AdamW) [5]ではAdamのweight decayの実装の問題点を理論的に解明し、これに対処する代替アルゴリズムを提案した。提案手法はAdamの汎化性能を改善し、CIFAR-10, ImageNet32x32による評価でSGD with momentum(提案手法以前ではAdamを上回ることが多かった)と同等の性能となることを示した。 Rectified Adam (RAdam) RMSpropやAdamなどのadaptiveな最適化手法において、warmupが学習の安定性や汎化性能
はじめに こんにちは、データサイエンス部の朝原です。普段はZOZOTOWNにおける検索の改善を担当しています。 ZOZOTOWNには100万点を超える商品が存在し、毎日2700点もの新商品が追加されています。このような膨大な商品数を扱うZOZOTOWNにおいて、ユーザーが求める商品を見つけやすくするための検索機能は非常に重要です。 一方で、ファッションという日々ニーズが激しく変化するドメインにおいて、ユーザーのニーズを検索クエリから正確に把握し、適切な商品を提示することは困難を伴います。特に、検索システムにおいて検索結果が0件である(以下 0件ヒット)ことはユーザーにとって悪い体験となり、離脱を招いてしまいます1。実際にZOZOTOWNでは、日々0件ヒットが発生しており、大きな課題となっています。 本記事では、検索結果が0件になる主な原因と、その対策の1つであるクエリ書き換えについて紹介し
はじめに 本記事はNTTドコモ R&D Advent Calendar 2022の20日目の記事です。 こんにちは。 NTTドコモ サービスイノベーション部の明石です。 私は業務でドコモが持つECサイトや動画配信サービスにおけるレコメンドシステムの研究開発をしております。 本記事では、レコメンドとは?という部分から、レコメンドされた内容の理由を説明するXAI(eXplainable AI)モデルの評価結果について述べます。 本記事の内容は情報処理学会所属、MBL研究会*1第104回発表会にて報告した内容*2を基に執筆しております。光栄なことに当発表会において優秀発表賞を頂くことができましたので、論文の方も是非ご覧になってください。 忙しい方向け レコメンドは様々なサービスで利用され、ユーザに合ったコンテンツを推薦します。 XAIとは、判断に至った理由を説明してくれるAIです。 レコメンドに
本記事の著者はResearch Engineerの大野です。最近は、ホロウナイトというゲームをやっていましたが、もう少しでクリアというところで敵が倒せず諦めました。 はじめに RevCommは電話営業や顧客応対の通話を支援するAI搭載型のIP電話「MiiTel」を提供しています。 この製品は、通話の文字起こしを保存する機能を備えており、RevCommは数千時間の対話データに接しています。 この対話データに対する支援の1つとして対話要約が考えられます。対話要約とは、入力された対話から、その主要な概念を含むより短い文書(要約)を自動的に作成することです。 ユーザは、要約を作成する手間が省けたり、あるいは要約を読むことで対話の概要をより早く理解できるなどの利点があります。 これから前編と後編の2回に分けて、対話要約に関する記事を書きます。今回の記事では、はじめにいくつかの対話要約のデータセットを
【論文紹介】A foundation modelfor the Earth system:気象や環境等の時空間データ向けの基盤モデル こんにちは!よっしゃと申します。 今回は、気象や環境等の時空間データを対象とした基盤モデルのモデルの論文「A foundation modelfor the Earth system」の紹介します。 地球システムデータとは(天候、海洋、大気...etc) 地球システムデータの特徴 多次元:緯度経度(空間)×気圧階層(高度)×時間方向を持つ多次元構造のデータ 多変数:大気、海洋、陸面、氷床など、多様な物理現象を含む ビッグデータ:数年、数十年の観測、日本全域あるいは地球全体の観測データ 扱う上での難しさ 異種データの統合:異なる変数(気温、風、湿度、波高、大気化学成分など)でそれぞれの(水平・鉛直・時間)解像度がバラバラ 高次元性:全球かつ高解像度データは超大
こんにちは。CSC で機械学習エンジニアを務める佐々木です。 論文紹介シリーズと称して、本記事では機械学習とサイバーセキュリティに関連した論文の紹介をしていきます。 AI によるルール自動運用最適化技術 WRAO や Web 攻撃検知技術 Cyneural の研究開発に従事してきた経験から、”サイバーセキュリティ” というドメイン特有の知見を交えつつ、内容を解説していきます。 今回紹介する提案手法である URLNet では、DeepLearning を用いて悪意のある URL を検出する試みが行われています。技術としては CNN を使用しています。CNN というと画像処理のタスクでおなじみですが、自然言語処理に使用しても従来の機械学習手法より高い精度が得られるということで、近年 NLP 界隈で注目されています。 本論文は特に自然言語処のタスクに CNN を適用する際の前処理手法に関して詳し
はじめに Zennではこれまで、独自の集計方法により新着記事のランキング(Trending)を提供してきました。Zennの読者にはWeb開発系のユーザーが多く、TrendingにはWeb開発系の記事が上位になりやすい傾向がありました。 昨年実施したユーザーアンケートでは、「Trendingが自分にマッチしていない」という意見が一定数寄せられ、レコメンド機能を求めるユーザーが75%に上ることが判明しました。 読者層の多様化に伴う新たなニーズに応えるため、記事のレコメンド機能(For you)を開発することにしました。 左が Trending、右が For you 本記事では、Zennのレコメンドシステムで活用している、LLMとベクトル近傍検索を使った記事のレコメンドシステムの仕組みについて説明します。 方針の検討 一口にレコメンドと言っても、目的や適応箇所によって、その手法はさまざまです。大
例えばデータストアへのアクセス抑制のためにキーの存在を確認する際、 全てのキーを保持して探索すれば100%正しく判定できるが、キーが長く数が膨大になるとメモリの使用量が問題になることがある。 もし偽陽性が許容できるなら、次のフィルタを使うことで空間効率良くキーの存在を確認できる。 Bloom filter 1970年に考案されたフィルタで、 LevelDBやCassandraで使われている。 GoogleのkvsライブラリLevelDBを使う - sambaiz-net 初期値0のビット配列と、そのいずれかのビットにデータをマッピングするk個のハッシュ関数を定義し、 含めるデータを各ハッシュ関数に通して、マッピングされたビットを1に更新していく。 これにより、いずれかのハッシュ関数によって0のビットにマッピングされるデータは、必ずフィルタに含まれないことが分かる。 また、ビット配列のAND
論文要約:Multi-word Term Embeddings Improve Lexical Product Retrieval 論文:https://arxiv.org/pdf/2406.01233 この論文を読もうとしたきっかけ セマンティック検索でファッションドメインの語を扱う方法を理解 Elasticsearch9系でrank_vectors mappingによりlate-interactionが可能になったので理解 Abstract ECにおける製品検索に特化した新しい埋め込みモデル「H1」について述べている。 H1モデルの主な特徴と利点 複数の単語からなる製品名を一つのトークンとして(つまりフレーズのように)処理できる点が大きな特徴 例えば「new balance shoes」や「gloria jeans kids wear」といった検索クエリに対して、「new balanc
1 はじめに はじめまして、スタンバイのSearchAdvertisingCoreGroup(検索・広告コアグループ、以降SACG)でAPI・インフラ周りの開発を行なっている金正です。 この記事では、スタンバイにおける検索への取り組みを紹介します。 2 一般的な検索システムに関して まず一般的な検索改善の取り組みを紹介します。 以下の図のように一般的な検索システムは大きく分けて2つのコンポーネントに分けられます。 2.1 クエリプリプロセス ユーザーが入力したクエリをより検索マッチしやすく加工したり、 ユーザーの検索理解をする、いわゆる「クエリアンダースタンディング」と一般的には呼ばれているコンポーネントもこのクエリプリプロセスに含まれます。 そもそも検索システムに使い慣れているユーザーなら、クエリアンダースタンディングは必要ありません。 検索窓されあれば自分で意図通りの検索クエリを入力し
シリーズの目次 レコメンドシステムのシリーズをここにまとめています。 はじめに 本稿では、レコメンデーション分野において画期的な影響を与えた論文「Wide & Deep Learning for Recommender Systems」について詳しく解説します。この論文は、2016年にGoogle Play Storeのレコメンデーションチームによって発表されました。ディープラーニングが実用化され始めた黎明期において、レコメンデーションシステムのCTR(クリック率)予測にディープラーニングを効果的に応用した先駆的な研究として高く評価されています。この研究は、レコメンデーションシステムにおけるディープラーニング活用の成功事例として、現在も多くの実務者や研究者に参照されています。 論文のリンク:https://dl.acm.org/doi/pdf/10.1145/2988450.2988454
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 1. 初めに 以前、ローカルでRAGモデルを作成した際に「最近の文章埋め込みモデルはどのような仕組みなのだろう?」という疑問から埋め込みモデルの調査をしていたところ、 多言語対応 いろいろな埋め込み方式について知ることが出来る 短文から長文の埋め込みで高性能を出す手法 などを学べるという理由から、M3-Embeddingに関する論文を読んでみました。 また、RAGモデルを作成した際の候補となったというのも大きいです。 論文リンクです。 2. 論文概要 M3-Embedding という新しい文章埋め込みモデルの提案に関する論文です。 M3
お久しぶりです。 SPPnetの論文をよみつつ深層学習の青い本も読み進めてます。 青い本の5章における白色化とデノイジング自己符号化器が気になったので作って見ることにした。 白色化というのは機械学習における訓練データに偏りがあると学習の妨げになる場合があるので学習前に訓練データに何らかの処理を施し、偏り(相関でいいのかな)を除去する処理のこと。 訓練データの成分間の相関は共分散行列で与えられるっぽい この共分散行列の(p,q)成分は、訓練データのサンプルXの(p,q)成分がどの程度同じように変化するか、相関があるかを示す。 ある確率変数 X1,X2 に対しての共分散行列を以下のように定めることにする。 ρ11,ρ22 はそれぞれ X1の分散、X2の分散を、ρ12 は X1とX2 の共分散を表す。 つまり対角成分に分散が、非対角成分には今日分散が並ぶ行列を共分散行列と呼ぶんだな。 確率変数が
先日のKaggleのISICコンペは結構時間をかけて参加しましたが、惨敗でした…。(1088位/2739チーム) 上位解法で気になったものをいくつかまとめようと思います。まずは4thが画像モデルに使っていたtimmのModelEMAについてです。 timmのModelEmaとは? ModelEMA(Exponential Moving Average)は、モデルの重みの移動平均を保持するテクニックで、モデルの安定性や汎化性能を向上させるために用いられます。先日の関東kaggler会でもちょろっと紹介されていたようです。 1. EMAの基本的な考え方 EMAは、現在のモデルの重みと過去の重みの指数関数的な移動平均を計算します。これにより、学習中に過度に更新された重みを平均化し、より滑らかな更新結果を得ることができます。一般的には、次の式で表されます。 EMAの重み更新は次の式で表されます:
こんにちは、ペルソナ4 リバイバルを楽しみにしているデータサイエンティストのoddgaiです。 先日、Claude CodeでKaggleをやってみた記事を書いたのですが、数理最適化もできるの?と思ったのでやってみました。 結論 単純な問題ならざっくり指示しても割とちゃんと解いてくれる OR-tools, PuLPなどのライブラリも使える 他分野よりネットに情報が落ちてない印象があったので心配してたけど意外と大丈夫だった 数秒で数百行のコードを書いてくるので人間による確認&精度担保が大変 今回はテストデータなので甘めにやってしまった・・・ C++やらRustやらでヒューリスティックをゴリゴリ書いてもらうとかは未調査だが、こちらも強そう 参考:AI vs 人間まとめ【AtCoder World Tour Finals 2025 Heuristic エキシビジョン】 - chokudaiのブロ
レコメンド用のツールについて レコメンド界隈はみんなが使っている定番のライブラリというものがないように思う。例えば、自然言語処理では(色々と文句を言われることもあるが)Hugging Face が標準的に使われるようになっている。それに比べると、レコメンドはとりあえずこれ使っておけ、と言えるものが思い浮かばない。 ロジック/モデル部分中心のものであれば implicit や RecBole などポピュラーなライブラリはいくつかあるが、それに与えるデータの前処理とか結果のオフライン評価に関しては、それぞれの現場で固有のツールやライブラリが作られがちな気がしている。 大規模サービスを運営していて KPI を0.1%でも向上させることに意味があるようなテック企業を除けば、一般的な協調フィルタリングや評価指標を実装すればまずは十分だろうし、そうなると中核となるデータの処理方法も概ね共通してくる。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く