[B! *algorithm] sh19910711のブックマーク

【論文紹介】URLNet: 深層学習による悪意ある URL の検出手法 | 株式会社サイバーセキュリティクラウド

こんにちは。CSC で機械学習エンジニアを務める佐々木です。論文紹介シリーズと称して、本記事では機械学習とサイバーセキュリティに関連した論文の紹介をしていきます。 AI によるルール自動運用最適化技術 WRAO や Web 攻撃検知技術 Cyneural の研究開発に従事してきた経験から、”サイバーセキュリティ” というドメイン特有の知見を交えつつ、内容を解説していきます。今回紹介する提案手法である URLNet では、DeepLearning を用いて悪意のある URL を検出する試みが行われています。技術としては CNN を使用しています。CNN というと画像処理のタスクでおなじみですが、自然言語処理に使用しても従来の機械学習手法より高い精度が得られるということで、近年 NLP 界隈で注目されています。本論文は特に自然言語処のタスクに CNN を適用する際の前処理手法に関して詳し

sh19910711 2025/10/03

2019 / "URLNet: CNN にデータを入れる前の前処理手法に関する議論 / トレーニングおよび性能の検証に使用するデータとしては、`VirusTotal` から取得した 3ヶ月分の URL"

リンク

Zennのレコメンド機能（For you）の裏側 - LLMとベクトル近傍検索を使った記事のレコメンドシステムの仕組み

はじめに Zennではこれまで、独自の集計方法により新着記事のランキング（Trending）を提供してきました。Zennの読者にはWeb開発系のユーザーが多く、TrendingにはWeb開発系の記事が上位になりやすい傾向がありました。昨年実施したユーザーアンケートでは、「Trendingが自分にマッチしていない」という意見が一定数寄せられ、レコメンド機能を求めるユーザーが75%に上ることが判明しました。読者層の多様化に伴う新たなニーズに応えるため、記事のレコメンド機能（For you）を開発することにしました。左が Trending、右が For you 本記事では、Zennのレコメンドシステムで活用している、LLMとベクトル近傍検索を使った記事のレコメンドシステムの仕組みについて説明します。方針の検討一口にレコメンドと言っても、目的や適応箇所によって、その手法はさまざまです。大

sh19910711 2025/10/03

"アンケートでは、「Trendingが自分にマッチしていない」という意見が一定数寄せられ、レコメンド機能を求めるユーザーが75% / レコメンドの結果をユーザーがコントロールできることが、ユーザーにとって重要な要素"

リンク

偽陽性を許容して空間効率良くキーの存在を確認するBloom filterとCuckoo filter - sambaiz-net

例えばデータストアへのアクセス抑制のためにキーの存在を確認する際、全てのキーを保持して探索すれば100%正しく判定できるが、キーが長く数が膨大になるとメモリの使用量が問題になることがある。もし偽陽性が許容できるなら、次のフィルタを使うことで空間効率良くキーの存在を確認できる。 Bloom filter 1970年に考案されたフィルタで、 LevelDBやCassandraで使われている。 GoogleのkvsライブラリLevelDBを使う - sambaiz-net 初期値0のビット配列と、そのいずれかのビットにデータをマッピングするk個のハッシュ関数を定義し、含めるデータを各ハッシュ関数に通して、マッピングされたビットを1に更新していく。これにより、いずれかのハッシュ関数によって0のビットにマッピングされるデータは、必ずフィルタに含まれないことが分かる。また、ビット配列のAND

sh19910711 2025/10/02

2021 / "Cuckoo filter: バケットの空きが十分ならCounting filterよりも高速 + 埋まるに連れて追い出しが頻発しパフォーマンスが下がっていく"

リンク

論文要約：Multi-word Term Embeddings Improve Lexical Product Retrieval

論文要約：Multi-word Term Embeddings Improve Lexical Product Retrieval 論文：https://arxiv.org/pdf/2406.01233 この論文を読もうとしたきっかけセマンティック検索でファッションドメインの語を扱う方法を理解 Elasticsearch9系でrank_vectors mappingによりlate-interactionが可能になったので理解 Abstract ECにおける製品検索に特化した新しい埋め込みモデル「H1」について述べている。 H1モデルの主な特徴と利点複数の単語からなる製品名を一つのトークンとして（つまりフレーズのように）処理できる点が大きな特徴例えば「new balance shoes」や「gloria jeans kids wear」といった検索クエリに対して、「new balanc

sh19910711 2025/09/28

"Elasticsearch9系でrank_vectors mappingによりlate-interactionが可能になった / インデックス構造がトークン→商品群のため、新しい語彙（トークン）が追加されたらそれに対応する商品群を追加"

リンク

スタンバイにおける検索への取り組み - Stanby Tech Blog

1 はじめにはじめまして、スタンバイのSearchAdvertisingCoreGroup(検索・広告コアグループ、以降SACG)でAPI・インフラ周りの開発を行なっている金正です。この記事では、スタンバイにおける検索への取り組みを紹介します。 2 一般的な検索システムに関してまず一般的な検索改善の取り組みを紹介します。以下の図のように一般的な検索システムは大きく分けて2つのコンポーネントに分けられます。 2.1 クエリプリプロセスユーザーが入力したクエリをより検索マッチしやすく加工したり、ユーザーの検索理解をする、いわゆる「クエリアンダースタンディング」と一般的には呼ばれているコンポーネントもこのクエリプリプロセスに含まれます。そもそも検索システムに使い慣れているユーザーなら、クエリアンダースタンディングは必要ありません。検索窓されあれば自分で意図通りの検索クエリを入力し

sh19910711 2025/09/28

2022 / "クエリ拡張: 「メガネ　バイト」に対して、「（メガネ or サングラス） and （バイト or アルバイト）」のようにクエリを拡張することで検索対象のドキュメントを増やす"

リンク

レコメンドシステム—— Wide&Deep モデル

シリーズの目次レコメンドシステムのシリーズをここにまとめています。はじめに本稿では、レコメンデーション分野において画期的な影響を与えた論文「Wide & Deep Learning for Recommender Systems」について詳しく解説します。この論文は、2016年にGoogle Play Storeのレコメンデーションチームによって発表されました。ディープラーニングが実用化され始めた黎明期において、レコメンデーションシステムのCTR（クリック率）予測にディープラーニングを効果的に応用した先駆的な研究として高く評価されています。この研究は、レコメンデーションシステムにおけるディープラーニング活用の成功事例として、現在も多くの実務者や研究者に参照されています。論文のリンク：https://dl.acm.org/doi/pdf/10.1145/2988450.2988454

sh19910711 2025/09/28

2024 / "レコメンデーションシステムは、本質的にアイテムのランキングシステムとして捉えることができ / 記憶力（memorization）と汎化性（generalization）のバランスが重要"

リンク

深層学習5章の白色化とデノイジング自己符号化器を試してみた - 時給600円

お久しぶりです。 SPPnetの論文をよみつつ深層学習の青い本も読み進めてます。青い本の5章における白色化とデノイジング自己符号化器が気になったので作って見ることにした。白色化というのは機械学習における訓練データに偏りがあると学習の妨げになる場合があるので学習前に訓練データに何らかの処理を施し、偏り(相関でいいのかな)を除去する処理のこと。訓練データの成分間の相関は共分散行列で与えられるっぽいこの共分散行列の(p,q)成分は、訓練データのサンプルXの(p,q)成分がどの程度同じように変化するか、相関があるかを示す。ある確率変数 X1,X2 に対しての共分散行列を以下のように定めることにする。 ρ11,ρ22 はそれぞれ X1の分散、X2の分散を、ρ12 は X1とX2 の共分散を表す。つまり対角成分に分散が、非対角成分には今日分散が並ぶ行列を共分散行列と呼ぶんだな。確率変数が

sh19910711 2025/09/28

2017 / "青い本の5章における白色化とデノイジング自己符号化器 / 確率変数が互いに独立(無相関)ならば、共分散の値は 0 になるという性質から、白色化はこの共分散行列の非対角成分を 0 にする"

リンク

M3-Embeddingを読んでみた - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 1. 初めに以前、ローカルでRAGモデルを作成した際に「最近の文章埋め込みモデルはどのような仕組みなのだろう？」という疑問から埋め込みモデルの調査をしていたところ、多言語対応いろいろな埋め込み方式について知ることが出来る短文から長文の埋め込みで高性能を出す手法などを学べるという理由から、M3-Embeddingに関する論文を読んでみました。また、RAGモデルを作成した際の候補となったというのも大きいです。論文リンクです。 2. 論文概要 M3-Embedding という新しい文章埋め込みモデルの提案に関する論文です。 M3

sh19910711 2025/09/28

"Multi-Linguality, Multi-Functionality, Multi-Granularityの3つのM / Dense, Sparse, Multi vecの3つの検索方式 / 学習方法やデータの工夫で性能を上げる論文が多い印象"

リンク

timmのModelEmaについて（ISIC2024コンペ振り返り①）

先日のKaggleのISICコンペは結構時間をかけて参加しましたが、惨敗でした…。（1088位/2739チーム）上位解法で気になったものをいくつかまとめようと思います。まずは4thが画像モデルに使っていたtimmのModelEMAについてです。 timmのModelEmaとは？ ModelEMA（Exponential Moving Average）は、モデルの重みの移動平均を保持するテクニックで、モデルの安定性や汎化性能を向上させるために用いられます。先日の関東kaggler会でもちょろっと紹介されていたようです。 1. EMAの基本的な考え方 EMAは、現在のモデルの重みと過去の重みの指数関数的な移動平均を計算します。これにより、学習中に過度に更新された重みを平均化し、より滑らかな更新結果を得ることができます。一般的には、次の式で表されます。 EMAの重み更新は次の式で表されます：

sh19910711 2025/09/28

2024 / "EMA: 現在のモデルの重みと過去の重みの指数関数的な移動平均を計算 + 過度に更新された重みを平均化 / EMA適用後は学習曲線の推移が滑らか + 学習の進みは遅くなる"

リンク

Claude Codeと数理最適化をやってみる

こんにちは、ペルソナ4 リバイバルを楽しみにしているデータサイエンティストのoddgaiです。先日、Claude CodeでKaggleをやってみた記事を書いたのですが、数理最適化もできるの？と思ったのでやってみました。結論単純な問題ならざっくり指示しても割とちゃんと解いてくれる OR-tools, PuLPなどのライブラリも使える他分野よりネットに情報が落ちてない印象があったので心配してたけど意外と大丈夫だった数秒で数百行のコードを書いてくるので人間による確認＆精度担保が大変今回はテストデータなので甘めにやってしまった・・・ C++やらRustやらでヒューリスティックをゴリゴリ書いてもらうとかは未調査だが、こちらも強そう参考：AI vs 人間まとめ【AtCoder World Tour Finals 2025 Heuristic エキシビジョン】 - chokudaiのブロ

sh19910711 2025/09/27

"Python-MIPを使ってと指示したのにPuLPを使う / 最適解です！と言いつつ微妙に違う解を出してくる / 人間がAIの出力を確認しやすい仕組みを作るのが大切"

リンク

ベースライン的なレコメンドモデルを作るのに RecTools が便利そう

レコメンド用のツールについてレコメンド界隈はみんなが使っている定番のライブラリというものがないように思う。例えば、自然言語処理では（色々と文句を言われることもあるが）Hugging Face が標準的に使われるようになっている。それに比べると、レコメンドはとりあえずこれ使っておけ、と言えるものが思い浮かばない。ロジック/モデル部分中心のものであれば implicit や RecBole などポピュラーなライブラリはいくつかあるが、それに与えるデータの前処理とか結果のオフライン評価に関しては、それぞれの現場で固有のツールやライブラリが作られがちな気がしている。大規模サービスを運営していて KPI を0.1%でも向上させることに意味があるようなテック企業を除けば、一般的な協調フィルタリングや評価指標を実装すればまずは十分だろうし、そうなると中核となるデータの処理方法も概ね共通してくる。

sh19910711 2025/09/20

"データの前処理とか結果のオフライン評価に関しては、それぞれの現場で固有のツールやライブラリが作られがち / RecTools: レコメンドシステムを構築するプロセス全体をカバーするようなライブラリ"

リンク

ベクトル埋め込みを使って「小説家になろう」を検索して、更に多様化する (情報検索・検索技術 Advent Calendar 2022)

ベクトル埋め込みを使って「小説家になろう」を検索して、更に多様化する (情報検索・検索技術 Advent Calendar 2022) Twitter: @cocomoff / Zenn: @takilog です。本記事は情報検索・検索技術 Advent Calendar 2022の8日目の記事として書きました。まえがき普段、メーカーの研究職として様々な雪かき的研究（技術的盆栽かも？）を遂行しているのですが、最近趣味で検索システムの本を読んでいたため、検索技術に個人的に興味を持っています。こちら、大変良い本でした（一部分、ちゃんと読めてないところもありますが…）。せっかく本を読んだので、何か検索システムのことを考えてAdvent Calendarでも書こうと思ってこちらの記事を書きました。本職が検索ではないので、真面目なソフトウェア（elasticsearchとか）を使うのが難しく

sh19910711 2025/09/20

2022 / "悪徳令嬢の作品をひたすら読みたいときは関連度だけを用いた検索システムで十分 / 検索結果の多様性に関する技術群は検索結果多様化 (Search Result Diversification) という技術として、いろんな研究"

リンク

マトリョーシカ・レトリーバーとは？次元削減で検索が早くなる！

OpenAIのAPIに次元削減という機能がつきました。 dimensionsというキーに次元数を指定すると、その次元に削減ができます。 openai.embeddings.create({ model: 'text-embedding-3-large', input: 'The cat chases the mouse', dimensions: 1024, # 1024まで次元削減する }) ちなみにdimensionsを指定しないとフルサイズで埋め込みが作成されます。このオプションについてLangChainが記事を出していたので解説します。埋め込みとは文章、画像、動画などの類似度を得ることができるベクトル表現です。物の位置を知るためにX,Y,Z軸の3軸で表現しますが、これは3次元のベクトル表現です。埋め込みベクトルはこれが数千とか数万になります。 [-0.023972103,

sh19910711 2025/09/20

2024 / "削減された次元のベクターストアで検索を高速に行い、その後メタデータに保存していたフルサイズの埋め込みベクトルを使って順位付け / supabaseさんが書いたマトリョーシカ埋め込みの記事"

リンク

LightFMから始める推薦システム入門

アドベントカレンダー株式会社GENDAでデータサイエンティストをしているtoma2です。この記事は、GENDAアドベントカレンダー2023の9日目の記事になります。 GENDAアドベントカレンダーでは、プロダクト開発や組織開発に関わるメンバーを中心に多様なテーマの記事を投稿しています。ぜひ、購読登録をしていただき12月25日までお楽しみください。はじめに最近、推薦モデルを調べる中でLightFMについて勉強したので、その内容をまとめとデータセットMovieLensでの実行例を示します。また、私が推薦モデルから推薦システムを作ろうとした際に躓いた、新規データへの対応やモデル更新といった実用的な内容も記載しています。参考文献こうもとさんのブログ「宇宙日本世田谷機械学習」は、lightFMの理論から実用上の細かい点まで詳しく記載されており、大変参考にさせていただきました。 Li

sh19910711 2025/09/20

2023 / "LightFM: 名前の通り動作が軽くCPUで動き + 環境構築が比較的容易で入門に最適 / Pythonライブラリであるlightfmの完成度が非常に高い + データ形式の変換関数やloss functionなどが充実"

リンク

Pocochaにおけるロングテールな推薦モデルの開発 | BLOG - DeNA Engineering

自己紹介初めまして。京都大学工学部情報学科４回生の羽路悠斗です。8/16~9/9にAIスペシャリストコースの就業型インターンシップに参加しておりました。普段は、テーブルデータの分析・機械学習エンジニアのアルバイトと、深層学習のプロジェクト型アルバイトをしています。Kaggleでは銀メダル２枚のKaggle Expert で、金メダルを獲れるよう精進しています。卒業研究では、表情認識への画像生成の活用に取り組む予定です。本記事では、インターンシップで取り組んだ、ライブ配信アプリ「Pococha」の推薦の工夫について、執筆したいと思います。取り組んだテーマ本インターンシップで取り組んだテーマは、「ライブ配信アプリPocochaにおけるロングテールプラットフォームを実現するための推薦モデルの開発」です。 Pocochaのプロダクト設計においては、「ロングテール」なサービスを作ることを大

sh19910711 2025/09/16

2022 / "ジニ係数: 元々は所得の不平等さを測る指標 + 配信者の出現回数を所得とみなして適用 + 小さいほど、より平等を表す"

リンク

論文輪読: Order-Embeddings of Images and Language

CEDEC2021 ダウンロード時間を大幅減！～大量のアセットをさばく高速な実装と運用事例の共有～

sh19910711 2025/09/16

2016 / "半順序関係をモデル化し学習するためのシンプルな手法 / Image Captioning: 画像の抽象化と考えられる + 意味論的な上下関係を表してるに過ぎない"

リンク

BERTを用いて膨大なコンテンツにメタデータを自動付与する〜 Yahoo!ショッピングの商品属性推定

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo! JAPAN研究所の鍜治です。みなさんはコンテンツにメタデータを付与したいとき、どのようにしていますか？　もちろん手作業で付与することもできますが、コンテンツ量が膨大なときには、自動的にメタデータを付与できる仕組みがあると便利だと思いませんか？私がリーダーを務めている研究開発チームでは、Yahoo!ショッピングの商品に属性というメタデータを自動付与するため、BERTを用いた商品属性推定モデルを開発しています。本記事では、そもそも商品の属性とはどういうものなのか、どのようにBERTを使っているのか、既存モデルと精度はどのくらい違うのか、などについてお話したいと思いますので、よろしくお願いします。 Yaho