[B! *algorithm][NLP][search] sh19910711のブックマーク

Owl/Crow：ModernBERTをゼロから学習したコード検索特化モデル

※追記（2025/11/19）記事タイトルをより内容に即したものへ変更しましたトークナイザの構築に関するセクションを新たに追加しました言い回しを少し修正しましたはじめまして。私は大学でコード特化言語モデルを利用したコード検索の研究を行っています。概要本記事では、従来の CodeBERT / GraphCodeBERT 系モデルでは扱いづらかった最大 512 トークンという入力長の制約 FlashAttention 非対応による学習・推論コストの高さ事前学習・追加学習の再現性の低さといった課題を踏まえつつ、ModernBERT アーキテクチャを用いてスクラッチ学習（ゼロから学習）からコード検索向けの埋め込みモデルを自作・公開するまでをまとめました。具体的には、以下の点を中心に紹介します。既存のコード特化言語モデル（CodeBERT / GraphCodeBERT 等

sh19910711 2025/11/19

"行単位のマスキング（Span Masking）を用いて継続事前学習 / 行レベルで文脈を落とす事前学習が検索性能を底上げ / StarCoder: GitHub 上の大規模コードをライセンス準拠で収集したデータセット"

リンク

NLP2025 参加報告 - Gunosy Tech Blog

こんにちは、データサイエンス部の森田、大城、新規事業開発室の井口です。もう気がつけば開催から一月経ってしまいましたが、今回の記事は 3/10 ~ 3/14 の 5 日間にわたって開催された言語処理学会第 31 回年次大会 (NLP2025) の参加レポートになります。スポンサーしてます NLP2025 について論文紹介 [P8-15] 逆プロンプトを用いたコールドスタート推薦 [A2-1] 大規模言語モデルにおける複数の指示追従成功率を個々の指示追従成功率から推定する [A5-4] プロンプトに基づくテキスト埋め込みのタスクによる冗長性の違いまとめ NLP2025 について言語処理学会は人工知能の一分野である（自然）言語処理を専門とする学会です。近年は特に LLM の話題が多く、参加者の幅も広がっているようです。昨年に引き続きオフライン・オンラインのハイブリッド開催となり、長崎

sh19910711 2025/06/11

"P8-15: 「逆プロンプトを用いたコールドスタート推薦」 / 質問形式を逆転させ「このユーザーはどのようなアイテムを好むか」という質問で好みそうなアイテムの擬似サンプルを得ることで学習データを拡張"

リンク

最強DB講義 #35 大規模言語モデルに基づく検索モデル

BERTやGPTなどの大規模言語モデルに基づく検索モデルは、様々なテストコレクションにおいて優れた性能を発揮し多くの注目を集めている。これまでに様々な検索モデルが提案されてきており、大規模言語モデルの情報検索への適用は、実サービスにおいても一般的なものとなっている。本講義では、大規模言語モデルを利用した…

sh19910711 2025/05/30

2024 / "情報検索モデルの分類: クエリ・文書が密表現/疎表現されるか + 教師あり/教師なし / SPLADE: 教師あり疎検索モデル + クエリと文書を拡張し各トークンの重みを推定"

リンク

Raggle第2回コンペ - StaticEmbeddingで安全に爆速RAGを実施する

Raggleの第2回コンペでアイデア賞をいただいたのでメモ。ありがとうございます〜ソースコード下記を参考に、Transf ormerモデル組み込みたいんやけど...と生成AIに相談してコード作りました。要件定義と手元デバッグ野郎でした。解法のコアこのツイートにほぼすべてが詰まっています。Twitter最高! Transf ormerではないEmbeddingモデルである、static-embedding-japaneseをベクトル検索に用いました。著者のセコンさんもTwitterに書いてくださっていますが、CPUでも爆速でEmbeddingできます。今回のコンペで使った文書のEmbeddingに使う時間を比較してみたところ、以下の通りでした。モデル時間上記は 396chunks（1chunk, 1000文字ごとチャンク）での計測時間です。 ※ 各々のCPUのスペックやOpe

sh19910711 2025/05/27

"OpenAIのtext-embeeding-smallとアンサンブル / StaticEmbeddingで類似度を計算し、コサイン類似度が0.9を下回っている場合のみRAGの候補として追加とすることで参考情報の多様性を担保"

リンク

日本語 BERT RetroMAE モデルの公開と、後続検索タスクでの評価 - A Day in the Life

結果として、ほぼ全てのスコアにおいて性能向上が確認されており、RetroMAEの有益性が確認された。また学習方法も、教師なしでテキストのみを与えれば良いという手軽さも実用性が高いであろう。 RetroMAE について RetroMAEの特徴は、Masked Auto-Encoderの手法を採用しながら、以下の3つの設計を取り入れた点である。入力文に対して異なるマスクを適用する新しいワークフローエンコーダーとデコーダーで非対称な構造を採用エンコーダーとデコーダーで異なるマスク率を使用これらの工夫により、文書の意味をより深く理解し、効果的な検索を可能にする表現学習を実現している。実際の評価においても、BEIRやMS MARCOなどのベンチマークで優れた性能を示している。また高性能のマルチリンガル密ベクトルモデルの BAAI/bge-m3 も RetroMAE を用いた事前学習を行なって

sh19910711 2025/05/01

2024 / "BERT: 主にトークンレベルのタスクで事前学習されており、文レベルの表現力が十分に発達していないという課題 / RetroMAE: 検索に特化した事前学習 + 入力文に対して2つの異なるマスクを適用"

リンク

KDD 2024 参加レポート

これを見ると、Rec Sys 1、Rec Sys 2などでは、評価指標に関する研究からモバイル端末内で行われる推薦、Cold-start問題への対処に関するものなど幅広い推薦システムに関する研究が発表されていました。多くの研究は既存の手法の問題点を発見、その問題を解決する手法を提案するような研究でしたが、On (Normalised) Discounted Cumulative Gain as an Off-Policy Evaluation Metric for Top-nnn Recommendationでは推薦問題で一般的に使用されているnDCGがどの程度オンライン実験の結果を近似できるのかを調査し、DCG指標がオフライン実験/オンライン実験に対して不偏となる状況でもnDCGは手法の相対順位が変動する可能性があることを示していました。 DIET: Customized Slimmi

sh19910711 2024/10/18

"PAAC: Popularity Biasを軽減 + 特にマイナーアイテムに対する性能改善 / マイナーアイテム: 一部のユーザーのログにしか含まれない + そのユーザーのembeddingに適応し過ぎて過学習する" doi:10.1145/3637528.3671824 KDD'24

リンク

【YANS2022 チュートリアル】学術情報検索と推薦

NLP若手の会 (YANS) 第17回シンポジウム（2022年8月29日）のチュートリアル講演資料です。雑談などのスライドは省いてあります。

sh19910711 2024/09/21

"著者の95%はh-indexが0~13であり、ほとんどの著者は互いに区別をつけることが難しい / h-index: h内に入らない論文を評価できない + 引用のされ方は分野によって大きく異なるため、同一分野内での評価にしか使えない" YANS'22

リンク

Item2Vecを用いて推薦システムを構築するときに気をつけること - Qiita

NTTドコモの久保田です。2度目の登場です。みなさんIt em2Vecという技術をご存じでしょうか。 It em2Vecとは、文章から単語の分散表現を獲得するWord2Vecを推薦システムに適用した技術です。具体的にECサイトでの推薦を考えたときに、Word2Vecの単語を商品に、文章をユーザが評価したアイテム集合として、アイテムの分散表現を獲得し、アイテム間の類似度などをもとに推薦していく感じです。簡単に実装できるので、割とやってみた系の記事が多いですが、実際に推薦システムへの適用を考えたときに気を付けるところがあります。 It em2Vecの実装方針 gensimというトピック分析のライブラリがあり、このライブラリを使えば簡単にIt em2Vecを実装できます。 1行をユーザが評価しているアイテム集合、各アイテムはスペースで区切られたテキストファイル(今回は、it em_buskets.tx

sh19910711 2024/05/30

"ns_exponent (gensim): negative samplingする分布の形状 + デフォルトでは0.75 + 0だとランダムサンプリング + 負の値になると頻度が低いもの / 音楽系のデータセットでデフォルトの2倍ぐらい + Click-Stream datasetでは約10倍の精度向上" 2019

リンク

複数の関連度から検索可能な BGE M3-Embedding の紹介 - Algomatic Tech Blog

こんにちは。Algomatic の宮脇（@catshun_）です。本記事では文書検索において一部注目された BGE M3-Embedding について簡単に紹介します。 Chen+'24 - BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation おことわり本記事では精読レベルの詳細な解説は含みません。詳細については参照元の論文をご確認ください。不十分また不適切な言及内容がございましたらご指摘いただけますと幸いです。プロダクト等の利用時は必ずライセンスや利用規約を参照して下さい。本記事で紹介する論文は Work in progress とコメントされており今後内容が更新される可能

sh19910711 2024/05/02

"ベクトル表現を用いた類似度算出に基づく検索は sparse retrieval, dense retrieval, multi-vector retrieval に大別 / M3-Embedding: これら 3 つの機能を有する高性能な埋め込みモデルとして提案" arXiv:2402.03216

リンク

言語モデルを用いたQuery Categorizationへの取り組み / LM-based query categorization for query understanding

sh19910711 2024/04/28

"Query Categorization: 検索クエリを事前に定義した分類にカテゴライズ + 意図・トピック・パフォーマンス / ルールベース: シンプルながらも確実に効果 + 一部の検索エンジンではデフォルトでサポート（Algolia, Vespa, etc.）" 2023

リンク

【情報科学若手の会 2023秋軽井沢】大規模言語モデル(BERT)を用いたニュース推薦のPyTorchによる実装と評価

このセッションでは言語モデルの実応用の一例として大規模言語モデル(BERT)を用いたニュース推薦に関する内容を発表します。ニュース推薦分野において高い性能を出すことで知られるNRMS(BERT)というモデルをPyTorchで実装し、nDCGやMRRといった指標で評価を行いました。モデルの学習には、Mic…

sh19910711 2024/04/21

"PLM-NR: ニュースベクトルとユーザーベクトルの獲得にBERT + 実際にMicrosoft Newsにリリース / User Encoder: 過去に読んだ記事T本をNews Encoderでベクトル化 + Multihead Attentionに入力 + Additive Attentionで加重平均→ベクトルuに集約" 2023

リンク

VRAMが少ない環境でLLMを効率的にfine-tuneしてベクトル検索を実現する

LLM周りの基本的な知識とTransf ormersをもっと扱えるようになりたくて、最近大規模言語モデル入門を読んでいたのですが、その中で「メモリ効率の良いファインチューニング」という節が面白くて色々自分で試してみていたりしました。ここでは、自分の手元で文章の類似度を計算するモデルをファインチューンして作って見たので、それについて書きたいと思います。実験環境 Ubuntu 20.04 NVIDIA RTX2080 (VRAM: 8GB) Python 3.11 実験文章の類似度を計算するモデルを作るために、JGLUEのJSTSというデータセットを利用しました。このデータセットはHugging Face上から取得することが可能で、以下のようなカラムを持ったデータを使うことが可能です。 sentence1: 1つめの文章 sentence2: 2つめの文章 label: 文章間の類似度(0

sh19910711 2024/04/17

"大規模言語モデル入門: 「メモリ効率の良いファインチューニング」という節 / 勾配チェックポインティング: メモリ使用量を抑える代わりに計算スピードが少し落ちる + VRAMの使用量は半分以下まで激減" 2023

リンク

Solr から使う OpenNLP の日本語固有表現抽出

1.9.0 から日本語が正式サポートになったApache OpenNLPを、Apache Solr から便利に使いましょう！

sh19910711 2024/04/07

"Apache OpenNLP: 1.9.0から日本語が正式サポート / Solr + OpenNLP: Solr 7.3.0以降 / 系列ラベリング: データ系列の入力に対し、クラスの系列を出力 + 品詞タグ付け、固有表現抽出" LUCENE-2899 2018

リンク

自然言語処理による類似資料のベクトル検索

--- カテゴリ名が"人"と部分一致する記事を削除 DELETE FROM article WHERE page_id IN ( SELECT page_id FROM categorylinks WHERE category LIKE '%人%' ); また本来の目的では全文を変換するのだが、時間的な理由で冒頭510tokenのみを扱う。 510tokenは例えば以下の量である。725文字は思ったより多くの情報を取り込めており、検索的にも問題ないと感じた。アンパサンドアンパサンド(&,)は、並立助詞「…と…」を意味する記号である。ラテン語で「…と…」を表す接続詞 "et" の合字を起源とする。現代のフォントでも、Trebuchet MS など一部のフォントでは、"et" の合字であることが容易にわかる字形を使用している。英語で教育を行う学校でアルファベットを復唱する場合、その文字自体

sh19910711 2024/04/06

"BERTの良さは事前学習と長い文脈を加味した特徴抽出なので、検索のような単語が重要なタスクには素では向いていないのかもしれない / 文章が長いほど正確に類似度の高い資料を検索できる" line-distilbert-base-japanese 2023

リンク

多言語E5をファインチューニングして検索性能を向上させる - Ahogrammer

多言語のテキスト埋め込み用のモデルであるMultilingual-E5[1]をファインチューニングして、検索性能が向上するか否かを日本語のデータセット検証してみました。結果としては、ファインチューニングすることで、OpenAIのtext-embedding-ada-002を上回る性能を確認できました。なお、E5については以下の記事で解説しているので、必要に応じて参照してください。 hironsan.hatena blog.com 本記事の構成は次のとおりです。実験設定実験結果参考資料実験設定今回の実験では、多言語E5をファインチューニングして得られたモデルをベクトル検索に使うことで、検索性能がどのように変化するかを検証します。多言語E5にはbaseとlargeの2つのモデルがあるので、これらをファインチューニングする前後の検索性能を測定することにします。また、比較用のモデルとしてO

sh19910711 2024/04/05

"Multilingual-E5: 多言語のテキスト埋め込み + ファインチューニングすることで、OpenAIのtext-embedding-ada-002を上回る性能 / SentenceTransformersのMultipleNegativesRankingLoss: 正しいQAペアを正例、それ以外の組み合わせを負例として使う" 2023

リンク

The AI workspace that works for you. | Notion

A tool that connects everyday work into one space. It gives you and your teams AI tools—search, writing, note-taking—inside an all-in-one, flexible workspace.

sh19910711 2024/03/15

"Vespa: 検索技術を理解していないと、そもそも使うことすら難しい（イメージ） + 反面、検索技術を理解している人が適切に使う場合、さまざまなことができる（イメージ） / ColBERT: 自社ドメインデータの学習が楽そう"

リンク

Google Slides: Sign-in

Not your computer? Use a private browsing window to sign in. Learn more

sh19910711 2023/04/13

"微分可能な検索インデックス: arXiv:2202.06991 + NeurIPS 2022/ LLMの活用において前処理としての検索が重要 / あらかじめ文章をクラスタリングしておき、トライ木構造で、文章IDを割り振っていく + 似ている文章が似た接頭辞"

リンク

最近のニュース記事推薦手法まとめ〜固有表現の利用から多様性の向上まで〜 - Gunosyデータ分析ブログ

はじめに他ドメインと比較したニュース記事推薦の特徴 1. ライフサイクルの短さがもたらすコールドスタート問題 2. 深い言語理解の必要性 3. 明示的なフィードバックの利用の難しさトピック別ニュース記事推薦手法記事の人気度合い（popularity）の考慮概要既存研究固有表現（Named Entity）の明示的な考慮概要知識グラフと知識グラフ埋め込み既存研究リッチな言語表現の利用概要既存研究明示的なユーザーフィードバック・post click指標の利用概要既存研究ユーザーの興味をより正確に捉えるアーキテクチャ概要既存研究今後のチャレンジおわりにはじめにこんにちは、Gunosy Tech Lab (GTL) Media ML チームの大竹です。Gunosyでは「情報を世界中の人に最適に届ける」というミッションのもと、グノシー・ニュースパス・LUCR

sh19910711 2022/10/13

"Wang18: タイトルとタイトルに含まれる entity からニュースの埋め込み / Liu19: Microsoft が開発している Satori と呼ばれる知識グラフを~ / Lee20: 予測されたトピックの関係を知識グラフに付加、拡張された知識グラフ上で学習"

リンク

10X の検索を 10x したいパートII - 10X Product Blog

今 Q もお疲れさまでした！10X の @metalunk です． 3ヶ月前に 10X の検索を 10x したいというブログを書きました．その記事にあるとおり，1-3月で検索インフラの改善を実施し，検索速度 10x, インフラコスト 80% 削減という成果をあげました．そして，直近の3ヶ月では検索精度の改善に取り組みました．この記事では今 Q にリリースした機能と，それぞれの効果を説明します．長い記事になったので飛ばし飛ばし読んでください．どんな Q だったか KPI の変化 Zero match rate Conversion rate リリースした機能検索キーワードサジェストシステム概要評価カテゴリフィルタ並び順の改善評価 bigram 解説評価シノニム辞書を Search time に展開解説イベントログからシノニムルールの生成解説改善の背景 KPI D

sh19910711 2022/07/12

"行動ログからシノニム辞書: 「ポテチ」で検索したときに検索結果が0件 => 「ポテトチップス」で検索したら商品が出てきて，カート追加 > 同義語であることを表現 / esqa: 検索結果の保存，比較 + Ubie が OSS として提供"

リンク

かしこい検索システムを作れるOSS「Jina」を使ってみた！ - Qiita

はじめに昨今、深層学習技術の発展にはめざましいものがあります。自然言語の単語や文の意味を捉えた類似検索や質問応答であったり、画像の内容に関する説明文の生成であったりと、ワクワクさせるものが日々登場しています。それらの技術を使ってよりかしこい検索システムを作ることができれば、これまでうまく活用されていなかったデータの活用促進につながり、より生産性を上げられるのではないかと妄想する毎日を送っていました。しかし、一からそのような検索システムを構築するのは非常に困難です。そのため、なかなか一歩を踏み出せずにいたのですが、最近面白いOSSを見つけました。その名も Jina です。（発音は公式動画等を見る限り「ジーナ」のようです）今回は、このJinaについて簡単に紹介しつつ、デモを動かしていきたいと思います。 Jinaって何？ Jinaは、Han Xiao氏1によって2020年に立ち上

sh19910711 2022/05/27

2020 / "Jina: Han Xiao氏によって2020年に立ち上げられたベンチャーであるJina AIによって開発 / クロスモーダル検索: テキストを与えてその内容に近い画像を検索したり、逆に画像を与えてその内容に近いテキストを検索したり"

リンク

はてなブックマーク

タグ

関連タグで絞り込む (0)

*algorithmとNLPとsearchに関するsh19910711のブックマーク (31)

お知らせ

今週のはてなブックマーク数ランキング（2025年11月第4週）

はてなブックマーク一部機能のメンテナンスに関するお知らせ

今週のはてなブックマーク数ランキング（2025年11月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス