タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

*algorithmとNLPとsearchに関するsh19910711のブックマーク (29)

  • NLP2025 参加報告 - Gunosy Tech Blog

    こんにちは、データサイエンス部の森田、大城、新規事業開発室の井口です。 もう気がつけば開催から一月経ってしまいましたが、今回の記事は 3/10 ~ 3/14 の 5 日間にわたって開催された言語処理学会第 31 回年次大会 (NLP2025) の参加レポートになります。 スポンサーしてます NLP2025 について 論文紹介 [P8-15] 逆プロンプトを用いたコールドスタート推薦 [A2-1] 大規模言語モデルにおける複数の指示追従成功率を個々の指示追従成功率から推定する [A5-4] プロンプトに基づくテキスト埋め込みのタスクによる冗長性の違い まとめ NLP2025 について 言語処理学会は人工知能の一分野である(自然)言語処理を専門とする学会です。近年は特に LLM の話題が多く、参加者の幅も広がっているようです。 昨年に引き続きオフライン・オンラインのハイブリッド開催となり、長崎

    NLP2025 参加報告 - Gunosy Tech Blog
    sh19910711
    sh19910711 2025/06/11
    "P8-15: 「逆プロンプトを用いたコールドスタート推薦」 / 質問形式を逆転させ「このユーザーはどのようなアイテムを好むか」という質問で好みそうなアイテムの擬似サンプルを得ることで学習データを拡張"
  • 最強DB講義 #35 大規模言語モデルに基づく検索モデル

    BERTやGPTなどの大規模言語モデルに基づく検索モデルは、様々なテストコレクションにおいて優れた性能を発揮し多くの注目を集めている。これまでに様々な検索モデルが提案されてきており、大規模言語モデルの情報検索への適用は、実サービスにおいても一般的なものとなっている。講義では、大規模言語モデルを利用した…

    最強DB講義 #35 大規模言語モデルに基づく検索モデル
    sh19910711
    sh19910711 2025/05/30
    2024 / "情報検索モデルの分類: クエリ・文書が密表現/疎表現されるか + 教師あり/教師なし / SPLADE: 教師あり疎検索モデル + クエリと文書を拡張し各トークンの重みを推定"
  • Raggle第2回コンペ - StaticEmbeddingで安全に爆速RAGを実施する

    Raggleの第2回コンペでアイデア賞をいただいたのでメモ。ありがとうございます〜 ソースコード 下記を参考に、Transformerモデル組み込みたいんやけど...と生成AI相談してコード作りました。要件定義と手元デバッグ野郎でした。 解法のコア このツイートにほぼすべてが詰まっています。Twitter最高! TransformerではないEmbeddingモデルである、static-embedding-japaneseをベクトル検索に用いました。 著者のセコンさんもTwitterに書いてくださっていますが、CPUでも爆速でEmbeddingできます。 今回のコンペで使った文書のEmbeddingに使う時間を比較してみたところ、以下の通りでした。 モデル 時間 上記は 396chunks(1chunk, 1000文字ごとチャンク) での計測時間です。 ※ 各々のCPUのスペックやOpe

    Raggle第2回コンペ - StaticEmbeddingで安全に爆速RAGを実施する
    sh19910711
    sh19910711 2025/05/27
    "OpenAIのtext-embeeding-smallとアンサンブル / StaticEmbeddingで類似度を計算し、コサイン類似度が0.9を下回っている場合のみRAGの候補として追加とすることで参考情報の多様性を担保"
  • 日本語 BERT RetroMAE モデルの公開と、後続検索タスクでの評価 - A Day in the Life

    結果として、ほぼ全てのスコアにおいて性能向上が確認されており、RetroMAEの有益性が確認された。また学習方法も、教師なしでテキストのみを与えれば良いという手軽さも実用性が高いであろう。 RetroMAE について RetroMAEの特徴は、Masked Auto-Encoderの手法を採用しながら、以下の3つの設計を取り入れた点である。 入力文に対して異なるマスクを適用する新しいワークフロー エンコーダーとデコーダーで非対称な構造を採用 エンコーダーとデコーダーで異なるマスク率を使用 これらの工夫により、文書の意味をより深く理解し、効果的な検索を可能にする表現学習を実現している。実際の評価においても、BEIRやMS MARCOなどのベンチマークで優れた性能を示している。また高性能のマルチリンガル密ベクトルモデルの BAAI/bge-m3 も RetroMAE を用いた事前学習を行なって

    日本語 BERT RetroMAE モデルの公開と、後続検索タスクでの評価 - A Day in the Life
    sh19910711
    sh19910711 2025/05/01
    2024 / "BERT: 主にトークンレベルのタスクで事前学習されており、文レベルの表現力が十分に発達していないという課題 / RetroMAE: 検索に特化した事前学習 + 入力文に対して2つの異なるマスクを適用"
  • KDD 2024 参加レポート

    これを見ると、Rec Sys 1、Rec Sys 2などでは、評価指標に関する研究からモバイル端末内で行われる推薦、Cold-start問題への対処に関するものなど幅広い推薦システムに関する研究が発表されていました。 多くの研究は既存の手法の問題点を発見、その問題を解決する手法を提案するような研究でしたが、On (Normalised) Discounted Cumulative Gain as an Off-Policy Evaluation Metric for Top-nnn Recommendationでは推薦問題で一般的に使用されているnDCGがどの程度オンライン実験の結果を近似できるのかを調査し、DCG指標がオフライン実験/オンライン実験に対して不偏となる状況でもnDCGは手法の相対順位が変動する可能性があることを示していました。 DIET: Customized Slimmi

    KDD 2024 参加レポート
    sh19910711
    sh19910711 2024/10/18
    "PAAC: Popularity Biasを軽減 + 特にマイナーアイテムに対する性能改善 / マイナーアイテム: 一部のユーザーのログにしか含まれない + そのユーザーのembeddingに適応し過ぎて過学習する" doi:10.1145/3637528.3671824 KDD'24
  • 【YANS2022 チュートリアル】学術情報検索と推薦

    NLP若手の会 (YANS) 第17回シンポジウム (2022年8月29日)のチュートリアル講演資料です。 雑談などのスライドは省いてあります。

    【YANS2022 チュートリアル】学術情報検索と推薦
    sh19910711
    sh19910711 2024/09/21
    "著者の95%はh-indexが0~13であり、ほとんどの著者は互いに区別をつけることが難しい / h-index: h内に入らない論文を評価できない + 引用のされ方は分野によって大きく異なるため、同一分野内での評価にしか使えない" YANS'22
  • Item2Vecを用いて推薦システムを構築するときに気をつけること - Qiita

    NTTドコモの久保田です。2度目の登場です。 みなさんItem2Vecという技術をご存じでしょうか。 Item2Vecとは、文章から単語の分散表現を獲得するWord2Vecを推薦システムに適用した技術です。具体的にECサイトでの推薦を考えたときに、Word2Vecの単語を商品に、文章をユーザが評価したアイテム集合として、アイテムの分散表現を獲得し、アイテム間の類似度などをもとに推薦していく感じです。 簡単に実装できるので、割とやってみた系の記事が多いですが、実際に推薦システムへの適用を考えたときに気を付けるところがあります。 Item2Vecの実装方針 gensimというトピック分析のライブラリがあり、このライブラリを使えば簡単にItem2Vecを実装できます。 1行をユーザが評価しているアイテム集合、各アイテムはスペースで区切られたテキストファイル(今回は、item_buskets.tx

    Item2Vecを用いて推薦システムを構築するときに気をつけること - Qiita
    sh19910711
    sh19910711 2024/05/30
    "ns_exponent (gensim): negative samplingする分布の形状 + デフォルトでは0.75 + 0だとランダムサンプリング + 負の値になると頻度が低いもの / 音楽系のデータセットでデフォルトの2倍ぐらい + Click-Stream datasetでは約10倍の精度向上" 2019
  • 複数の関連度から検索可能な BGE M3-Embedding の紹介 - Algomatic Tech Blog

    こんにちは。Algomatic の宮脇(@catshun_)です。 記事では文書検索において一部注目された BGE M3-Embedding について簡単に紹介します。 Chen+'24 - BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation おことわり 記事では精読レベルの 詳細な解説は含みません。 詳細については 参照元の論文をご確認ください。 不十分また不適切な言及内容がございましたらご指摘いただけますと幸いです。 プロダクト等の利用時は 必ずライセンスや利用規約を参照して下さい。 記事で紹介する 論文 は Work in progress とコメントされており今後内容が更新される可能

    複数の関連度から検索可能な BGE M3-Embedding の紹介 - Algomatic Tech Blog
    sh19910711
    sh19910711 2024/05/02
    "ベクトル表現を用いた類似度算出に基づく検索は sparse retrieval, dense retrieval, multi-vector retrieval に大別 / M3-Embedding: これら 3 つの機能を有する高性能な埋め込みモデルとして提案" arXiv:2402.03216
  • 言語モデルを用いたQuery Categorizationへの取り組み / LM-based query categorization for query understanding

    sh19910711
    sh19910711 2024/04/28
    "Query Categorization: 検索クエリを事前に定義した分類にカテゴライズ + 意図・トピック・パフォーマンス / ルールベース: シンプルながらも確実に効果 + 一部の検索エンジンではデフォルトでサポート(Algolia, Vespa, etc.)" 2023
  • VRAMが少ない環境でLLMを効率的にfine-tuneしてベクトル検索を実現する

    LLM周りの基的な知識とTransformersをもっと扱えるようになりたくて、最近 大規模言語モデル入門を読んでいたのですが、その中で「メモリ効率の良いファインチューニング」という節が面白くて色々自分で試してみていたりしました。ここでは、自分の手元で文章の類似度を計算するモデルをファインチューンして作って見たので、それについて書きたいと思います。 実験環境 Ubuntu 20.04 NVIDIA RTX2080 (VRAM: 8GB) Python 3.11 実験 文章の類似度を計算するモデルを作るために、JGLUEのJSTSというデータセットを利用しました。このデータセットはHugging Face上から取得することが可能で、以下のようなカラムを持ったデータを使うことが可能です。 sentence1: 1つめの文章 sentence2: 2つめの文章 label: 文章間の類似度(0

    VRAMが少ない環境でLLMを効率的にfine-tuneしてベクトル検索を実現する
    sh19910711
    sh19910711 2024/04/17
    "大規模言語モデル入門: 「メモリ効率の良いファインチューニング」という節 / 勾配チェックポインティング: メモリ使用量を抑える代わりに計算スピードが少し落ちる + VRAMの使用量は半分以下まで激減" 2023
  • Solr から使う OpenNLP の日本語固有表現抽出

    Jul 20, 2018Download as PPTX, PDF1 like3,771 views

    Solr から使う OpenNLP の日本語固有表現抽出
    sh19910711
    sh19910711 2024/04/07
    "Apache OpenNLP: 1.9.0から日本語が正式サポート / Solr + OpenNLP: Solr 7.3.0以降 / 系列ラベリング: データ系列の入力に対し、クラスの系列を出力 + 品詞タグ付け、固有表現抽出" LUCENE-2899 2018
  • 自然言語処理による類似資料のベクトル検索

    --- カテゴリ名が"人"と部分一致する記事を削除 DELETE FROM article WHERE page_id IN ( SELECT page_id FROM categorylinks WHERE category LIKE '%人%' ); また来の目的では全文を変換するのだが、時間的な理由で冒頭510tokenのみを扱う。 510tokenは例えば以下の量である。725文字は思ったより多くの情報を取り込めており、検索的にも問題ないと感じた。 アンパサンド アンパサンド(&,)は、並立助詞「…と…」を意味する記号である。ラテン語で「…と…」を表す接続詞 "et" の合字を起源とする。現代のフォントでも、Trebuchet MS など一部のフォントでは、"et" の合字であることが容易にわかる字形を使用している。英語教育を行う学校でアルファベットを復唱する場合、その文字自体

    自然言語処理による類似資料のベクトル検索
    sh19910711
    sh19910711 2024/04/06
    "BERTの良さは事前学習と長い文脈を加味した特徴抽出なので、検索のような単語が重要なタスクには素では向いていないのかもしれない / 文章が長いほど正確に類似度の高い資料を検索できる" line-distilbert-base-japanese 2023
  • 多言語E5をファインチューニングして検索性能を向上させる - Ahogrammer

    多言語のテキスト埋め込み用のモデルであるMultilingual-E5[1]をファインチューニングして、検索性能が向上するか否かを日語のデータセット検証してみました。結果としては、ファインチューニングすることで、OpenAItext-embedding-ada-002を上回る性能を確認できました。なお、E5については以下の記事で解説しているので、必要に応じて参照してください。 hironsan.hatenablog.com 記事の構成は次のとおりです。 実験設定 実験結果 参考資料 実験設定 今回の実験では、多言語E5をファインチューニングして得られたモデルをベクトル検索に使うことで、検索性能がどのように変化するかを検証します。多言語E5にはbaseとlargeの2つのモデルがあるので、これらをファインチューニングする前後の検索性能を測定することにします。また、比較用のモデルとしてO

    多言語E5をファインチューニングして検索性能を向上させる - Ahogrammer
    sh19910711
    sh19910711 2024/04/05
    "Multilingual-E5: 多言語のテキスト埋め込み + ファインチューニングすることで、OpenAIのtext-embedding-ada-002を上回る性能 / SentenceTransformersのMultipleNegativesRankingLoss: 正しいQAペアを正例、それ以外の組み合わせを負例として使う" 2023
  • The AI workspace that works for you. | Notion

    A tool that connects everyday work into one space. It gives you and your teams AI tools—search, writing, note-taking—inside an all-in-one, flexible workspace.

    The AI workspace that works for you. | Notion
    sh19910711
    sh19910711 2024/03/15
    "Vespa: 検索技術を理解していないと、そもそも使うことすら難しい(イメージ) + 反面、検索技術を理解している人が適切に使う場合、さまざまなことができる(イメージ) / ColBERT: 自社ドメインデータの学習が楽そう"
  • Google Slides: Sign-in

    Not your computer? Use a private browsing window to sign in. Learn more

    Google Slides: Sign-in
    sh19910711
    sh19910711 2023/04/13
    "微分可能な検索インデックス: arXiv:2202.06991 + NeurIPS 2022/ LLMの活用において前処理としての検索が重要 / あらかじめ文章をクラスタリングしておき、トライ木構造で、文章IDを割り振っていく + 似ている文章が似た接頭辞"
  • 最近のニュース記事推薦手法まとめ 〜固有表現の利用から多様性の向上まで〜 - Gunosyデータ分析ブログ

    はじめに 他ドメインと比較したニュース記事推薦の特徴 1. ライフサイクルの短さがもたらすコールドスタート問題 2. 深い言語理解の必要性 3. 明示的なフィードバックの利用の難しさ トピック別ニュース記事推薦手法 記事の人気度合い(popularity)の考慮 概要 既存研究 固有表現(Named Entity)の明示的な考慮 概要 知識グラフと知識グラフ埋め込み 既存研究 リッチな言語表現の利用 概要 既存研究 明示的なユーザーフィードバック・post click指標の利用 概要 既存研究 ユーザーの興味をより正確に捉えるアーキテクチャ 概要 既存研究 今後のチャレンジ おわりに はじめに こんにちは、Gunosy Tech Lab (GTL) Media ML チームの大竹です。Gunosyでは「情報を世界中の人に最適に届ける」というミッションのもと、グノシー・ニュースパス・LUCR

    最近のニュース記事推薦手法まとめ 〜固有表現の利用から多様性の向上まで〜 - Gunosyデータ分析ブログ
    sh19910711
    sh19910711 2022/10/13
    "Wang18: タイトルとタイトルに含まれる entity からニュースの埋め込み / Liu19: Microsoft が開発している Satori と呼ばれる知識グラフを~ / Lee20: 予測されたトピックの関係を知識グラフに付加、拡張された知識グラフ上で学習"
  • 10X の検索を 10x したい パートII - 10X Product Blog

    今 Q もお疲れさまでした!10X の @metalunk です. 3ヶ月前に 10X の検索を 10x したい というブログを書きました.その記事にあるとおり,1-3月で検索インフラの改善を実施し,検索速度 10x, インフラコスト 80% 削減という成果をあげました.そして,直近の3ヶ月では検索精度の改善に取り組みました.この記事では今 Q にリリースした機能と,それぞれの効果を説明します. 長い記事になったので飛ばし飛ばし読んでください. どんな Q だったか KPI の変化 Zero match rate Conversion rate リリースした機能 検索キーワードサジェスト システム概要 評価 カテゴリフィルタ 並び順の改善 評価 bigram 解説 評価 シノニム辞書を Search time に展開 解説 イベントログからシノニムルールの生成 解説 改善の背景 KPI D

    10X の検索を 10x したい パートII - 10X Product Blog
    sh19910711
    sh19910711 2022/07/12
    "行動ログからシノニム辞書: 「ポテチ」で検索したときに検索結果が0件 => 「ポテトチップス」で検索したら商品が出てきて,カート追加 > 同義語であることを表現 / esqa: 検索結果の保存,比較 + Ubie が OSS として提供"
  • かしこい検索システムを作れるOSS「Jina」を使ってみた! - Qiita

    はじめに 昨今、深層学習技術の発展にはめざましいものがあります。 自然言語の単語や文の意味を捉えた類似検索や質問応答であったり、画像の内容に関する説明文の生成であったりと、ワクワクさせるものが日々登場しています。 それらの技術を使ってよりかしこい検索システムを作ることができれば、これまでうまく活用されていなかったデータの活用促進につながり、より生産性を上げられるのではないかと妄想する毎日を送っていました。 しかし、一からそのような検索システムを構築するのは非常に困難です。 そのため、なかなか一歩を踏み出せずにいたのですが、最近面白いOSSを見つけました。 その名も Jina です。 (発音は公式動画等を見る限り「ジーナ」のようです) 今回は、このJinaについて簡単に紹介しつつ、デモを動かしていきたいと思います。 Jinaって何? Jinaは、Han Xiao氏1によって2020年に立ち上

    かしこい検索システムを作れるOSS「Jina」を使ってみた! - Qiita
    sh19910711
    sh19910711 2022/05/27
    2020 / "Jina: Han Xiao氏によって2020年に立ち上げられたベンチャーであるJina AIによって開発 / クロスモーダル検索: テキストを与えてその内容に近い画像を検索したり、逆に画像を与えてその内容に近いテキストを検索したり"
  • BERT を使った文書検索手法 Birch について解説 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 情報検索・検索技術 Advent Calendar 2021 の 11 日目の記事です。前回は @sz_dr さんの「ちょっとテクい検索ランキングをVespaで実現する」でした。 この記事では BERT を使った文書検索手法 Birch について解説します。 先日、「最新の情報検索手法を知るにはどうしたらいいの...という人に向けたコンテンツまとめ記事2021」という記事を公開しました: 上記の記事では、ニューラル検索手法や最新の情報検索手法を知るためのコンテンツ紹介にとどめましたが、今回の記事では実際にニューラル検索手法の一つである

    BERT を使った文書検索手法 Birch について解説 - Qiita
    sh19910711
    sh19910711 2022/04/20
    "2019 年の研究では、提案されているニューラル検索手法のほとんどがより精度の低い古い手法と比較して精度が向上したと主張していて、実際には大きく進捗していないことが報告されています"
  • Add NLP inference to ingest pipelines | Machine Learning in the Elastic Stack [8.0] | Elastic