[B! *algorithm][NLP][rep] sh19910711のブックマーク

知識拡張型言語モデルLUKE

言語処理学会第29回年次大会併設ワークショップ JLR2023 (

sh19910711 2025/09/16

2023 / "LUKE: 単語とエンティティの文脈付きベクトルを出力 / エンティティは複数の入力トークンに分割されるため、Transformer内部でエンティティ同士の関係を捉えることが難しい"

リンク

[DL輪読会] Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm

sh19910711 2025/09/03

2017 / "テキストに付与されている感情表現（顔文字・絵文字・ハッシュタグ）はDistant Supervisionで用いられ ~ / Distant Supervision: 間接的なラベルを用いてラベルなしデータをラベルありデータとして用いる"

リンク

係り受けに基づく日本語単語埋め込み - LAPRAS Tech Blog

sh19910711 2025/08/03

2019 / "Mikolovらの手法では，「ある語の周りにどのような語が現れやすいか」 + Levy らの手法では「ある語はどのような語と依存関係を持ちやすいか」 / 機能的な類似度（活用形が同じ）が高く評価"

リンク

Raggle第2回コンペ - StaticEmbeddingで安全に爆速RAGを実施する

Raggleの第2回コンペでアイデア賞をいただいたのでメモ。ありがとうございます〜ソースコード下記を参考に、Transf ormerモデル組み込みたいんやけど...と生成AIに相談してコード作りました。要件定義と手元デバッグ野郎でした。解法のコアこのツイートにほぼすべてが詰まっています。Twitter最高! Transf ormerではないEmbeddingモデルである、static-embedding-japaneseをベクトル検索に用いました。著者のセコンさんもTwitterに書いてくださっていますが、CPUでも爆速でEmbeddingできます。今回のコンペで使った文書のEmbeddingに使う時間を比較してみたところ、以下の通りでした。モデル時間上記は 396chunks（1chunk, 1000文字ごとチャンク）での計測時間です。 ※ 各々のCPUのスペックやOpe

sh19910711 2025/05/27

"OpenAIのtext-embeeding-smallとアンサンブル / StaticEmbeddingで類似度を計算し、コサイン類似度が0.9を下回っている場合のみRAGの候補として追加とすることで参考情報の多様性を担保"

リンク

言語と数理の交差点：テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)

深層学習の登場以降、機械学習と言語処理の距離はぐっと縮まった。機械学習が問題を抽象化して議論するのに対し、言語処理は言語また言語処理タスクに内在する構造や制約を前提としてモデル化を行う。例えば文の処理では文法的制約を与える木構造を前提とし、対訳辞書構築では単語をノード、対訳関係をエッジとする二部グラフを…

sh19910711 2025/05/06

2024 / "BERT: ”swing”の表現って200個あんねん / 文脈化埋め込み: 文脈なしには使いづらい + 文脈の影響が大きすぎる場合も / Tiyajamorn: 「意味」と「言語らしさ」成分の分離"

リンク

最近の埋め込みモデルのクロスリンガル検索能力をチェックする｜oshizo

私が最近経験したタスクに、クエリに英語と日本語が混在し、検索対象のドキュメントは日本語のみのクロスリンガルな検索がありました。このタスクでは、日本語クエリと比べ英語クエリによる検索精度が相対的に低い傾向が見られていました。まあそれはそうだろうという話なのですが、これを機に、今クロスリンガル検索タスクをやるにはどのモデルを選ぶと良さそうか、最近の有力なモデルを軽く比べてみました。詳細は後ろのセクションで話しますが、日本語クエリ-日本語ドキュメントを重視するならcl-nagoya/ruri-v3-310m、英語クエリを含めたバランスを重視するならCohereのembed-v4.0がよさそうな感じです。ただし、データセット1つでの簡易評価なので、ご参考までに。実際にモデルを選ぶ際はご自身のタスクで評価してみてください。 embed-v4.0はマルチモーダル対応もしているので、個人的にアツ

sh19910711 2025/04/23

"cl-nagoya/ruri-v3-310m: 日本語クエリ-日本語ドキュメント + ModernBERTベース。2025/4時点でJMTEBスコア最強 / Cohereのembed-v4.0: 英語クエリを含めたバランス + マルチモーダル対応"

リンク

テキスト埋め込みモデルPLaMo-Embedding-1Bの開発 - Preferred Networks Research & Development

2025/04初頭時点で、OpenAIのtext-embedding-3-largeなどの他社モデルを上回り、日本語テキスト埋め込みモデルとしてトップのスコアを記録しています (**)。特にテキスト埋め込みモデルの主要な用途と言えるRetrieval (検索タスク) では既存のモデルの最高スコアから2ポイント以上の更新を達成しており、情報検索での利用に適したモデルであることを示唆していると言えます。 (*) コンテキスト長1024で計測 (以降も断りがなければ同様)。これは学習時に用いたコンテキスト長が1024までであるため。ただし、ベースモデルの最大コンテキスト長であり、PLaMo-Embedding-1Bのconfig上の最大コンテキスト長である4096で計測しても、そこまで性能が下落するわけではないことがわかっています (Appendix参照)。 (**) 2025/04/14にRu

sh19910711 2025/04/21

"2つのモデルのパラメータを単純に平均する / 複雑なパラメータを持つモデルについて、単にパラメータを平均化するだけで性能が向上するというのは驚きですが、実際に今回も性能の向上が確認でき ~ "

リンク

独立成分分析を用いた埋め込み表現の視覚的な理解

sh19910711 2024/06/08

"埋め込み: 各要素の大小は解釈できない + PCAよりもICAの方が上手く解釈できる / ICA: 異なる言語の埋め込みで形と意味が共通 + 尖った形状を見つけられる + モデルやドメインの違いを超えた普遍性" doi:10.18653/v1/2023.emnlp-main.283

リンク

Item2Vecを用いて推薦システムを構築するときに気をつけること - Qiita

NTTドコモの久保田です。2度目の登場です。みなさんIt em2Vecという技術をご存じでしょうか。 It em2Vecとは、文章から単語の分散表現を獲得するWord2Vecを推薦システムに適用した技術です。具体的にECサイトでの推薦を考えたときに、Word2Vecの単語を商品に、文章をユーザが評価したアイテム集合として、アイテムの分散表現を獲得し、アイテム間の類似度などをもとに推薦していく感じです。簡単に実装できるので、割とやってみた系の記事が多いですが、実際に推薦システムへの適用を考えたときに気を付けるところがあります。 It em2Vecの実装方針 gensimというトピック分析のライブラリがあり、このライブラリを使えば簡単にIt em2Vecを実装できます。 1行をユーザが評価しているアイテム集合、各アイテムはスペースで区切られたテキストファイル(今回は、it em_buskets.tx

sh19910711 2024/05/30

"ns_exponent (gensim): negative samplingする分布の形状 + デフォルトでは0.75 + 0だとランダムサンプリング + 負の値になると頻度が低いもの / 音楽系のデータセットでデフォルトの2倍ぐらい + Click-Stream datasetでは約10倍の精度向上" 2019

リンク

複数の関連度から検索可能な BGE M3-Embedding の紹介 - Algomatic Tech Blog

こんにちは。Algomatic の宮脇（@catshun_）です。本記事では文書検索において一部注目された BGE M3-Embedding について簡単に紹介します。 Chen+'24 - BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation おことわり本記事では精読レベルの詳細な解説は含みません。詳細については参照元の論文をご確認ください。不十分また不適切な言及内容がございましたらご指摘いただけますと幸いです。プロダクト等の利用時は必ずライセンスや利用規約を参照して下さい。本記事で紹介する論文は Work in progress とコメントされており今後内容が更新される可能

sh19910711 2024/05/02

"ベクトル表現を用いた類似度算出に基づく検索は sparse retrieval, dense retrieval, multi-vector retrieval に大別 / M3-Embedding: これら 3 つの機能を有する高性能な埋め込みモデルとして提案" arXiv:2402.03216

リンク

RoFormer: Enhanced Transformer with Rotary Position Embedding - iwiwi 備忘録

arxiv.org GPT-NeoX等で使われているposition embedding。そもそも三角関数足す元祖のposition embeddingしか知らなかったので、relative position embeddingがどういうものかも知れてよかった。この手法自体は足す(additive)んじゃなくて回転させる(multicative)で、一見かなりアグレッシブな気もしたけど、足すのもまぁまぁやべーし良いかという気持ちになった。内積の大きさを制御したいと思えば全然普通かもしれない。

sh19910711 2024/04/27

"RoFormer: GPT-NeoX等で使われている + 足す(additive)んじゃなくて回転させる(multicative) / アグレッシブな気もしたけど、足すのもまぁまぁやべーし良いかという気持ちになった" arXiv:2104.09864 2023

リンク

分散表現とWord2vec｜実践的自然言語処理入門 #3 - Liberal Art’s diary

#1ではBoWと形態素解析の導入、#2では特徴語抽出とtf-idfについて取り扱いました。 #3ではここまで出てきた疎行列(Sparse matrix)の取り扱いにあたって分散表現とWord2vecについて取り扱いたいと思います。以下目次になります。 1. 疎行列の取り扱いと局所表現・分散表現 2. Word2vecの仕組み 3. Word2vecの実装 4. まとめ 1. 疎行列の取り扱いと局所表現、分散表現・背景（自然言語処理における疎行列の取り扱い問題）自然言語処理を行う際にBoW的なアプローチ（生起頻度のカウントとtf-idf値での計算のどちらも含みます）を行うにあたって一番ネックになりうるのは疎行列(Sparse matrix)の問題です。 https://scikit-learn.org/0.16/modules/feature_extraction.html#spars

sh19910711 2024/04/27

"BoW: 行列のサイズ自体はとても大きな一方で、ほとんどが0 + 済系の記事にスポーツ系の単語は出てきにくい / 「深層学習による自然言語処理」の3章の記述が非常にわかりやすかった" 2019

リンク

【 self attention 】簡単に予測理由を可視化できる文書分類モデルを実装する - Qiita

はじめに Deep Learning モデルの予測理由を可視化する手法がたくさん研究されています。今回はその中でも最もシンプルな（しかし何故かあまり知られていない）self attentionを用いた文書分類モデルを実装したので実験結果を紹介します。この手法では、RNNモデルが文書中のどの単語に注目して分類を行ったか可視化することが可能になります。 2019/04追記本記事で紹介したモデルをAllenNLPを使用して書き直した記事を公開しました。 attentionの復習 attentionとは（正確な定義ではないですが）予測モデルに入力データのどの部分に注目するか知らせる機構のことです。 attention技術は機械翻訳への応用が特に有名です。例えば、日英翻訳モデルを考えます。翻訳モデルは”これはペンです”という文字列を入力として"This is a pen"という英文を出力しま

sh19910711 2024/04/26

"予測を間違えたデータの分析も予測理由の可視化ができるとわかりやすい / self-attentive sentence embedding: bidirectional LSTM + 隠れ層を入力として各単語へのattentionを出力 + 文書分類" arXiv:1703.03130 2018

リンク

Recursive Autoencoder で文の分散表現 - scouty AI LAB

scouty 代表の島田です。トピックモデルで単語の分散表現 - 理論編 - scouty AI LAB では、局所表現・分散表現の違いに関して説明しましたが、「単語の分散表現と同じように、文*1の分散表現を作るにはどうすればよいか？」というのが今回のテーマです。 CNNで文の識別タスクを解く - scouty AI LAB でもCNNによって文の分散表現を作る方法を扱いましたが、本記事では Recursive Autoencoder によって文の分散表現を作る方法をご紹介します。 Autoencoder とは何か Recursive Autoencoder は、 Autoencoder （オートエンコーダー）を組み合わせることによって文の意味表現をひとつのベクトルとして表そうとするモデルです。 Autoencoder というのは、入力ベクトルを受け取ったら、入力ベクトルと全く同一のベク

sh19910711 2024/04/24

"Recursive Autoencoder: 文章内の単語を二分木で表す + 単語を再帰的に圧縮 / 二分木を作る手法は様々ですが、次のような greedy な手法が用いられ / CNNによる文の分散表現のほうが一般的に文識別などでは精度が高い" 2017

リンク

自然言語処理の手法を用いてコード進行から作曲者を推論した - Qiita

前置き初投稿となります。普段は理系大学院生で原子力関連の研究室に所属しており、現在は深層学習を用いた研究を行っています。また研究の影響で深層学習に興味を持ち、趣味で自然言語処理の勉強をしております。ライブ観戦が趣味で先日も『RAISE A SUILEN』の現地ライブに参加し、今度は『Roselia』のライブにも参戦予定です。この記事は『Roselia』の曲を聞いていた際に、音楽のコード進行が自然言語処理に通じるものがあると気づき、実装したものとなります。概要『Roselia』曲からいくつか選び、コード進行をword2vecで学習し曲をベクトル化。その後コサイン類似度によって曲同士の類似度を計算し、作曲者の推論をした。コード進行とはコード進行とは和音（chord)の流れです。有名なものはカノン進行とか王道進行とかです。正確な説明は私にはできないのでSoundQuestをご参考くだ

sh19910711 2024/04/24

"コード進行をword2vecで学習し曲をベクトル化 / コード進行: 登場するコードは同じですが、前後関係によって印象が全く変わる / コード進行を「文章」、コードを「単語」とみなし、ベクトルを獲得" 2023

リンク

paragraph2vecの論文要訳 (Distributed Representations of Sentences and Documents) - Qiita

paragraph2vecの論文要訳 (Distributed Representations of Sentences and Documents)自然言語処理機械学習 word2vecparagraph2Vec論文読み原文: Distributed Representations of Sentences and Documents 要訳者からのお知らせこの要訳はTSGの機械学習分科会での発表のために作られたものです。雑に内容を理解するためのまとめであり、正確な内容を保証するものではありません。致命的なミスはコメントか編集リクエストでお知らせください Abstract 機械学習するには入力を固定長のベクトルにする必要がある既存手法で一番popularなのはbag-of-words だけどBOWはクソ順序の情報が失われる単語間のセマンティクスが失われるなので Paragr

sh19910711 2024/04/23

"BOW: 順序 + 単語間のセマンティクスが失われる / bag-of-n-grams: スパース性と次元の高さに問題 / Paragraph Vector: 文書中に出現する単語を予測できるように学習 + BOWの欠点を乗り越える" arXiv:1405.4053 2016

リンク

Rotary Positional Embeddings (RoPE) とは - Qiita

はじめに RoPE ってなに？となったので調べてみた Rotary Positional Embeddings (RoPE) Rotary Positional Embeddings (RoPE) = 絶対位置埋め込みと相対位置埋め込みの長所を組み合わせた新しいアプローチのこと。そもそも位置埋め込みってなに？なんで必要？ Transf ormerモデルは、入力トークンの順序を考慮せずに処理をする "the dog chases the pig" と "the pig chases the dog" のような異なる意味のフレーズも同様に扱われるこれを解決するために、位置埋め込みという概念が導入された「RoFormer: Enhanced Transf ormer with Rotary Position Embedding」という論文で2021年に初めて詳細に説明され、自然言語処理（NL

sh19910711 2024/04/22

"RoPE: 絶対位置埋め込みと相対位置埋め込みの長所を組み合わせ + 単語ベクトルに回転を適用 / 単語が異なる文脈で同じ相対距離を保つ場合、それらのベクトルは同じ量だけ回転 + 結果としてのドット積が一定に保たれ"

リンク

fastText で量子化し、実用的な 1.7MB のテキスト分類器を作る - A Day in the Life

英語記事をAI関連 or AI関連でない、というテキスト分類器を fastText + 量子化で作ったら、ファイルサイズ1.7MBで実用的なモデルができてしまって驚き、というお話をメモ記事に。1.7MB ですよ!! AI Newsでは、AI関連 or AI関連でないのテキスト分類にAI News の公開と、裏側の OpenAI の活用話で書いた通り、OpenAIのtext-embedding-ada-002で1536次元のベクトルにしたものをlightGBMで学習させたものを使っている。この方法の問題は、すべての記事の判定に必ず OpenAI の API を通す必要があり、長文記事が沢山あると日によっては一日あたり数十円がかかってしまっている。月にすると500~1000円はかかってそうで、チリツモヤマトテナデコである。というわけで、そろそろデータも溜まってきたしと、OpenAIのAPIに

sh19910711 2024/04/21

"今まで fastText のモデルを量子化するとこれだけモデルサイズが減るのだ、というのを知らずに過ごしてきた / fasttext print-word-vectors: 単語ベクトルのみの .vec ファイルを出力できる" 2023

リンク

埋め込みベクトルを用いたSVMによる類似文検索の検証 | 株式会社AI Shift

はじめにこんにちは、AIチームの杉山です。今回の記事では、QA検索などを行う際の文類似度の計算に、文の埋め込みベクトルを用いてknnで計算した場合とSVMを用いた場合の結果を簡易的ですが定量的に比較してみたいと思います。動機としては、LangChainのRetrieverの実装にkNNだけでなくSVMを用いた実装が採用されており、その説明の中で以下のようにSVMの方が良いことが多いとされていたことでどれくらい性能が異なるかを確認したいと思ったためです。[1][2] TLDR in my experience it ~always works better to use an SVM instead of kNN, if you can afford the slight computational hit 具体的には、クエリ自身だけを1クラス、検索対象のドキュメント集合全体を別の1ク