タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

*algorithmとNLPとrepに関するsh19910711のブックマーク (36)

  • 知識拡張型言語モデルLUKE

    言語処理学会第29回年次大会 併設ワークショップ JLR2023 (

    知識拡張型言語モデルLUKE
    sh19910711
    sh19910711 2025/09/16
    2023 / "LUKE: 単語とエンティティの文脈付きベクトルを出力 / エンティティは複数の入力トークンに分割されるため、Transformer内部でエンティティ同士の関係を捉えることが難しい"
  • [DL輪読会] Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm

    [DL輪読会] Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm

    [DL輪読会] Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm
    sh19910711
    sh19910711 2025/09/03
    2017 / "テキストに付与されている感情表現(顔文字・絵文字・ハッシュタグ)はDistant Supervisionで用いられ ~ / Distant Supervision: 間接的なラベルを用いてラベルなしデータをラベルありデータとして用いる"
  • 係り受けに基づく日本語単語埋め込み - LAPRAS Tech Blog

    sh19910711
    sh19910711 2025/08/03
    2019 / "Mikolovらの手法では,「ある語の周りにどのような語が現れやすいか」 + Levy らの手法では「ある語はどのような語と依存関係を持ちやすいか」 / 機能的な類似度(活用形が同じ)が高く評価"
  • Raggle第2回コンペ - StaticEmbeddingで安全に爆速RAGを実施する

    Raggleの第2回コンペでアイデア賞をいただいたのでメモ。ありがとうございます〜 ソースコード 下記を参考に、Transformerモデル組み込みたいんやけど...と生成AI相談してコード作りました。要件定義と手元デバッグ野郎でした。 解法のコア このツイートにほぼすべてが詰まっています。Twitter最高! TransformerではないEmbeddingモデルである、static-embedding-japaneseをベクトル検索に用いました。 著者のセコンさんもTwitterに書いてくださっていますが、CPUでも爆速でEmbeddingできます。 今回のコンペで使った文書のEmbeddingに使う時間を比較してみたところ、以下の通りでした。 モデル 時間 上記は 396chunks(1chunk, 1000文字ごとチャンク) での計測時間です。 ※ 各々のCPUのスペックやOpe

    Raggle第2回コンペ - StaticEmbeddingで安全に爆速RAGを実施する
    sh19910711
    sh19910711 2025/05/27
    "OpenAIのtext-embeeding-smallとアンサンブル / StaticEmbeddingで類似度を計算し、コサイン類似度が0.9を下回っている場合のみRAGの候補として追加とすることで参考情報の多様性を担保"
  • 言語と数理の交差点:テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)

    深層学習の登場以降、機械学習と言語処理の距離はぐっと縮まった。機械学習が問題を抽象化して議論するのに対し、言語処理は言語また言語処理タスクに内在する構造や制約を前提としてモデル化を行う。例えば文の処理では文法的制約を与える木構造を前提とし、対訳辞書構築では単語をノード、対訳関係をエッジとする二部グラフを…

    言語と数理の交差点:テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)
    sh19910711
    sh19910711 2025/05/06
    2024 / "BERT: ”swing”の表現って200個あんねん / 文脈化埋め込み: 文脈なしには使いづらい + 文脈の影響が大きすぎる場合も / Tiyajamorn: 「意味」と「言語らしさ」成分の分離"
  • 最近の埋め込みモデルのクロスリンガル検索能力をチェックする|oshizo

    私が最近経験したタスクに、クエリに英語と日語が混在し、検索対象のドキュメントは日語のみのクロスリンガルな検索がありました。 このタスクでは、日語クエリと比べ英語クエリによる検索精度が相対的に低い傾向が見られていました。 まあそれはそうだろうという話なのですが、これを機に、今クロスリンガル検索タスクをやるにはどのモデルを選ぶと良さそうか、最近の有力なモデルを軽く比べてみました。 詳細は後ろのセクションで話しますが、日語クエリ-日語ドキュメントを重視するならcl-nagoya/ruri-v3-310m、英語クエリを含めたバランスを重視するならCohereのembed-v4.0がよさそうな感じです。 ただし、データセット1つでの簡易評価なので、ご参考までに。実際にモデルを選ぶ際はご自身のタスクで評価してみてください。 embed-v4.0はマルチモーダル対応もしているので、個人的にアツ

    最近の埋め込みモデルのクロスリンガル検索能力をチェックする|oshizo
    sh19910711
    sh19910711 2025/04/23
    "cl-nagoya/ruri-v3-310m: 日本語クエリ-日本語ドキュメント + ModernBERTベース。2025/4時点でJMTEBスコア最強 / Cohereのembed-v4.0: 英語クエリを含めたバランス + マルチモーダル対応"
  • テキスト埋め込みモデルPLaMo-Embedding-1Bの開発 - Preferred Networks Research & Development

    2025/04初頭時点で、OpenAItext-embedding-3-largeなどの他社モデルを上回り、日語テキスト埋め込みモデルとしてトップのスコアを記録しています (**)。特にテキスト埋め込みモデルの主要な用途と言えるRetrieval (検索タスク) では既存のモデルの最高スコアから2ポイント以上の更新を達成しており、情報検索での利用に適したモデルであることを示唆していると言えます。 (*) コンテキスト長1024で計測 (以降も断りがなければ同様)。これは学習時に用いたコンテキスト長が1024までであるため。ただし、ベースモデルの最大コンテキスト長であり、PLaMo-Embedding-1Bのconfig上の最大コンテキスト長である4096で計測しても、そこまで性能が下落するわけではないことがわかっています (Appendix参照)。 (**) 2025/04/14にRu

    テキスト埋め込みモデルPLaMo-Embedding-1Bの開発 - Preferred Networks Research & Development
    sh19910711
    sh19910711 2025/04/21
    "2つのモデルのパラメータを単純に平均する / 複雑なパラメータを持つモデルについて、単にパラメータを平均化するだけで性能が向上するというのは驚きですが、実際に今回も性能の向上が確認でき ~ "
  • 独立成分分析を用いた埋め込み表現の視覚的な理解

    sh19910711
    sh19910711 2024/06/08
    "埋め込み: 各要素の大小は解釈できない + PCAよりもICAの方が上手く解釈できる / ICA: 異なる言語の埋め込みで形と意味が共通 + 尖った形状を見つけられる + モデルやドメインの違いを超えた普遍性" doi:10.18653/v1/2023.emnlp-main.283
  • Item2Vecを用いて推薦システムを構築するときに気をつけること - Qiita

    NTTドコモの久保田です。2度目の登場です。 みなさんItem2Vecという技術をご存じでしょうか。 Item2Vecとは、文章から単語の分散表現を獲得するWord2Vecを推薦システムに適用した技術です。具体的にECサイトでの推薦を考えたときに、Word2Vecの単語を商品に、文章をユーザが評価したアイテム集合として、アイテムの分散表現を獲得し、アイテム間の類似度などをもとに推薦していく感じです。 簡単に実装できるので、割とやってみた系の記事が多いですが、実際に推薦システムへの適用を考えたときに気を付けるところがあります。 Item2Vecの実装方針 gensimというトピック分析のライブラリがあり、このライブラリを使えば簡単にItem2Vecを実装できます。 1行をユーザが評価しているアイテム集合、各アイテムはスペースで区切られたテキストファイル(今回は、item_buskets.tx

    Item2Vecを用いて推薦システムを構築するときに気をつけること - Qiita
    sh19910711
    sh19910711 2024/05/30
    "ns_exponent (gensim): negative samplingする分布の形状 + デフォルトでは0.75 + 0だとランダムサンプリング + 負の値になると頻度が低いもの / 音楽系のデータセットでデフォルトの2倍ぐらい + Click-Stream datasetでは約10倍の精度向上" 2019
  • 複数の関連度から検索可能な BGE M3-Embedding の紹介 - Algomatic Tech Blog

    こんにちは。Algomatic の宮脇(@catshun_)です。 記事では文書検索において一部注目された BGE M3-Embedding について簡単に紹介します。 Chen+'24 - BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation おことわり 記事では精読レベルの 詳細な解説は含みません。 詳細については 参照元の論文をご確認ください。 不十分また不適切な言及内容がございましたらご指摘いただけますと幸いです。 プロダクト等の利用時は 必ずライセンスや利用規約を参照して下さい。 記事で紹介する 論文 は Work in progress とコメントされており今後内容が更新される可能

    複数の関連度から検索可能な BGE M3-Embedding の紹介 - Algomatic Tech Blog
    sh19910711
    sh19910711 2024/05/02
    "ベクトル表現を用いた類似度算出に基づく検索は sparse retrieval, dense retrieval, multi-vector retrieval に大別 / M3-Embedding: これら 3 つの機能を有する高性能な埋め込みモデルとして提案" arXiv:2402.03216
  • RoFormer: Enhanced Transformer with Rotary Position Embedding - iwiwi 備忘録

    arxiv.org GPT-NeoX等で使われているposition embedding。 そもそも三角関数足す元祖のposition embeddingしか知らなかったので、relative position embeddingがどういうものかも知れてよかった。この手法自体は足す(additive)んじゃなくて回転させる(multicative)で、一見かなりアグレッシブな気もしたけど、足すのもまぁまぁやべーし良いかという気持ちになった。内積の大きさを制御したいと思えば全然普通かもしれない。

    RoFormer: Enhanced Transformer with Rotary Position Embedding - iwiwi 備忘録
    sh19910711
    sh19910711 2024/04/27
    "RoFormer: GPT-NeoX等で使われている + 足す(additive)んじゃなくて回転させる(multicative) / アグレッシブな気もしたけど、足すのもまぁまぁやべーし良いかという気持ちになった" arXiv:2104.09864 2023
  • 分散表現とWord2vec|実践的自然言語処理入門 #3 - Liberal Art’s diary

    #1ではBoWと形態素解析の導入、#2では特徴語抽出とtf-idfについて取り扱いました。 #3ではここまで出てきた疎行列(Sparse matrix)の取り扱いにあたって分散表現とWord2vecについて取り扱いたいと思います。 以下目次になります。 1. 疎行列の取り扱いと局所表現・分散表現 2. Word2vecの仕組み 3. Word2vecの実装 4. まとめ 1. 疎行列の取り扱いと局所表現、分散表現 ・背景(自然言語処理における疎行列の取り扱い問題) 自然言語処理を行う際にBoW的なアプローチ(生起頻度のカウントとtf-idf値での計算のどちらも含みます)を行うにあたって一番ネックになりうるのは疎行列(Sparse matrix)の問題です。 https://scikit-learn.org/0.16/modules/feature_extraction.html#spars

    分散表現とWord2vec|実践的自然言語処理入門 #3 - Liberal Art’s diary
    sh19910711
    sh19910711 2024/04/27
    "BoW: 行列のサイズ自体はとても大きな一方で、ほとんどが0 + 済系の記事にスポーツ系の単語は出てきにくい / 「深層学習による自然言語処理」の3章の記述が非常にわかりやすかった" 2019
  • 【 self attention 】簡単に予測理由を可視化できる文書分類モデルを実装する - Qiita

    はじめに Deep Learning モデルの予測理由を可視化する手法がたくさん研究されています。 今回はその中でも最もシンプルな(しかし何故かあまり知られていない)self attentionを用いた文書分類モデルを実装したので実験結果を紹介します。 この手法では、RNNモデルが文書中のどの単語に注目して分類を行ったか可視化することが可能になります。 2019/04追記 記事で紹介したモデルをAllenNLPを使用して書き直した記事を公開しました。 attentionの復習 attentionとは(正確な定義ではないですが)予測モデルに入力データのどの部分に注目するか知らせる機構のことです。 attention技術は機械翻訳への応用が特に有名です。 例えば、日英翻訳モデルを考えます。翻訳モデルは”これはペンです”という文字列を入力として"This is a pen"という英文を出力しま

    【 self attention 】簡単に予測理由を可視化できる文書分類モデルを実装する - Qiita
    sh19910711
    sh19910711 2024/04/26
    "予測を間違えたデータの分析も予測理由の可視化ができるとわかりやすい / self-attentive sentence embedding: bidirectional LSTM + 隠れ層を入力として各単語へのattentionを出力 + 文書分類" arXiv:1703.03130 2018
  • Recursive Autoencoder で文の分散表現 - scouty AI LAB

    scouty 代表の島田です。 トピックモデルで単語の分散表現 - 理論編 - scouty AI LAB では、局所表現・分散表現の違いに関して説明しましたが、「単語の分散表現と同じように、文*1の分散表現を作るにはどうすればよいか?」というのが今回のテーマです。 CNNで文の識別タスクを解く - scouty AI LAB でもCNNによって文の分散表現を作る方法を扱いましたが、記事では Recursive Autoencoder によって文の分散表現を作る方法をご紹介します。 Autoencoder とは何か Recursive Autoencoder は、 Autoencoder (オートエンコーダー)を組み合わせることによって文の意味表現をひとつのベクトルとして表そうとするモデルです。 Autoencoder というのは、入力ベクトルを受け取ったら、入力ベクトルと全く同一のベク

    sh19910711
    sh19910711 2024/04/24
    "Recursive Autoencoder: 文章内の単語を二分木で表す + 単語を再帰的に圧縮 / 二分木を作る手法は様々ですが、次のような greedy な手法が用いられ / CNNによる文の分散表現のほうが一般的に文識別などでは精度が高い" 2017
  • 自然言語処理の手法を用いてコード進行から作曲者を推論した - Qiita

    前置き 初投稿となります。普段は理系大学院生で原子力関連の研究室に所属しており、現在は深層学習を用いた研究を行っています。また研究の影響で深層学習に興味を持ち、趣味で自然言語処理の勉強をしております。 ライブ観戦が趣味で先日も『RAISE A SUILEN』の現地ライブに参加し、今度は『Roselia』のライブにも参戦予定です。この記事は『Roselia』の曲を聞いていた際に、音楽のコード進行が自然言語処理に通じるものがあると気づき、実装したものとなります。 概要 『Roselia』曲からいくつか選び、コード進行をword2vecで学習し曲をベクトル化。その後コサイン類似度によって曲同士の類似度を計算し、作曲者の推論をした。 コード進行とは コード進行とは和音(chord)の流れです。有名なものはカノン進行とか王道進行とかです。正確な説明は私にはできないのでSoundQuestをご参考くだ

    自然言語処理の手法を用いてコード進行から作曲者を推論した - Qiita
    sh19910711
    sh19910711 2024/04/24
    "コード進行をword2vecで学習し曲をベクトル化 / コード進行: 登場するコードは同じですが、前後関係によって印象が全く変わる / コード進行を「文章」、コードを「単語」とみなし、ベクトルを獲得" 2023
  • paragraph2vecの論文 要訳 (Distributed Representations of Sentences and Documents) - Qiita

    paragraph2vecの論文 要訳 (Distributed Representations of Sentences and Documents)自然言語処理機械学習word2vecparagraph2Vec論文読み 原文: Distributed Representations of Sentences and Documents 要訳者からのお知らせ この要訳はTSGの機械学習分科会での発表のために作られたものです。 雑に内容を理解するためのまとめであり、正確な内容を保証するものではありません。 致命的なミスはコメントか編集リクエストでお知らせください Abstract 機械学習するには入力を固定長のベクトルにする必要がある 既存手法で一番popularなのはbag-of-words だけどBOWはクソ 順序の情報が失われる 単語間のセマンティクスが失われる なので Paragr

    paragraph2vecの論文 要訳 (Distributed Representations of Sentences and Documents) - Qiita
    sh19910711
    sh19910711 2024/04/23
    "BOW: 順序 + 単語間のセマンティクスが失われる / bag-of-n-grams: スパース性と次元の高さに問題 / Paragraph Vector: 文書中に出現する単語を予測できるように学習 + BOWの欠点を乗り越える" arXiv:1405.4053 2016
  • Rotary Positional Embeddings (RoPE) とは - Qiita

    はじめに RoPE ってなに? となったので調べてみた Rotary Positional Embeddings (RoPE) Rotary Positional Embeddings (RoPE) = 絶対位置埋め込みと相対位置埋め込みの長所を組み合わせた新しいアプローチのこと。 そもそも位置埋め込みってなに?なんで必要? Transformerモデルは、入力トークンの順序を考慮せずに処理をする "the dog chases the pig" と "the pig chases the dog" のような異なる意味のフレーズも同様に扱われる これを解決するために、位置埋め込みという概念が導入された 「RoFormer: Enhanced Transformer with Rotary Position Embedding」という論文で2021年に初めて詳細に説明され、自然言語処理(NL

    Rotary Positional Embeddings (RoPE) とは - Qiita
    sh19910711
    sh19910711 2024/04/22
    "RoPE: 絶対位置埋め込みと相対位置埋め込みの長所を組み合わせ + 単語ベクトルに回転を適用 / 単語が異なる文脈で同じ相対距離を保つ場合、それらのベクトルは同じ量だけ回転 + 結果としてのドット積が一定に保たれ"
  • fastText で量子化し、実用的な 1.7MB のテキスト分類器を作る - A Day in the Life

    英語記事をAI関連 or AI関連でない、というテキスト分類器を fastText + 量子化で作ったら、ファイルサイズ1.7MBで実用的なモデルができてしまって驚き、というお話をメモ記事に。1.7MB ですよ!! AI Newsでは、AI関連 or AI関連でないのテキスト分類にAI News の公開と、裏側の OpenAI の活用話で書いた通り、OpenAItext-embedding-ada-002で1536次元のベクトルにしたものをlightGBMで学習させたものを使っている。この方法の問題は、すべての記事の判定に必ず OpenAIAPI を通す必要があり、長文記事が沢山あると日によっては一日あたり数十円がかかってしまっている。月にすると500~1000円はかかってそうで、チリツモヤマトテナデコである。 というわけで、そろそろデータも溜まってきたしと、OpenAIAPI

    sh19910711
    sh19910711 2024/04/21
    "今まで fastText のモデルを量子化するとこれだけモデルサイズが減るのだ、というのを知らずに過ごしてきた / fasttext print-word-vectors: 単語ベクトルのみの .vec ファイルを出力できる" 2023
  • 埋め込みベクトルを用いたSVMによる類似文検索の検証 | 株式会社AI Shift

    はじめに こんにちは、AIチームの杉山です。 今回の記事では、QA検索などを行う際の文類似度の計算に、文の埋め込みベクトルを用いてknnで計算した場合とSVMを用いた場合の結果を簡易的ですが定量的に比較してみたいと思います。 動機としては、LangChainのRetrieverの実装にkNNだけでなくSVMを用いた実装が採用されており、その説明の中で以下のようにSVMの方が良いことが多いとされていたことでどれくらい性能が異なるかを確認したいと思ったためです。[1][2] TLDR in my experience it ~always works better to use an SVM instead of kNN, if you can afford the slight computational hit 具体的には、クエリ自身だけを1クラス、検索対象のドキュメント集合全体を別の1ク

    埋め込みベクトルを用いたSVMによる類似文検索の検証 | 株式会社AI Shift
    sh19910711
    sh19910711 2024/04/18
    "LangChainのRetrieverの実装にkNNだけでなくSVMを用いた実装が採用されており + SVMの方が良いことが多いとされていた / 類似度スコアの相関係数の比較 + Nを大きくするとkNNの方が高い値を示すという結果" 2023
  • 論文読み会 WWW2022 | Learning Probabilistic Box Embeddings for Effective and Efficient Ranking

    論文読み会の資料です. (A slide for the paper-reading activity at my company, written in Japanese.)

    論文読み会 WWW2022 | Learning Probabilistic Box Embeddings for Effective and Efficient Ranking
    sh19910711
    sh19910711 2024/04/15
    "ベクトル埋め込みベースの検索システムは深層学習時代では基本的な技術になっているが微妙な点もある / ベクトル空間の1つの点に埋め込めるほど明確ではない / 箱にすればいいのでは" doi:10.1145/3485447.3512073 2023