タグ

cs.CLとWに関するsh19910711のブックマーク (7)

  • [論文紹介] AdaLoRA

    ICLR22のLoRA[1]の後続研究であるAdaLoRA[2](ICLR23にposterで採択)の解説です. 書誌情報です. Q. Zhang, M. Chen, A. Bukharin, P. He, Y. Cheng, W. Chen, and T. Zhao, "Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning," in ICLR, 2023. 輪講スライドも公開してるので,良ければそちらも参照していただければ. 関連リンク ガチプロによる査読であるところのOpen Review Paper ICLR23版 arXiv版 PEFT v0.3.0における実装箇所 src/peft/tuners/adalora.py - class AdaLoraModel src/peft/tuners/adalora.p

    [論文紹介] AdaLoRA
    sh19910711
    sh19910711 2024/06/10
    "AdaLoRA: LoRAでは固定だったランク 𝑟 の値をLoRAを適用する層に応じて適応的に変化 / LoRA: 層やモジュールによってパラメータの重要度が異なるという事実を無視 / 既にHuggingFace PEFTに実装されていて ~ " arXiv:2303.10512 2023
  • [論文メモ] SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations - Qiita

    [論文メモ] SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations機械学習論文読み 前置き SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations 文書ベクトルをお手軽に高い精度で作れるSCDVって実際どうなのか日語コーパスで実験した(EMNLP2017) の記事が圧倒的にわかりやすいのでそっちも見たほうがいいよ!! SCDVの概要 document embeddingの新しい手法。文書分類だけでなく情報探索等にも活用できる。数値実験では既存の方法(doc2vec, LDA, NTSG)に比べ高い精度が出た

    [論文メモ] SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations - Qiita
    sh19910711
    sh19910711 2024/05/24
    "SCDV: 絶対値が小さい要素はゼロにし、スパースなベクトルに変換 + 医療の単語が多く含まれるとき、政治に関係する単語の影響力は小さくなる + クラスタごとに単語の表現ベクトルを足し合わせる" arXiv:1612.06778 2018
  • 複数の関連度から検索可能な BGE M3-Embedding の紹介 - Algomatic Tech Blog

    こんにちは。Algomatic の宮脇(@catshun_)です。 記事では文書検索において一部注目された BGE M3-Embedding について簡単に紹介します。 Chen+'24 - BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation おことわり 記事では精読レベルの 詳細な解説は含みません。 詳細については 参照元の論文をご確認ください。 不十分また不適切な言及内容がございましたらご指摘いただけますと幸いです。 プロダクト等の利用時は 必ずライセンスや利用規約を参照して下さい。 記事で紹介する 論文 は Work in progress とコメントされており今後内容が更新される可能

    複数の関連度から検索可能な BGE M3-Embedding の紹介 - Algomatic Tech Blog
    sh19910711
    sh19910711 2024/05/02
    "ベクトル表現を用いた類似度算出に基づく検索は sparse retrieval, dense retrieval, multi-vector retrieval に大別 / M3-Embedding: これら 3 つの機能を有する高性能な埋め込みモデルとして提案" arXiv:2402.03216
  • 2021年で面白かったTransformer関連論文 - moriyamaのエンジニアリング備忘録

    この記事はみらい翻訳アドベントカレンダー14日目の記事です。 2021年も終わりを迎える中、個人的には転職してからちょうど1年経ちました。 機械翻訳の研究開発に携わることもあり、自然言語処理や深層学習全般を中心にいろいろな論文を読んだ一年でした。 年末にありがちな今年の論文BEST10のようなランキングを作ってみようと考えたが、選定とランキング基準がなかなか定まらず、それだけで数日かかりそうだったので、Transformer関連論文に絞ってまとめてみようと思います。 今年も昨年に続きTransformer is all you needの色が一層強くなったと感じます。Transformer自体は自然言語処理を題材に提案されたモデルですが、最近は画像領域や音声領域でも高い性能を発揮しています。 強く注目されているモデルということもあり、構造の細部にフォーカスした多くの研究がありましたので、そ

    2021年で面白かったTransformer関連論文 - moriyamaのエンジニアリング備忘録
    sh19910711
    sh19910711 2024/04/29
    "CANINE: 各文字に対して複数のハッシュ化を通じて数値化し、それらを連結して文の数値表現とする + 複数の文字トークンに対して一定幅で畳み込みを行うことで疑似的に単語にあたる表現を得る" arXiv:2103.06874 2021
  • RoFormer: Enhanced Transformer with Rotary Position Embedding - iwiwi 備忘録

    arxiv.org GPT-NeoX等で使われているposition embedding。 そもそも三角関数足す元祖のposition embeddingしか知らなかったので、relative position embeddingがどういうものかも知れてよかった。この手法自体は足す(additive)んじゃなくて回転させる(multicative)で、一見かなりアグレッシブな気もしたけど、足すのもまぁまぁやべーし良いかという気持ちになった。内積の大きさを制御したいと思えば全然普通かもしれない。

    RoFormer: Enhanced Transformer with Rotary Position Embedding - iwiwi 備忘録
    sh19910711
    sh19910711 2024/04/27
    "RoFormer: GPT-NeoX等で使われている + 足す(additive)んじゃなくて回転させる(multicative) / アグレッシブな気もしたけど、足すのもまぁまぁやべーし良いかという気持ちになった" arXiv:2104.09864 2023
  • 【 self attention 】簡単に予測理由を可視化できる文書分類モデルを実装する - Qiita

    はじめに Deep Learning モデルの予測理由を可視化する手法がたくさん研究されています。 今回はその中でも最もシンプルな(しかし何故かあまり知られていない)self attentionを用いた文書分類モデルを実装したので実験結果を紹介します。 この手法では、RNNモデルが文書中のどの単語に注目して分類を行ったか可視化することが可能になります。 2019/04追記 記事で紹介したモデルをAllenNLPを使用して書き直した記事を公開しました。 attentionの復習 attentionとは(正確な定義ではないですが)予測モデルに入力データのどの部分に注目するか知らせる機構のことです。 attention技術は機械翻訳への応用が特に有名です。 例えば、日英翻訳モデルを考えます。翻訳モデルは”これはペンです”という文字列を入力として"This is a pen"という英文を出力しま

    【 self attention 】簡単に予測理由を可視化できる文書分類モデルを実装する - Qiita
    sh19910711
    sh19910711 2024/04/26
    "予測を間違えたデータの分析も予測理由の可視化ができるとわかりやすい / self-attentive sentence embedding: bidirectional LSTM + 隠れ層を入力として各単語へのattentionを出力 + 文書分類" arXiv:1703.03130 2018
  • paragraph2vecの論文 要訳 (Distributed Representations of Sentences and Documents) - Qiita

    paragraph2vecの論文 要訳 (Distributed Representations of Sentences and Documents)自然言語処理機械学習word2vecparagraph2Vec論文読み 原文: Distributed Representations of Sentences and Documents 要訳者からのお知らせ この要訳はTSGの機械学習分科会での発表のために作られたものです。 雑に内容を理解するためのまとめであり、正確な内容を保証するものではありません。 致命的なミスはコメントか編集リクエストでお知らせください Abstract 機械学習するには入力を固定長のベクトルにする必要がある 既存手法で一番popularなのはbag-of-words だけどBOWはクソ 順序の情報が失われる 単語間のセマンティクスが失われる なので Paragr

    paragraph2vecの論文 要訳 (Distributed Representations of Sentences and Documents) - Qiita
    sh19910711
    sh19910711 2024/04/23
    "BOW: 順序 + 単語間のセマンティクスが失われる / bag-of-n-grams: スパース性と次元の高さに問題 / Paragraph Vector: 文書中に出現する単語を予測できるように学習 + BOWの欠点を乗り越える" arXiv:1405.4053 2016
  • 1