[B! cs.CL][W] sh19910711のブックマーク

[論文紹介] AdaLoRA

ICLR22のLoRA[1]の後続研究であるAdaLoRA[2]（ICLR23にposterで採択）の解説です．書誌情報です． Q. Zhang, M. Chen, A. Bukharin, P. He, Y. Cheng, W. Chen, and T. Zhao, "Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning," in ICLR, 2023. 輪講スライドも公開してるので，良ければそちらも参照していただければ．関連リンクガチプロによる査読であるところのOpen Review Paper ICLR23版 arXiv版 PEFT v0.3.0における実装箇所 src/peft/tuners/adalora.py - class AdaLoraModel src/peft/tuners/adalora.p

sh19910711 2024/06/10

"AdaLoRA: LoRAでは固定だったランク 𝑟 の値をLoRAを適用する層に応じて適応的に変化 / LoRA: 層やモジュールによってパラメータの重要度が異なるという事実を無視 / 既にHuggingFace PEFTに実装されていて ~ " arXiv:2303.10512 2023

リンク

[論文メモ] SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations - Qiita

[論文メモ] SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations機械学習論文読み前置き SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations 文書ベクトルをお手軽に高い精度で作れるSCDVって実際どうなのか日本語コーパスで実験した(EM NLP2017) の記事が圧倒的にわかりやすいのでそっちも見たほうがいいよ!! SCDVの概要 document embeddingの新しい手法。文書分類だけでなく情報探索等にも活用できる。数値実験では既存の方法(doc2vec, LDA, NTSG)に比べ高い精度が出た

sh19910711 2024/05/24

"SCDV: 絶対値が小さい要素はゼロにし、スパースなベクトルに変換 + 医療の単語が多く含まれるとき、政治に関係する単語の影響力は小さくなる + クラスタごとに単語の表現ベクトルを足し合わせる" arXiv:1612.06778 2018

リンク

複数の関連度から検索可能な BGE M3-Embedding の紹介 - Algomatic Tech Blog

こんにちは。Algomatic の宮脇（@catshun_）です。本記事では文書検索において一部注目された BGE M3-Embedding について簡単に紹介します。 Chen+'24 - BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation おことわり本記事では精読レベルの詳細な解説は含みません。詳細については参照元の論文をご確認ください。不十分また不適切な言及内容がございましたらご指摘いただけますと幸いです。プロダクト等の利用時は必ずライセンスや利用規約を参照して下さい。本記事で紹介する論文は Work in progress とコメントされており今後内容が更新される可能

sh19910711 2024/05/02

"ベクトル表現を用いた類似度算出に基づく検索は sparse retrieval, dense retrieval, multi-vector retrieval に大別 / M3-Embedding: これら 3 つの機能を有する高性能な埋め込みモデルとして提案" arXiv:2402.03216

リンク

2021年で面白かったTransformer関連論文 - moriyamaのエンジニアリング備忘録

この記事はみらい翻訳アドベントカレンダー14日目の記事です。 2021年も終わりを迎える中、個人的には転職してからちょうど1年経ちました。機械翻訳の研究開発に携わることもあり、自然言語処理や深層学習全般を中心にいろいろな論文を読んだ一年でした。年末にありがちな今年の論文BEST10のようなランキングを作ってみようと考えたが、選定とランキング基準がなかなか定まらず、それだけで数日かかりそうだったので、Transf ormer関連論文に絞ってまとめてみようと思います。今年も昨年に続きTransf ormer is all you needの色が一層強くなったと感じます。Transf ormer自体は自然言語処理を題材に提案されたモデルですが、最近は画像領域や音声領域でも高い性能を発揮しています。強く注目されているモデルということもあり、構造の細部にフォーカスした多くの研究がありましたので、そ

sh19910711 2024/04/29

"CANINE: 各文字に対して複数のハッシュ化を通じて数値化し、それらを連結して文の数値表現とする + 複数の文字トークンに対して一定幅で畳み込みを行うことで疑似的に単語にあたる表現を得る" arXiv:2103.06874 2021

リンク

RoFormer: Enhanced Transformer with Rotary Position Embedding - iwiwi 備忘録

arxiv.org GPT-NeoX等で使われているposition embedding。そもそも三角関数足す元祖のposition embeddingしか知らなかったので、relative position embeddingがどういうものかも知れてよかった。この手法自体は足す(additive)んじゃなくて回転させる(multicative)で、一見かなりアグレッシブな気もしたけど、足すのもまぁまぁやべーし良いかという気持ちになった。内積の大きさを制御したいと思えば全然普通かもしれない。

sh19910711 2024/04/27

"RoFormer: GPT-NeoX等で使われている + 足す(additive)んじゃなくて回転させる(multicative) / アグレッシブな気もしたけど、足すのもまぁまぁやべーし良いかという気持ちになった" arXiv:2104.09864 2023

リンク

【 self attention 】簡単に予測理由を可視化できる文書分類モデルを実装する - Qiita

はじめに Deep Learning モデルの予測理由を可視化する手法がたくさん研究されています。今回はその中でも最もシンプルな（しかし何故かあまり知られていない）self attentionを用いた文書分類モデルを実装したので実験結果を紹介します。この手法では、RNNモデルが文書中のどの単語に注目して分類を行ったか可視化することが可能になります。 2019/04追記本記事で紹介したモデルをAllenNLPを使用して書き直した記事を公開しました。 attentionの復習 attentionとは（正確な定義ではないですが）予測モデルに入力データのどの部分に注目するか知らせる機構のことです。 attention技術は機械翻訳への応用が特に有名です。例えば、日英翻訳モデルを考えます。翻訳モデルは”これはペンです”という文字列を入力として"This is a pen"という英文を出力しま

sh19910711 2024/04/26

"予測を間違えたデータの分析も予測理由の可視化ができるとわかりやすい / self-attentive sentence embedding: bidirectional LSTM + 隠れ層を入力として各単語へのattentionを出力 + 文書分類" arXiv:1703.03130 2018

リンク

paragraph2vecの論文要訳 (Distributed Representations of Sentences and Documents) - Qiita

paragraph2vecの論文要訳 (Distributed Representations of Sentences and Documents)自然言語処理機械学習 word2vecparagraph2Vec論文読み原文: Distributed Representations of Sentences and Documents 要訳者からのお知らせこの要訳はTSGの機械学習分科会での発表のために作られたものです。雑に内容を理解するためのまとめであり、正確な内容を保証するものではありません。致命的なミスはコメントか編集リクエストでお知らせください Abstract 機械学習するには入力を固定長のベクトルにする必要がある既存手法で一番popularなのはbag-of-words だけどBOWはクソ順序の情報が失われる単語間のセマンティクスが失われるなので Paragr

sh19910711 2024/04/23

"BOW: 順序 + 単語間のセマンティクスが失われる / bag-of-n-grams: スパース性と次元の高さに問題 / Paragraph Vector: 文書中に出現する単語を予測できるように学習 + BOWの欠点を乗り越える" arXiv:1405.4053 2016

リンク

はてなブックマーク

タグ

関連タグで絞り込む (6)

cs.CLとWに関するsh19910711のブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス