[B! *algorithm][NLP][cs.CL] sh19910711のブックマーク

sh19910711 id:sh19910711

*algorithmとNLPとcs.CLに関するsh19910711のブックマーク (11)

Differential Transformerの構造解説 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめにこの記事では、2024年10月7日に登場したばかりの新しい機構、 arXiv:2410.05258 において提唱されたDifferential Attentionの解説をします。本解説では実装できるレベル感の解説をします。 Differential Transf ormer (以下DiT) 概要この機構は、従来のTransf ormerで問題となっていた、重要ではない無関係な情報にも注目度をふってしまうことを改善するために作られた機構ということです。様々な条件下で、従来のTransoformerより性能が良いことが示されてい
sh19910711 2024/10/27
"Differential Transformer: 無関係な情報に付与される注目度を減らすために、重みを共有しないもう一つのQuery・Keyテーブルを用意 / 1つ目のQKテーブルから、2つ目のQKテーブルの値を引く" arXiv:2410.05258

*algorithm

NLP

系列

--

cs.CL
リンク
TLM（Task-driven Language Modeling）の手法を使って、効率的に事前学習済BERTモデルの精度を超えられるか検証してみる - Qiita
はじめに TLM（Task-drive language Modeling）という手法を提唱する論文を読んで、内容が面白そうだったので、実際に実装してみて、TLMの効果を検証してみました。実装する上で色々と勉強になったので、誰かのためになるのでは、と思い記事としてまとめてみようと思います。 TLM: Task-drive language Modelingとは？ NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient Frameworkという論文で紹介されている手法です。 TLMの課題背景は以下のような感じです。近年のNLPはとんでもなく巨大なデータセットで何十億や何百億のパラメータを持つTransf ormerベースのモデルを扱うのが主流の1つに感じますが、そんな巨大なデータを扱えるのはごく一部の
sh19910711 2024/09/25
"TLM: 固有タスクデータを検索クエリーとして一般コーパスのデータを検索 + 事前学習の段階で下流タスクも学習 + 最後に固有タスクデータでFine Tuning / Joint Learning: huggingfaceのTrainerクラスを使い倒す" arXiv:2111.04130 '22

*algorithm

NLP

--

cs.CL
リンク
[輪講資料] Text Embeddings by Weakly-Supervised Contrastive Pre-training
大規模な弱教師あり対照学習によって訓練された強力なテキスト埋め込みモデルE5について解説した輪講資料です。元論文: https://arxiv.org/abs/2212.03533
sh19910711 2024/09/14
"E5: Cross-Encoderからの知識蒸留 + 多段階での対照学習 + SimLMの知識を前提 / Supervised SimCSE: NLIデータセットの「含意」関係にある文ペアを正例に対照学習 / CCPairs: 事前対照学習のための大規模データセット" arXiv:2212.03533

*algorithm

NLP

--

cs.CL
リンク
【論文要約】TABERT: Pretraining for Joint Understanding of Textual and Tabular Data - Qiita
概要本論文では、NL文と（半）構造化テーブルの表現を合同で学習する事前学習済みLMであるTABERTを紹介する。TABERTは2600万個の表とその英語文脈からなる大規模なコーパスで学習される。実験では、TABERTを特徴表現層として用いたニューラル意味解析器が、弱教師あり意味解析ベンチマークであるWIKITABLEQUESTIONSで最良の結果を達成し、テキストtoSQLデータセットのSPIDERでも競争力のある性能を発揮することが分かった。 ACL 2020 第一著者：Pengcheng Yin 団体：Carnelgie Mellon University, Facebook AI Research 提案法 Content Snapshot データベーステーブルは大きいので、すべてを使うにはTransf ormerには重い。そこで、セルの値から必要な行だけ抽出するようにする。手法として
sh19910711 2024/05/03
"TABERT: 文と（半）構造化テーブルの表現を合同で学習 / WDC WebTable Corpus: WikipediaとCommonCrawlから収集した大規模テーブルデータ / 評価: Spiderデータセットを用いてテキストからSQL文を予測するタスク" arXiv:2005.08314 2022

*algorithm

*data

NLP

--

cs.CL
リンク
複数の関連度から検索可能な BGE M3-Embedding の紹介 - Algomatic Tech Blog
こんにちは。Algomatic の宮脇（@catshun_）です。本記事では文書検索において一部注目された BGE M3-Embedding について簡単に紹介します。 Chen+'24 - BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation おことわり本記事では精読レベルの詳細な解説は含みません。詳細については参照元の論文をご確認ください。不十分また不適切な言及内容がございましたらご指摘いただけますと幸いです。プロダクト等の利用時は必ずライセンスや利用規約を参照して下さい。本記事で紹介する論文は Work in progress とコメントされており今後内容が更新される可能
sh19910711 2024/05/02
"ベクトル表現を用いた類似度算出に基づく検索は sparse retrieval, dense retrieval, multi-vector retrieval に大別 / M3-Embedding: これら 3 つの機能を有する高性能な埋め込みモデルとして提案" arXiv:2402.03216

*algorithm

NLP

search

rep

--

cs.CL
リンク
RoFormer: Enhanced Transformer with Rotary Position Embedding - iwiwi 備忘録
arxiv.org GPT-NeoX等で使われているposition embedding。そもそも三角関数足す元祖のposition embeddingしか知らなかったので、relative position embeddingがどういうものかも知れてよかった。この手法自体は足す(additive)んじゃなくて回転させる(multicative)で、一見かなりアグレッシブな気もしたけど、足すのもまぁまぁやべーし良いかという気持ちになった。内積の大きさを制御したいと思えば全然普通かもしれない。
sh19910711 2024/04/27
"RoFormer: GPT-NeoX等で使われている + 足す(additive)んじゃなくて回転させる(multicative) / アグレッシブな気もしたけど、足すのもまぁまぁやべーし良いかという気持ちになった" arXiv:2104.09864 2023

*algorithm

NLP

rep

--

cs.CL
リンク
【 self attention 】簡単に予測理由を可視化できる文書分類モデルを実装する - Qiita
はじめに Deep Learning モデルの予測理由を可視化する手法がたくさん研究されています。今回はその中でも最もシンプルな（しかし何故かあまり知られていない）self attentionを用いた文書分類モデルを実装したので実験結果を紹介します。この手法では、RNNモデルが文書中のどの単語に注目して分類を行ったか可視化することが可能になります。 2019/04追記本記事で紹介したモデルをAllenNLPを使用して書き直した記事を公開しました。 attentionの復習 attentionとは（正確な定義ではないですが）予測モデルに入力データのどの部分に注目するか知らせる機構のことです。 attention技術は機械翻訳への応用が特に有名です。例えば、日英翻訳モデルを考えます。翻訳モデルは”これはペンです”という文字列を入力として"This is a pen"という英文を出力しま
sh19910711 2024/04/26
"予測を間違えたデータの分析も予測理由の可視化ができるとわかりやすい / self-attentive sentence embedding: bidirectional LSTM + 隠れ層を入力として各単語へのattentionを出力 + 文書分類" arXiv:1703.03130 2018

*algorithm

NLP

rep

--

cs.CL

系列
リンク
paragraph2vecの論文要訳 (Distributed Representations of Sentences and Documents) - Qiita
paragraph2vecの論文要訳 (Distributed Representations of Sentences and Documents)自然言語処理機械学習 word2vecparagraph2Vec論文読み原文: Distributed Representations of Sentences and Documents 要訳者からのお知らせこの要訳はTSGの機械学習分科会での発表のために作られたものです。雑に内容を理解するためのまとめであり、正確な内容を保証するものではありません。致命的なミスはコメントか編集リクエストでお知らせください Abstract 機械学習するには入力を固定長のベクトルにする必要がある既存手法で一番popularなのはbag-of-words だけどBOWはクソ順序の情報が失われる単語間のセマンティクスが失われるなので Paragr
sh19910711 2024/04/23
"BOW: 順序 + 単語間のセマンティクスが失われる / bag-of-n-grams: スパース性と次元の高さに問題 / Paragraph Vector: 文書中に出現する単語を予測できるように学習 + BOWの欠点を乗り越える" arXiv:1405.4053 2016

*algorithm

NLP

rep

--

cs.CL
リンク
論文紹介: SentencePieceの原著論文+α - radiology-nlp’s blog
はじめに 2018年に登場したニューラル言語処理のための教師なしサブワード分割モジュール，SentencePiece。開発意図や仕様を確認するために原著論文を読みました。 github.com 論文は2018年8月にarXivに投稿されています。 arxiv.org 著者・開発者はMeCab開発者でもある工藤拓さん。自然言語処理に関心のある方で知らない人はいないでしょう。 github.com 1冊まるごと形態素解析という驚異的な本も執筆されています。形態素解析の理論と実装 (実践・自然言語処理シリーズ) 作者: 工藤拓,言語処理学会出版社/メーカー: 近代科学社発売日: 2018/10/04メディア: 単行本この商品を含むブログを見る背景基本的事項をいくつか確認します。 SentencePieceは与えられた文章をサブワードに分割するモデルであり, コーパスからの教師なし学習が可
sh19910711 2024/04/22
"SentencePiece: 文法体系や言語学的観点からみて妥当な分割をするとは限りません(そのような設計を目指していません) > 単位は「形態素」ではなく単に「サブワード」と呼ばれることが多い" arXiv:1808.06226 2019

*algorithm

NLP

tokenizer

--

cs.CL
リンク
BERTで自動要約を行う論文「BERTSUM」を紹介する＋α - Qiita
こんにちは！@MonaCatです。本稿はDeep Learning論文紹介 Advent Calendar 2019の1日目の記事です。画像は全て論文中から引用しています。概要本稿ではBERTを自動要約に適応させたBERTSUMについて紹介します。論文：Fine-tune BERT for Extractive Summarization Full paper：Text Summarization with Pretrained Encoders また自動要約全体に関する資料をまとめているので参考にどうぞ。自動要約とは自動要約とは自然言語処理におけるタスクの1つです。多くはテキストを対象とした自動要約を指しますが、ここでは区別するために文章要約と呼びます。文章要約は抽出型と生成型（抽象型）に分かれますが、現在は生成型（と抽出型を組み合わせたもの）が主流となっています。抽出型：元
sh19910711 2024/04/18
"BERTSUM: 本来先頭のみに挿入するトークン[CLS]を、文の区切りにも挿入 + 奇数と偶数で異なるラベル（A, B）を振ることで区切りを学習 / Decoderにはランダムに初期化された6層のTransfomerを使用" arXiv:1903.10318 2019

*algorithm

NLP

系列

--

cs.CL
リンク
Pointer-Generator Networksで要約をしてみる - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 抽象型要約の手法であるPointer-Generator NetworksをChainerで動くようにしてみました。 Pointer-Generator Networksについて Pointer-Generator Networksは抽象型要約としてsequence to sequenceを使うアイディアを発展させたものです。先行研究として、CopyNetがあります。CopyNetに関してはqiitaに解説記事があります。今更ながらchainerでSeq2Seq（3）〜CopyNet編〜 - Qiita 既存のseq2seqは未知語
sh19910711 2024/04/14
"要約: 本文中の単語がそのまま要約にも使われる / Pointer-Generator Networks: 抽象型要約の手法 + 未知語に対しそれぞれに一時的なIDを付与し、要約側にも同じ単語があればそれを使って表現" arXiv:1704.04368 2018

*algorithm

NLP

--

cs.CL
リンク
1