[B! *algorithm][NLP][--] sh19910711のブックマーク

Differential Transformerの構造解説 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめにこの記事では、2024年10月7日に登場したばかりの新しい機構、 arXiv:2410.05258 において提唱されたDifferential Attentionの解説をします。本解説では実装できるレベル感の解説をします。 Differential Transf ormer (以下DiT) 概要この機構は、従来のTransf ormerで問題となっていた、重要ではない無関係な情報にも注目度をふってしまうことを改善するために作られた機構ということです。様々な条件下で、従来のTransoformerより性能が良いことが示されてい

sh19910711 2024/10/27

"Differential Transformer: 無関係な情報に付与される注目度を減らすために、重みを共有しないもう一つのQuery・Keyテーブルを用意 / 1つ目のQKテーブルから、2つ目のQKテーブルの値を引く" arXiv:2410.05258

リンク

Transformerにおける相対位置エンコーディングを理解する。 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 自然言語処理を中心に近年様々な分野にて成功を納めているTransf ormerでは、入力トークンの位置情報をモデルに考慮させるために「positional encoding（位置エンコーディング）」と呼ばれる処理が必要になります。この位置エンコーディングは通常、トークン系列の開始時点を基準とした絶対的な位置情報を埋め込みます。しかし、タスクによってはトークンの絶対的な位置ではなくトークン間の相対的な位置関係をモデルに考慮させたい場合もあると思います。そういった需要に応えるため、トークン間の相対的な位置を考慮した位置エンコーディング技

sh19910711 2024/10/03

"自然言語以外の様々な系列データにTransformerが適用されていますが、その全てのデータにおいて絶対位置情報が重要であるとは限りません / 物理世界由来の時空間データは基本的に相対的な位置関係が重要" arXiv:1809.04281 '21

リンク

TLM（Task-driven Language Modeling）の手法を使って、効率的に事前学習済BERTモデルの精度を超えられるか検証してみる - Qiita

はじめに TLM（Task-drive language Modeling）という手法を提唱する論文を読んで、内容が面白そうだったので、実際に実装してみて、TLMの効果を検証してみました。実装する上で色々と勉強になったので、誰かのためになるのでは、と思い記事としてまとめてみようと思います。 TLM: Task-drive language Modelingとは？ NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient Frameworkという論文で紹介されている手法です。 TLMの課題背景は以下のような感じです。近年のNLPはとんでもなく巨大なデータセットで何十億や何百億のパラメータを持つTransf ormerベースのモデルを扱うのが主流の1つに感じますが、そんな巨大なデータを扱えるのはごく一部の

sh19910711 2024/09/25

"TLM: 固有タスクデータを検索クエリーとして一般コーパスのデータを検索 + 事前学習の段階で下流タスクも学習 + 最後に固有タスクデータでFine Tuning / Joint Learning: huggingfaceのTrainerクラスを使い倒す" arXiv:2111.04130 '22

リンク

[輪講資料] Text Embeddings by Weakly-Supervised Contrastive Pre-training

大規模な弱教師あり対照学習によって訓練された強力なテキスト埋め込みモデルE5について解説した輪講資料です。元論文: https://arxiv.org/abs/2212.03533

sh19910711 2024/09/14

"E5: Cross-Encoderからの知識蒸留 + 多段階での対照学習 + SimLMの知識を前提 / Supervised SimCSE: NLIデータセットの「含意」関係にある文ペアを正例に対照学習 / CCPairs: 事前対照学習のための大規模データセット" arXiv:2212.03533

リンク

スクレイピング時に本文だけを抽出する最高精度ツールが優秀！【日本語版も公開】 - Qiita

n,pはそれぞれnegative(ノイズ),positive(本文)を基準とした時の評価を表します。例としてノイズ部分をN,本文をPとし,正解をT(True)、間違いをF(False)とした時にPresicionはそれぞれ以下の式です。 $$ Presicion_{[n]} = \frac{TN}{TN + FN} $$ $$ Presicion_{[p]} = \frac{TP}{TP + FP} $$ nのf値はどれだけ正確にノイズを除去できているかを、pのf値はどれだけ正確に本文を抽出できているかを評価していると考えればよいでしょう。元のデータでの再現学習も問題無く行えました。また日本語対応版もおおよそ元論文と同程度の精度が出ています。要点2:軽量でCPUでも1ページ0.02s程度の時間で予測できる Core i7,8コアのCPU環境でも1ページ0.02s程度の時間で予測が可能

sh19910711 2024/05/06

"boilerplate removal: ヘッダーやフッター、広告などの本文と関係の無い文章を除外するタスク / タグと文章情報を埋め込んで双方向LSTMに入力 / formタグはルールベースで落としてしまうのが良さそう" arXiv:2004.14294 2020

リンク

【論文要約】TABERT: Pretraining for Joint Understanding of Textual and Tabular Data - Qiita

概要本論文では、NL文と（半）構造化テーブルの表現を合同で学習する事前学習済みLMであるTABERTを紹介する。TABERTは2600万個の表とその英語文脈からなる大規模なコーパスで学習される。実験では、TABERTを特徴表現層として用いたニューラル意味解析器が、弱教師あり意味解析ベンチマークであるWIKITABLEQUESTIONSで最良の結果を達成し、テキストtoSQLデータセットのSPIDERでも競争力のある性能を発揮することが分かった。 ACL 2020 第一著者：Pengcheng Yin 団体：Carnelgie Mellon University, Facebook AI Research 提案法 Content Snapshot データベーステーブルは大きいので、すべてを使うにはTransf ormerには重い。そこで、セルの値から必要な行だけ抽出するようにする。手法として

sh19910711 2024/05/03

"TABERT: 文と（半）構造化テーブルの表現を合同で学習 / WDC WebTable Corpus: WikipediaとCommonCrawlから収集した大規模テーブルデータ / 評価: Spiderデータセットを用いてテキストからSQL文を予測するタスク" arXiv:2005.08314 2022

リンク

複数の関連度から検索可能な BGE M3-Embedding の紹介 - Algomatic Tech Blog

こんにちは。Algomatic の宮脇（@catshun_）です。本記事では文書検索において一部注目された BGE M3-Embedding について簡単に紹介します。 Chen+'24 - BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation おことわり本記事では精読レベルの詳細な解説は含みません。詳細については参照元の論文をご確認ください。不十分また不適切な言及内容がございましたらご指摘いただけますと幸いです。プロダクト等の利用時は必ずライセンスや利用規約を参照して下さい。本記事で紹介する論文は Work in progress とコメントされており今後内容が更新される可能

sh19910711 2024/05/02

"ベクトル表現を用いた類似度算出に基づく検索は sparse retrieval, dense retrieval, multi-vector retrieval に大別 / M3-Embedding: これら 3 つの機能を有する高性能な埋め込みモデルとして提案" arXiv:2402.03216

リンク

意見分析エンジン―計算言語学と社会学の接点 - inak0shiのブログ

意見分析エンジン―計算言語学と社会学の接点 posted with amazlet at 15.04.10 大塚裕子乾孝司奥村学コロナ社売り上げランキング: 533,011 Amazon.co.jpで詳細を見る 1〜3章は、意見分析を社会学の観点で解説しており、この本を読もうと思った目的に合わないのでスルー。4〜7章を読んだ。 4章では、意見分析の中でも、その一部である評価分析について、基本的なアプローチを解説。1)評価表現辞書の構築、2)評価情報を観点とした文書分類、3)評価情報を含む文の分類、4)評価情報の要素組の抽出と分類である。1に関しては、a)語彙ネットワーク(WordNet)、b)コーパス内での共起情報(検索エンジン)、c)周辺の文脈を利用する手法が紹介されている。4に関しては、<対象,属性,評価>の3つ組で表わされる属性辞書を、スロットとコーパスの間をブートスト

sh19910711 2024/04/28

"5章では、構文論(syntax)と語用論(pragmatics)に着眼した、意見分析の実践を紹介 / 文法的表現(真偽判断:「だろう」「らしい」「ようだ」 ... )とアンケート文をパターンマッチし、意味タグを付与" 2015

リンク

自然言語理解とそのモデリング - Reproc.pnz

はじめにさいきん自然言語処理分野では「自然言語理解」なるものをどう考えるかについて議論があったりします。膨大なパラメータを大量のコーパスで訓練したシステム（ GPT-3 とか）を用いると言語理解が関わるようなさまざまなタスクで高い性能が達成できることがわかってきた今日このごろ、そうしたシステムが本当に「言語理解」なるものを実現しているのかということが焦点です。これは言語理解である、言語理解ではない、そもそも言語理解ってなんやねん……などなど、考えさせられる議論が論文やブログ記事などで展開されています。読んでいても何もわからん……状態になったので、ともかく自分の理解を整理してみようというのがこの記事を書き始めた動機です。こうした議論から得られる帰結（あるいは教訓）のひとつは、結局は理想的な言語理解なるものを定義しようと試みても決着しないので、具体的にどういった振る舞いがそれに含まれるのか

sh19910711 2024/04/28

"理想的な言語理解なるものを定義しようと試みても決着しない / どういった振る舞いがそれに含まれるのかを適切に切り出してタスクとして評価 / 現実的な制約から妥協したり部分問題に落としたりして定式化" 2021

リンク

10万のサークル名を収集して傾向を可視化してみました - ミジンコ組さんの努力の結晶が詰まった本 - このすみろぐ

みじんこ組さんの「10万のサークル名を収集して傾向を可視化してみました」を読みました。控えめに言ってすごい本です。本書は、まずはじめにTwitterの発言をひたすら収集し、そこからサークル名を抜き出します。例えば、正規表現を活用し「サークル名は〇〇です」といった形式のツイートから、サークル名だけを取り出していきます。まさに、努力の結晶な本です。 daphnia.booth.pm 感想を書いていきます。なぜ10万のサークル名なのか？ノイズとの戦い正規表現によるサークル名の収集サークル名の傾向について MeCabによるサークル名の形態素解析自分のサークル名を考え直してみるさいごになぜ10万のサークル名なのか？ 10万という数字は、仮説を元に導き出された数字です。年間の土日祝日の数： 120 土日祝日に開催されるイベントの数： 10〜40 小規模、中規模、大規模、超大規模な

sh19910711 2024/04/27

"Twitterの発言をひたすら収集 / 「サークル名は〇〇です」といった形式のツイート / 単純にサークルで検索をしてしまうと、大学のサークル活動がたくさんヒット / 漢字は一文字に意味を凝縮できる" 2018

リンク

RoFormer: Enhanced Transformer with Rotary Position Embedding - iwiwi 備忘録

arxiv.org GPT-NeoX等で使われているposition embedding。そもそも三角関数足す元祖のposition embeddingしか知らなかったので、relative position embeddingがどういうものかも知れてよかった。この手法自体は足す(additive)んじゃなくて回転させる(multicative)で、一見かなりアグレッシブな気もしたけど、足すのもまぁまぁやべーし良いかという気持ちになった。内積の大きさを制御したいと思えば全然普通かもしれない。

sh19910711 2024/04/27

"RoFormer: GPT-NeoX等で使われている + 足す(additive)んじゃなくて回転させる(multicative) / アグレッシブな気もしたけど、足すのもまぁまぁやべーし良いかという気持ちになった" arXiv:2104.09864 2023

リンク

分散表現とWord2vec｜実践的自然言語処理入門 #3 - Liberal Art’s diary

#1ではBoWと形態素解析の導入、#2では特徴語抽出とtf-idfについて取り扱いました。 #3ではここまで出てきた疎行列(Sparse matrix)の取り扱いにあたって分散表現とWord2vecについて取り扱いたいと思います。以下目次になります。 1. 疎行列の取り扱いと局所表現・分散表現 2. Word2vecの仕組み 3. Word2vecの実装 4. まとめ 1. 疎行列の取り扱いと局所表現、分散表現・背景（自然言語処理における疎行列の取り扱い問題）自然言語処理を行う際にBoW的なアプローチ（生起頻度のカウントとtf-idf値での計算のどちらも含みます）を行うにあたって一番ネックになりうるのは疎行列(Sparse matrix)の問題です。 https://scikit-learn.org/0.16/modules/feature_extraction.html#spars

sh19910711 2024/04/27

"BoW: 行列のサイズ自体はとても大きな一方で、ほとんどが0 + 済系の記事にスポーツ系の単語は出てきにくい / 「深層学習による自然言語処理」の3章の記述が非常にわかりやすかった" 2019

リンク

【 self attention 】簡単に予測理由を可視化できる文書分類モデルを実装する - Qiita

はじめに Deep Learning モデルの予測理由を可視化する手法がたくさん研究されています。今回はその中でも最もシンプルな（しかし何故かあまり知られていない）self attentionを用いた文書分類モデルを実装したので実験結果を紹介します。この手法では、RNNモデルが文書中のどの単語に注目して分類を行ったか可視化することが可能になります。 2019/04追記本記事で紹介したモデルをAllenNLPを使用して書き直した記事を公開しました。 attentionの復習 attentionとは（正確な定義ではないですが）予測モデルに入力データのどの部分に注目するか知らせる機構のことです。 attention技術は機械翻訳への応用が特に有名です。例えば、日英翻訳モデルを考えます。翻訳モデルは”これはペンです”という文字列を入力として"This is a pen"という英文を出力しま

sh19910711 2024/04/26

"予測を間違えたデータの分析も予測理由の可視化ができるとわかりやすい / self-attentive sentence embedding: bidirectional LSTM + 隠れ層を入力として各単語へのattentionを出力 + 文書分類" arXiv:1703.03130 2018

リンク

自然言語処理の手法を用いてコード進行から作曲者を推論した - Qiita

前置き初投稿となります。普段は理系大学院生で原子力関連の研究室に所属しており、現在は深層学習を用いた研究を行っています。また研究の影響で深層学習に興味を持ち、趣味で自然言語処理の勉強をしております。ライブ観戦が趣味で先日も『RAISE A SUILEN』の現地ライブに参加し、今度は『Roselia』のライブにも参戦予定です。この記事は『Roselia』の曲を聞いていた際に、音楽のコード進行が自然言語処理に通じるものがあると気づき、実装したものとなります。概要『Roselia』曲からいくつか選び、コード進行をword2vecで学習し曲をベクトル化。その後コサイン類似度によって曲同士の類似度を計算し、作曲者の推論をした。コード進行とはコード進行とは和音（chord)の流れです。有名なものはカノン進行とか王道進行とかです。正確な説明は私にはできないのでSoundQuestをご参考くだ

sh19910711 2024/04/24

"コード進行をword2vecで学習し曲をベクトル化 / コード進行: 登場するコードは同じですが、前後関係によって印象が全く変わる / コード進行を「文章」、コードを「単語」とみなし、ベクトルを獲得" 2023

リンク

paragraph2vecの論文要訳 (Distributed Representations of Sentences and Documents) - Qiita

paragraph2vecの論文要訳 (Distributed Representations of Sentences and Documents)自然言語処理機械学習 word2vecparagraph2Vec論文読み原文: Distributed Representations of Sentences and Documents 要訳者からのお知らせこの要訳はTSGの機械学習分科会での発表のために作られたものです。雑に内容を理解するためのまとめであり、正確な内容を保証するものではありません。致命的なミスはコメントか編集リクエストでお知らせください Abstract 機械学習するには入力を固定長のベクトルにする必要がある既存手法で一番popularなのはbag-of-words だけどBOWはクソ順序の情報が失われる単語間のセマンティクスが失われるなので Paragr

sh19910711 2024/04/23

"BOW: 順序 + 単語間のセマンティクスが失われる / bag-of-n-grams: スパース性と次元の高さに問題 / Paragraph Vector: 文書中に出現する単語を予測できるように学習 + BOWの欠点を乗り越える" arXiv:1405.4053 2016

リンク

論文紹介: SentencePieceの原著論文+α - radiology-nlp’s blog

はじめに 2018年に登場したニューラル言語処理のための教師なしサブワード分割モジュール，SentencePiece。開発意図や仕様を確認するために原著論文を読みました。 github.com 論文は2018年8月にarXivに投稿されています。 arxiv.org 著者・開発者はMeCab開発者でもある工藤拓さん。自然言語処理に関心のある方で知らない人はいないでしょう。 github.com 1冊まるごと形態素解析という驚異的な本も執筆されています。形態素解析の理論と実装 (実践・自然言語処理シリーズ) 作者: 工藤拓,言語処理学会出版社/メーカー: 近代科学社発売日: 2018/10/04メディア: 単行本この商品を含むブログを見る背景基本的事項をいくつか確認します。 SentencePieceは与えられた文章をサブワードに分割するモデルであり, コーパスからの教師なし学習が可

sh19910711 2024/04/22

"SentencePiece: 文法体系や言語学的観点からみて妥当な分割をするとは限りません(そのような設計を目指していません) > 単位は「形態素」ではなく単に「サブワード」と呼ばれることが多い" arXiv:1808.06226 2019

リンク

huggingface/transformers の日本語BERTで文書分類器を作成する - Qiita

概要先日、huggingfeceのtransf ormersで日本語学習済BERTが公式に使えるようになりました。 https://github.com/huggingface/transf ormers おはようござえます、日本の友達 Hello, Friends from Japan 🇯🇵! Thanks to @NlpTohoku, we now have a state-of-the-art Japanese language model in Transf ormers, `bert-base-japanese`. Can you guess what the model outputs in the masked LM task below? pic.twitter.com/XIBUu7wrex — Hugging Face (@huggingface) December 13

sh19910711 2024/04/22

"transformersとPyTorch, torchtextを用いて日本語の文章を分類するclassifierを作成、ファインチューニングして予測するまで / 実装は「つくりながら学ぶ！PyTorchによる発展ディープラーニング」をとても参照" 2019

リンク

Rotary Positional Embeddings (RoPE) とは - Qiita

はじめに RoPE ってなに？となったので調べてみた Rotary Positional Embeddings (RoPE) Rotary Positional Embeddings (RoPE) = 絶対位置埋め込みと相対位置埋め込みの長所を組み合わせた新しいアプローチのこと。そもそも位置埋め込みってなに？なんで必要？ Transf ormerモデルは、入力トークンの順序を考慮せずに処理をする "the dog chases the pig" と "the pig chases the dog" のような異なる意味のフレーズも同様に扱われるこれを解決するために、位置埋め込みという概念が導入された「RoFormer: Enhanced Transf ormer with Rotary Position Embedding」という論文で2021年に初めて詳細に説明され、自然言語処理（NL

sh19910711 2024/04/22

"RoPE: 絶対位置埋め込みと相対位置埋め込みの長所を組み合わせ + 単語ベクトルに回転を適用 / 単語が異なる文脈で同じ相対距離を保つ場合、それらのベクトルは同じ量だけ回転 + 結果としてのドット積が一定に保たれ"

リンク

BERTで自動要約を行う論文「BERTSUM」を紹介する＋α - Qiita

こんにちは！@MonaCatです。本稿はDeep Learning論文紹介 Advent Calendar 2019の1日目の記事です。画像は全て論文中から引用しています。概要本稿ではBERTを自動要約に適応させたBERTSUMについて紹介します。論文：Fine-tune BERT for Extractive Summarization Full paper：Text Summarization with Pretrained Encoders また自動要約全体に関する資料をまとめているので参考にどうぞ。自動要約とは自動要約とは自然言語処理におけるタスクの1つです。多くはテキストを対象とした自動要約を指しますが、ここでは区別するために文章要約と呼びます。文章要約は抽出型と生成型（抽象型）に分かれますが、現在は生成型（と抽出型を組み合わせたもの）が主流となっています。抽出型：元

sh19910711 2024/04/18

"BERTSUM: 本来先頭のみに挿入するトークン[CLS]を、文の区切りにも挿入 + 奇数と偶数で異なるラベル（A, B）を振ることで区切りを学習 / Decoderにはランダムに初期化された6層のTransfomerを使用" arXiv:1903.10318 2019

リンク

VRAMが少ない環境でLLMを効率的にfine-tuneしてベクトル検索を実現する

LLM周りの基本的な知識とTransf ormersをもっと扱えるようになりたくて、最近大規模言語モデル入門を読んでいたのですが、その中で「メモリ効率の良いファインチューニング」という節が面白くて色々自分で試してみていたりしました。ここでは、自分の手元で文章の類似度を計算するモデルをファインチューンして作って見たので、それについて書きたいと思います。実験環境 Ubuntu 20.04 NVIDIA RTX2080 (VRAM: 8GB) Python 3.11 実験文章の類似度を計算するモデルを作るために、JGLUEのJSTSというデータセットを利用しました。このデータセットはHugging Face上から取得することが可能で、以下のようなカラムを持ったデータを使うことが可能です。 sentence1: 1つめの文章 sentence2: 2つめの文章 label: 文章間の類似度(0

sh19910711 2024/04/17

"大規模言語モデル入門: 「メモリ効率の良いファインチューニング」という節 / 勾配チェックポインティング: メモリ使用量を抑える代わりに計算スピードが少し落ちる + VRAMの使用量は半分以下まで激減" 2023

リンク

はてなブックマーク

タグ

関連タグで絞り込む (0)

*algorithmとNLPと--に関するsh19910711のブックマーク (26)

お知らせ

月間はてなブックマーク数ランキング（2025年8月）

今週のはてなブックマーク数ランキング（2025年8月第5週）

今週のはてなブックマーク数ランキング（2025年8月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス