[B! NLP] sh19910711のブックマーク

言語と数理の交差点：テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)

深層学習の登場以降、機械学習と言語処理の距離はぐっと縮まった。機械学習が問題を抽象化して議論するのに対し、言語処理は言語また言語処理タスクに内在する構造や制約を前提としてモデル化を行う。例えば文の処理では文法的制約を与える木構造を前提とし、対訳辞書構築では単語をノード、対訳関係をエッジとする二部グラフを…

sh19910711 2025/05/06

2024 / "BERT: ”swing”の表現って200個あんねん / 文脈化埋め込み: 文脈なしには使いづらい + 文脈の影響が大きすぎる場合も / Tiyajamorn: 「意味」と「言語らしさ」成分の分離"

リンク

【機械学習】Hugging faceの評価指標計算ライブラリ「Evaluate」を使ってみた。

NLPのライブラリ「transf ormers」などで有名なHugging face社の評価値計算ライブラリ、「Evaluate」を使ってみます。本記事のGoogle Colabで動かせるコードをこちらで公開中です。 Hugging faceの新ライブラリ「Evaluate」を使ってみた。こんにちは。PlayGroundのデータコースに所属している安藤太一です。 NLPモデルのライブラリ「transf ormers」などで有名なHugging face社が最近新しいライブラリ、「Evaluate」を発表したので、使ってみようと思います。目次 Evaluateとは基本的な評価値の計算 Evaluatorを使うまとめ参考文献 Evaluateとは Evaluateはモデルの評価や比較、性能のレポートをより簡単に、標準的に行うためのライブラリです。既存の評価指標（メトリクス）はNLP（自

sh19910711 2025/05/05

2022 / "Evaluate: モデルの評価や比較、性能のレポートをより簡単に、標準的に行うためのライブラリ / オリジナルの評価指標を作成して、Hugging face Hubにアップロードし、共有する機能もある"

リンク

日本語 BERT RetroMAE モデルの公開と、後続検索タスクでの評価 - A Day in the Life

結果として、ほぼ全てのスコアにおいて性能向上が確認されており、RetroMAEの有益性が確認された。また学習方法も、教師なしでテキストのみを与えれば良いという手軽さも実用性が高いであろう。 RetroMAE について RetroMAEの特徴は、Masked Auto-Encoderの手法を採用しながら、以下の3つの設計を取り入れた点である。入力文に対して異なるマスクを適用する新しいワークフローエンコーダーとデコーダーで非対称な構造を採用エンコーダーとデコーダーで異なるマスク率を使用これらの工夫により、文書の意味をより深く理解し、効果的な検索を可能にする表現学習を実現している。実際の評価においても、BEIRやMS MARCOなどのベンチマークで優れた性能を示している。また高性能のマルチリンガル密ベクトルモデルの BAAI/bge-m3 も RetroMAE を用いた事前学習を行なって

sh19910711 2025/05/01

2024 / "BERT: 主にトークンレベルのタスクで事前学習されており、文レベルの表現力が十分に発達していないという課題 / RetroMAE: 検索に特化した事前学習 + 入力文に対して2つの異なるマスクを適用"

リンク

最近の埋め込みモデルのクロスリンガル検索能力をチェックする｜oshizo

私が最近経験したタスクに、クエリに英語と日本語が混在し、検索対象のドキュメントは日本語のみのクロスリンガルな検索がありました。このタスクでは、日本語クエリと比べ英語クエリによる検索精度が相対的に低い傾向が見られていました。まあそれはそうだろうという話なのですが、これを機に、今クロスリンガル検索タスクをやるにはどのモデルを選ぶと良さそうか、最近の有力なモデルを軽く比べてみました。詳細は後ろのセクションで話しますが、日本語クエリ-日本語ドキュメントを重視するならcl-nagoya/ruri-v3-310m、英語クエリを含めたバランスを重視するならCohereのembed-v4.0がよさそうな感じです。ただし、データセット1つでの簡易評価なので、ご参考までに。実際にモデルを選ぶ際はご自身のタスクで評価してみてください。 embed-v4.0はマルチモーダル対応もしているので、個人的にアツ

sh19910711 2025/04/23

"cl-nagoya/ruri-v3-310m: 日本語クエリ-日本語ドキュメント + ModernBERTベース。2025/4時点でJMTEBスコア最強 / Cohereのembed-v4.0: 英語クエリを含めたバランス + マルチモーダル対応"

リンク

日本語向け教師なしキーフレーズ抽出の検証 - ABEJA Tech Blog

ABEJAでデータサイエンティストをしている藤原です。先月開催された言語処理学会第31回年次大会(NLP2025) に参加し、その際に埋め込みモデルベースの教師なしキーフレーズ抽出における長文に対する抽出精度の改善というタイトルで発表を行いました。今回はその発表内容について改めて紹介させていただきます。発表概要としては、日本語のテキストに対して種々の教師なしキーフレーズ抽出手法を統一したインターフェースで実行できるようにツールを整備し、評価用データセットを構築して各種手法の性能比較を行いました。本記事では開発したツール・評価データセットなど原稿であまり触れられなかった部分や、より詳細な実験結果についても記載します。開発したツール・評価データセットはこちらからご利用いただけます。GitHub - flatton/keyphrase_extraction_tools はじめにキー

sh19910711 2025/04/22

"MDERank: 重要なフレーズほど文章から削除されると、その文章の意味が大きく変化するという仮定 + 元の文章との埋め込みの距離を算出し、距離が大きいほど重要なフレーズとみなす" doi:10.18653/v1/2022.findings-acl.34

リンク

深層学習による自然言語処理輪読会#5 資料

sh19910711 2025/04/22

2022 / "カリキュラム学習: 出現頻度が高い単語のみに文脈と予測対象を限定した訓練データを利用。徐々に多様性を増していく + 高頻度の単語は関係が学習しやすいという仮定 + 初期は短い文章を使う"

リンク

自社開発した大規模言語モデルをどうプロダクションに乗せて運用していくか〜インフラ編〜

Cloud Operator Days 2024 クロージングイベントでの発表資料です。 PFN では PLaMo という生成AI基盤モデルを開発しており、100B規模のモデルを運用する際の課題について話しました。

sh19910711 2025/04/21

2024 / "100Bモデルのデプロイには200GBのGPUメモリが必要 / 起動後にGPUのメモリにこの200GBをロードする必要 + リクエスト増えてから立ち上げるのは全然間に合わない / 計算が爆速なのでloadのほうが時間を取る"

リンク

テキスト埋め込みモデルPLaMo-Embedding-1Bの開発 - Preferred Networks Research & Development

2025/04初頭時点で、OpenAIのtext-embedding-3-largeなどの他社モデルを上回り、日本語テキスト埋め込みモデルとしてトップのスコアを記録しています (**)。特にテキスト埋め込みモデルの主要な用途と言えるRetrieval (検索タスク) では既存のモデルの最高スコアから2ポイント以上の更新を達成しており、情報検索での利用に適したモデルであることを示唆していると言えます。 (*) コンテキスト長1024で計測 (以降も断りがなければ同様)。これは学習時に用いたコンテキスト長が1024までであるため。ただし、ベースモデルの最大コンテキスト長であり、PLaMo-Embedding-1Bのconfig上の最大コンテキスト長である4096で計測しても、そこまで性能が下落するわけではないことがわかっています (Appendix参照)。 (**) 2025/04/14にRu

sh19910711 2025/04/21

"2つのモデルのパラメータを単純に平均する / 複雑なパラメータを持つモデルについて、単にパラメータを平均化するだけで性能が向上するというのは驚きですが、実際に今回も性能の向上が確認でき ~ "

リンク

言語処理学会第31回年次大会（NLP2025）に行ってきました

はじめにこんにちは、ナウキャストで LLM エンジニアをしている Ryotaro です。 2025 年 3 月 10 日から 3 月 14 日まで出島メッセ長崎で開催されていた、言語処理学会第 31 回年次大会（NLP2025）に参加しました。言語処理学会は年に一回開催される学会であり、NLP 系の学会では日本では最大規模です。研究者だけでなく企業の方も参加しており、昨今の LLM の発展により学会に参加する参加障壁が低くなったこともあり、発表者は増加していて今年はなんと過去最大の 777 件の発表数だったそうです。去年が 599 件、一昨年が 579 件なので、LLM の発展により発表者が増えていることがわかりますね。初日は招待講演やチュートリアル、企業ブースの展示がメインで、真ん中の三日間では、各分野ごとに学会に提出した論文の口頭発表やポスター発表が主に行われました。最終日にはワ

sh19910711 2025/04/19

"NLP2025: 777 件の発表 + 去年が 599 件、一昨年が 579 件 / 事実性を司る注意ヘッド: ヘッドと呼ばれる部分の出力は入力テキストが「事実」か「誤り」かを判別する情報を含んでいる"

リンク

Differential Transformerの構造解説 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめにこの記事では、2024年10月7日に登場したばかりの新しい機構、 arXiv:2410.05258 において提唱されたDifferential Attentionの解説をします。本解説では実装できるレベル感の解説をします。 Differential Transf ormer (以下DiT) 概要この機構は、従来のTransf ormerで問題となっていた、重要ではない無関係な情報にも注目度をふってしまうことを改善するために作られた機構ということです。様々な条件下で、従来のTransoformerより性能が良いことが示されてい

sh19910711 2024/10/27

"Differential Transformer: 無関係な情報に付与される注目度を減らすために、重みを共有しないもう一つのQuery・Keyテーブルを用意 / 1つ目のQKテーブルから、2つ目のQKテーブルの値を引く" arXiv:2410.05258

リンク

enebular x Hugging Faceで自然言語処理の全能の神になる

0→1と1→10の狭間で Javaという技術選定を振り返る/Reflecting on the Decision to Choose Java Between Scaling from 0 to 1 and 1 to 10

sh19910711 2024/10/18

"enebular: Node-REDというライブラリがベース + うねうねをつなげるだけでいろいろ作れる + Web上で簡単にAPIが叩ける" '21

リンク

KDD 2024 参加レポート

これを見ると、Rec Sys 1、Rec Sys 2などでは、評価指標に関する研究からモバイル端末内で行われる推薦、Cold-start問題への対処に関するものなど幅広い推薦システムに関する研究が発表されていました。多くの研究は既存の手法の問題点を発見、その問題を解決する手法を提案するような研究でしたが、On (Normalised) Discounted Cumulative Gain as an Off-Policy Evaluation Metric for Top-nnn Recommendationでは推薦問題で一般的に使用されているnDCGがどの程度オンライン実験の結果を近似できるのかを調査し、DCG指標がオフライン実験/オンライン実験に対して不偏となる状況でもnDCGは手法の相対順位が変動する可能性があることを示していました。 DIET: Customized Slimmi

sh19910711 2024/10/18

"PAAC: Popularity Biasを軽減 + 特にマイナーアイテムに対する性能改善 / マイナーアイテム: 一部のユーザーのログにしか含まれない + そのユーザーのembeddingに適応し過ぎて過学習する" doi:10.1145/3637528.3671824 KDD'24

リンク

SentencePieceでの日本語分かち書きをTransformersのパイプラインに組み込む - radiology-nlp’s blog

背景 PyTorchでHugging Face Transf ormersを使って自然言語処理を行うとき，文章をモデルに入力するためにはまず単語単位に分かち書き (tokenize) しなければなりません．この前処理が思ったよりもやっかいなのです．事前学習済みのモデルをTransf ormers公式から提供されているものから選んでしまえば，ここはあまり問題になりません．Transf ormers付属のtokenizerを使って一発で分かち書きできるからです．実際，東北大からTransf ormersを通じて日本語BERT事前学習済みモデルが公開されて久しいので，日本語BERTモデルを使うのはだいぶ楽になりました． huggingface.co しかし，別の事前学習済みの日本語BERTモデルで，Transf ormersのプラットフォームに載っていないものはいくつか存在します．これらのモデルを

sh19910711 2024/10/13

"Transformers: アップデートが進むにつれて分かち書き処理の整備もかなり進んできた / SentencePieceを用いた分かち書きはtransformers仕様に変換できる / モデルをsentencepieceライブラリではなくtokenizersライブラリで読み込み" '21

リンク

日本語BERTを用いた記事分類 - Qiita

なんの記事？日本語BERTを用いて、Livedoorコーパスの文書分類タスクを解くモデルをさっと作ってみたので、その紹介です。また、このモデルを用いてこの後に、記事推薦も実装予定です。（追記：2021-03-14　続編を書きました。）ソースコードも添付しています。よければ併せて御覧ください。また、最新のAllenNLPおよびTransf ormersも併せて利用しています。 AllenNLPについて AllenNLPはPytorchベースの自然言語処理のフレームワークです。今回は文書分類モデルをAllenNLPを利用しつつ、作ってみたいと思います。作製したモデル非常にシンプルなモデルです。データ読み出し部分タイトルと記事本文を特殊トークンで結合しています。この手法はこの論文やこの論文などでもよく見られる手法です。 @overrides def text_to_instanc

sh19910711 2024/10/13

"AllenNLPはPytorchベースの自然言語処理のフレームワーク / タイトルの後ろに付随する代表センテンスを特徴として利用 + タイトルと記事本文を特殊トークンで結合" '21

リンク

NLP2023 に参加しました：聴講編 - クックパッド開発者ブログ

こんにちは。技術部機械学習グループの深澤(@fukkaa1225)です。 3月に沖縄で行われた言語処理学会2023に参加してきました。本連載の1つ目ではクックパッドとして「レシピに含まれる不使用な材料等に関する記述の抽出」という発表を山口(@altescy)がしてくれた様子をお伝えしました。自分は共著者兼聴講参加です。本連載の2つ目となるこの記事では気になったり面白いと感じた論文やセッションを紹介していきます。印象に残ったセッション1: 形態素・構文解析形態素解析といえば MeCab ですが、一強というわけではもちろんなく、様々なアプローチが提案されています。今回のセッションでは KWJA・vibrato、そして新たに提案された Jagger という多様な発表を一度に聞くことができたのは非常に貴重な経験でした。テキスト生成モデルによる日本語形態素解析 https://www.anl

sh19910711 2024/10/11

"絶対的な位置埋め込みが相対的な位置に基づいた推論をできているという経験的な事実 / RoBERTaが学習を通して獲得した位置埋め込みには周期性があり、自己注意機構はそこから周期成分を抽出 / C3-3" ANLP'23

リンク

Sentencepiece の分割を MeCab っぽくする - Qiita

Sentencepieceは公開から約6年経ち、月間のpipダウンロード数が1000万を超え、開発者として嬉しい限りです。ただ、Sentencepieceを使用する際にMeCabなどの形態素解析器を前処理に使うケースが散見されます。単語分割をしたいというニーズは理解できますが、作者としてはあまり満足していません。多言語処理が一般的になり、しかもSentencepieceは言語非依存のシステムであるにもかかわらず、なぜベタな日本語処理に依存するのでしょうか。このような使い方は、精度が向上するかもしれませんが、以下のようなデメリットもあります。形態素解析が入力した空白と、元からある空白を区別できないため、分割されたデータから元の文を復元することができません。（可逆処理ではない）。形態素解析システムに依存するため、メンテナンス性や可搬性が低下します。正しいバージョンの辞書を維持し、管理するこ

sh19910711 2024/10/06

"Sentencepieceの語彙選択にのみ MeCabを使用 / 分割時にMeCabを使用する必要がなく、Sentencepieceのモデルファイルだけで動作可能になる / MeCabの分割箇所を学習データに出現しないユニークなデリミタ文字列でエンコード"

リンク

Transformerにおける相対位置エンコーディングを理解する。 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 自然言語処理を中心に近年様々な分野にて成功を納めているTransf ormerでは、入力トークンの位置情報をモデルに考慮させるために「positional encoding（位置エンコーディング）」と呼ばれる処理が必要になります。この位置エンコーディングは通常、トークン系列の開始時点を基準とした絶対的な位置情報を埋め込みます。しかし、タスクによってはトークンの絶対的な位置ではなくトークン間の相対的な位置関係をモデルに考慮させたい場合もあると思います。そういった需要に応えるため、トークン間の相対的な位置を考慮した位置エンコーディング技

sh19910711 2024/10/03

"自然言語以外の様々な系列データにTransformerが適用されていますが、その全てのデータにおいて絶対位置情報が重要であるとは限りません / 物理世界由来の時空間データは基本的に相対的な位置関係が重要" arXiv:1809.04281 '21

リンク

Word Embeddings Are Steers for Language Models

sh19910711 2024/10/03

"LM_Steer: モデル全体を微調整する代わりに出力埋め込みに線形層を付加 + モデルや埋め込み層は更新しない / 生成文のスタイルを操作できるかどうかで評価 / 感情極性分類でpositiveな文を生成" doi:10.18653/v1/2024.acl-long.864

リンク

TLM（Task-driven Language Modeling）の手法を使って、効率的に事前学習済BERTモデルの精度を超えられるか検証してみる - Qiita

TLM（Task-driven Language Modeling）の手法を使って、効率的に事前学習済BERTモデルの精度を超えられるか検証してみる自然言語処理NLPberthuggingfaceTLM はじめに TLM（Task-drive language Modeling）という手法を提唱する論文を読んで、内容が面白そうだったので、実際に実装してみて、TLMの効果を検証してみました。実装する上で色々と勉強になったので、誰かのためになるのでは、と思い記事としてまとめてみようと思います。 TLM: Task-drive language Modelingとは？ NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient Frameworkという論文で紹介されている手法です。 TLMの課題背景は以下のよ

sh19910711 2024/09/25

"TLM: 固有タスクデータを検索クエリーとして一般コーパスのデータを検索 + 事前学習の段階で下流タスクも学習 + 最後に固有タスクデータでFine Tuning / Joint Learning: huggingfaceのTrainerクラスを使い倒す" arXiv:2111.04130 '22

リンク

【論文紹介】OAG-BERT: Pre-train Heterogeneous Entity-augmented Academic Language Models

sh19910711 2024/09/25

"Open Academic Graph (OAG)を活用 + Author, Field of Study, Value, AffiliationなどのEntity情報を同時に学習 / タイトルと要旨の間に著者名も挿入 / OAG: AMinerを開発した精華大学とMAGを開発したMicrosoftの共同研究" doi:10.1145/3534678.3539210 '21

リンク

はてなブックマーク

タグ

関連タグで絞り込む (125)

NLPに関するsh19910711のブックマーク (659)

お知らせ

今週のはてなブックマーク数ランキング（2025年5月第2週）

今週のはてなブックマーク数ランキング（2025年5月第1週）

月間はてなブックマーク数ランキング（2025年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス