タグ

*algorithmとNLPに関するsh19910711のブックマーク (601)

  • 深層学習で部分空間を扱うときは射影行列を考えるとよい - ジョイジョイジョイ

    拙著『グラフニューラルネットワーク』が重版して第 5 刷となりました。皆さまありがとうございます! 【重版速報🎉🎉🎉🎉】 機械学習プロフェッショナルシリーズの重版が決まりました😆ご愛読ありがとうございます‼️ 松井孝太・熊谷亘『転移学習』【4刷】 https://t.co/Qic24KAwxD 佐藤竜馬『グラフニューラルネットワーク』【5刷】 https://t.co/Peqn1ZQavo pic.twitter.com/VBkNp2Uwjj— 講談社サイエンティフィク🖋️📔 (@kspub_kodansha) 2024年8月1日 グラフニューラルネットワーク (機械学習プロフェッショナルシリーズ) 作者:佐藤竜馬講談社Amazon 拡散モデルと最適輸送(最適輸送第 5 刷)や GNN の最新動向(グラフニューラルネットワーク第 3 刷)でもやりましたが、重版に感謝して書き下

    深層学習で部分空間を扱うときは射影行列を考えるとよい - ジョイジョイジョイ
    sh19910711
    sh19910711 2025/08/16
    2024 / "平面とベクトルのコサイン類似度 / n 次元空間中の d 次元部分空間(≈ ランクが d の射影行列)の集合のことをグラスマン多様体 (Grassmannian) といい、幾何学の分野で古くから研究"
  • 係り受けに基づく日本語単語埋め込み - LAPRAS Tech Blog

    sh19910711
    sh19910711 2025/08/03
    2019 / "Mikolovらの手法では,「ある語の周りにどのような語が現れやすいか」 + Levy らの手法では「ある語はどのような語と依存関係を持ちやすいか」 / 機能的な類似度(活用形が同じ)が高く評価"
  • byte列を直接処理する言語モデル

    Table of Contents これは何?byte列をpatchに区切る具体例提案手法のメリット学習効率の向上1つの処理単位に押し込める情報量をコントロールするサブトークンの特徴の利用どのように実現したか?byte列の表現の粒度提案手法における「語彙数」の定義言語モデルのアーキテクチャ所感提案手法のアプローチはマルチバイト言語に対しても有効か?ReferenceAppendixA. byte単位の表現とn-gram表現の持ち方 Metaが2024年12月13日に公開した論文 "Byte Latent Transformer: Patches Scale Better Than Tokens" [Pagnoni, 2024] を読んだのでその内容をまとめます。 ここで掲載された図は特に説明がない限り全て[Pagnoni, 2024]からの引用で、著作権は著者らに所属します。 これは何?

    byte列を直接処理する言語モデル
    sh19910711
    sh19910711 2025/07/08
    "byte列の「予測しやすさ」に基づいて動的に処理単位を決定 / 動的に決められる処理単位を論文中ではpatchとよび、tokenとは区別 / byte列の「予測しやすさ」の評価にentropyという特徴量"
  • 2025年度 人工知能学会全国大会(第39回)参加報告 - Sansan Tech Blog

    こんにちは、Sansan株式会社 技術部 研究開発部の田柳です。 2025年5月27日(火)〜30日(金)の4日間、大阪国際会議場(グランキューブ大阪)にて開催された 2025年度 人工知能学会全国大会(JSAI2025)に参加してきました。弊社はプラチナスポンサーとして協賛し、大田尾・黒木・竹長・田柳・山内が現地参加しました。 私自身、学生時代は経済学を専攻し、現在は契約書データのキーワード抽出技術の研究開発などに取り組んでいます。こうした機械学習系の学会への参加は今回が初めてで、多くの刺激を受けました。 記事では、印象に残ったセッションや発表、そして会場の雰囲気などをレポートします。 ブースにて、写真左からでの田柳・竹長・大田尾 JSAI2025について 以下、JSAI2025の公式HPから引用します。 JSAI 2025は、人工知能学会(JSAI)が主催する日最大級のAI学術イ

    2025年度 人工知能学会全国大会(第39回)参加報告 - Sansan Tech Blog
    sh19910711
    sh19910711 2025/06/14
    "有価証券報告書に記載されているMD&A(経営者による財政状態・経営成績の分析)欄 + 定性的な記述が多い企業ほど、市場の反応が大きくなる傾向 / 2Win5-80: GITの動画VQAを応用し動画のフレームの代わりにページ画像を入力"
  • 日本語ModernBERTの開発: 開発と評価編 (1/3) - SB Intuitions TECH BLOG

    概要 こんにちは、SB Intuitions株式会社インターンの塚越です。 日語・英語合わせて約4.4T tokensを学習した日語ModernBERTというモデルを構築・公開しました。 記事では、その開発過程や評価結果についてお話しします。 我々が開発した日語ModernBERTは、30m, 70m, 130m, 310mと4つの異なるパラメータサイズをもち、それぞれのモデルが同パラメータ規模のモデルと比較して、記事公開時点では最も高い性能を達成しています。 開発した一連のモデルはHuggingFaceにてMITライセンスのもと公開しておりますので、商用・研究用問わず自由にお使いいただけます。 https://huggingface.co/sbintuitions/modernbert-ja-30m https://huggingface.co/sbintuitions/mod

    日本語ModernBERTの開発: 開発と評価編 (1/3) - SB Intuitions TECH BLOG
    sh19910711
    sh19910711 2025/06/14
    "LLMで採用されているがBERTでは採用されていない技術: RoPE + GLU派生手法 / 毒性分類タスク(Toxicity)の性能は全体的に既存モデルと比較して低い傾向 + 低品質なテキストをかなり削減しているため"
  • NLP2025 参加報告 - Gunosy Tech Blog

    こんにちは、データサイエンス部の森田、大城、新規事業開発室の井口です。 もう気がつけば開催から一月経ってしまいましたが、今回の記事は 3/10 ~ 3/14 の 5 日間にわたって開催された言語処理学会第 31 回年次大会 (NLP2025) の参加レポートになります。 スポンサーしてます NLP2025 について 論文紹介 [P8-15] 逆プロンプトを用いたコールドスタート推薦 [A2-1] 大規模言語モデルにおける複数の指示追従成功率を個々の指示追従成功率から推定する [A5-4] プロンプトに基づくテキスト埋め込みのタスクによる冗長性の違い まとめ NLP2025 について 言語処理学会は人工知能の一分野である(自然)言語処理を専門とする学会です。近年は特に LLM の話題が多く、参加者の幅も広がっているようです。 昨年に引き続きオフライン・オンラインのハイブリッド開催となり、長崎

    NLP2025 参加報告 - Gunosy Tech Blog
    sh19910711
    sh19910711 2025/06/11
    "P8-15: 「逆プロンプトを用いたコールドスタート推薦」 / 質問形式を逆転させ「このユーザーはどのようなアイテムを好むか」という質問で好みそうなアイテムの擬似サンプルを得ることで学習データを拡張"
  • 最強DB講義 #35 大規模言語モデルに基づく検索モデル

    BERTやGPTなどの大規模言語モデルに基づく検索モデルは、様々なテストコレクションにおいて優れた性能を発揮し多くの注目を集めている。これまでに様々な検索モデルが提案されてきており、大規模言語モデルの情報検索への適用は、実サービスにおいても一般的なものとなっている。講義では、大規模言語モデルを利用した…

    最強DB講義 #35 大規模言語モデルに基づく検索モデル
    sh19910711
    sh19910711 2025/05/30
    2024 / "情報検索モデルの分類: クエリ・文書が密表現/疎表現されるか + 教師あり/教師なし / SPLADE: 教師あり疎検索モデル + クエリと文書を拡張し各トークンの重みを推定"
  • Raggle第2回コンペ - StaticEmbeddingで安全に爆速RAGを実施する

    Raggleの第2回コンペでアイデア賞をいただいたのでメモ。ありがとうございます〜 ソースコード 下記を参考に、Transformerモデル組み込みたいんやけど...と生成AI相談してコード作りました。要件定義と手元デバッグ野郎でした。 解法のコア このツイートにほぼすべてが詰まっています。Twitter最高! TransformerではないEmbeddingモデルである、static-embedding-japaneseをベクトル検索に用いました。 著者のセコンさんもTwitterに書いてくださっていますが、CPUでも爆速でEmbeddingできます。 今回のコンペで使った文書のEmbeddingに使う時間を比較してみたところ、以下の通りでした。 モデル 時間 上記は 396chunks(1chunk, 1000文字ごとチャンク) での計測時間です。 ※ 各々のCPUのスペックやOpe

    Raggle第2回コンペ - StaticEmbeddingで安全に爆速RAGを実施する
    sh19910711
    sh19910711 2025/05/27
    "OpenAIのtext-embeeding-smallとアンサンブル / StaticEmbeddingで類似度を計算し、コサイン類似度が0.9を下回っている場合のみRAGの候補として追加とすることで参考情報の多様性を担保"
  • 言語と数理の交差点:テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)

    深層学習の登場以降、機械学習と言語処理の距離はぐっと縮まった。機械学習が問題を抽象化して議論するのに対し、言語処理は言語また言語処理タスクに内在する構造や制約を前提としてモデル化を行う。例えば文の処理では文法的制約を与える木構造を前提とし、対訳辞書構築では単語をノード、対訳関係をエッジとする二部グラフを…

    言語と数理の交差点:テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)
    sh19910711
    sh19910711 2025/05/06
    2024 / "BERT: ”swing”の表現って200個あんねん / 文脈化埋め込み: 文脈なしには使いづらい + 文脈の影響が大きすぎる場合も / Tiyajamorn: 「意味」と「言語らしさ」成分の分離"
  • 日本語 BERT RetroMAE モデルの公開と、後続検索タスクでの評価 - A Day in the Life

    結果として、ほぼ全てのスコアにおいて性能向上が確認されており、RetroMAEの有益性が確認された。また学習方法も、教師なしでテキストのみを与えれば良いという手軽さも実用性が高いであろう。 RetroMAE について RetroMAEの特徴は、Masked Auto-Encoderの手法を採用しながら、以下の3つの設計を取り入れた点である。 入力文に対して異なるマスクを適用する新しいワークフロー エンコーダーとデコーダーで非対称な構造を採用 エンコーダーとデコーダーで異なるマスク率を使用 これらの工夫により、文書の意味をより深く理解し、効果的な検索を可能にする表現学習を実現している。実際の評価においても、BEIRやMS MARCOなどのベンチマークで優れた性能を示している。また高性能のマルチリンガル密ベクトルモデルの BAAI/bge-m3 も RetroMAE を用いた事前学習を行なって

    日本語 BERT RetroMAE モデルの公開と、後続検索タスクでの評価 - A Day in the Life
    sh19910711
    sh19910711 2025/05/01
    2024 / "BERT: 主にトークンレベルのタスクで事前学習されており、文レベルの表現力が十分に発達していないという課題 / RetroMAE: 検索に特化した事前学習 + 入力文に対して2つの異なるマスクを適用"
  • 最近の埋め込みモデルのクロスリンガル検索能力をチェックする|oshizo

    私が最近経験したタスクに、クエリに英語と日語が混在し、検索対象のドキュメントは日語のみのクロスリンガルな検索がありました。 このタスクでは、日語クエリと比べ英語クエリによる検索精度が相対的に低い傾向が見られていました。 まあそれはそうだろうという話なのですが、これを機に、今クロスリンガル検索タスクをやるにはどのモデルを選ぶと良さそうか、最近の有力なモデルを軽く比べてみました。 詳細は後ろのセクションで話しますが、日語クエリ-日語ドキュメントを重視するならcl-nagoya/ruri-v3-310m、英語クエリを含めたバランスを重視するならCohereのembed-v4.0がよさそうな感じです。 ただし、データセット1つでの簡易評価なので、ご参考までに。実際にモデルを選ぶ際はご自身のタスクで評価してみてください。 embed-v4.0はマルチモーダル対応もしているので、個人的にアツ

    最近の埋め込みモデルのクロスリンガル検索能力をチェックする|oshizo
    sh19910711
    sh19910711 2025/04/23
    "cl-nagoya/ruri-v3-310m: 日本語クエリ-日本語ドキュメント + ModernBERTベース。2025/4時点でJMTEBスコア最強 / Cohereのembed-v4.0: 英語クエリを含めたバランス + マルチモーダル対応"
  • 日本語向け教師なしキーフレーズ抽出の検証 - ABEJA Tech Blog

    ABEJAでデータサイエンティストをしている藤原です。 先月開催された 言語処理学会第31回年次大会(NLP2025) に参加し、その際に 埋め込みモデルベースの教師なしキーフレーズ抽出における長文に対する抽出精度の改善 というタイトルで発表を行いました。今回はその発表内容について改めて紹介させていただきます。 発表概要としては、日語のテキストに対して種々の教師なしキーフレーズ抽出手法を統一したインターフェースで実行できるようにツールを整備し、評価用データセットを構築して各種手法の性能比較を行いました。記事では開発したツール・評価データセットなど原稿であまり触れられなかった部分や、より詳細な実験結果についても記載します。 開発したツール・評価データセットはこちらからご利用いただけます。GitHub - flatton/keyphrase_extraction_tools はじめに キー

    日本語向け教師なしキーフレーズ抽出の検証 - ABEJA Tech Blog
    sh19910711
    sh19910711 2025/04/22
    "MDERank: 重要なフレーズほど文章から削除されると、その文章の意味が大きく変化するという仮定 + 元の文章との埋め込みの距離を算出し、距離が大きいほど重要なフレーズとみなす" doi:10.18653/v1/2022.findings-acl.34
  • 深層学習による自然言語処理 輪読会#5 資料

    sh19910711
    sh19910711 2025/04/22
    2022 / "カリキュラム学習: 出現頻度が高い単語のみに文脈と予測対象を限定した訓練データを利用。徐々に多様性を増していく + 高頻度の単語は関係が学習しやすいという仮定 + 初期は短い文章を使う"
  • テキスト埋め込みモデルPLaMo-Embedding-1Bの開発 - Preferred Networks Research & Development

    2025/04初頭時点で、OpenAItext-embedding-3-largeなどの他社モデルを上回り、日語テキスト埋め込みモデルとしてトップのスコアを記録しています (**)。特にテキスト埋め込みモデルの主要な用途と言えるRetrieval (検索タスク) では既存のモデルの最高スコアから2ポイント以上の更新を達成しており、情報検索での利用に適したモデルであることを示唆していると言えます。 (*) コンテキスト長1024で計測 (以降も断りがなければ同様)。これは学習時に用いたコンテキスト長が1024までであるため。ただし、ベースモデルの最大コンテキスト長であり、PLaMo-Embedding-1Bのconfig上の最大コンテキスト長である4096で計測しても、そこまで性能が下落するわけではないことがわかっています (Appendix参照)。 (**) 2025/04/14にRu

    テキスト埋め込みモデルPLaMo-Embedding-1Bの開発 - Preferred Networks Research & Development
    sh19910711
    sh19910711 2025/04/21
    "2つのモデルのパラメータを単純に平均する / 複雑なパラメータを持つモデルについて、単にパラメータを平均化するだけで性能が向上するというのは驚きですが、実際に今回も性能の向上が確認でき ~ "
  • 言語処理学会第31回年次大会(NLP2025)に行ってきました

    はじめに こんにちは、ナウキャストで LLM エンジニアをしている Ryotaro です。 2025 年 3 月 10 日から 3 月 14 日まで出島メッセ長崎で開催されていた、言語処理学会第 31 回年次大会(NLP2025)に参加しました。 言語処理学会は年に一回開催される学会であり、NLP 系の学会では日では最大規模です。研究者だけでなく企業の方も参加しており、昨今の LLM の発展により学会に参加する参加障壁が低くなったこともあり、発表者は増加していて今年はなんと過去最大の 777 件の発表数だったそうです。去年が 599 件、一昨年が 579 件なので、LLM の発展により発表者が増えていることがわかりますね。 初日は招待講演やチュートリアル、企業ブースの展示がメインで、真ん中の三日間では、各分野ごとに学会に提出した論文の口頭発表やポスター発表が主に行われました。最終日にはワ

    言語処理学会第31回年次大会(NLP2025)に行ってきました
    sh19910711
    sh19910711 2025/04/19
    "NLP2025: 777 件の発表 + 去年が 599 件、一昨年が 579 件 / 事実性を司る注意ヘッド: ヘッドと呼ばれる部分の出力は入力テキストが「事実」か「誤り」かを判別する情報を含んでいる"
  • Differential Transformerの構造解説 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに この記事では、2024年10月7日に登場したばかりの新しい機構、 arXiv:2410.05258 において提唱されたDifferential Attentionの解説をします。 解説では実装できるレベル感の解説をします。 Differential Transformer (以下DiT) 概要 この機構は、従来のTransformerで問題となっていた、重要ではない無関係な情報にも注目度をふってしまうことを改善するために作られた機構ということです。 様々な条件下で、従来のTransoformerより性能が良いことが示されてい

    Differential Transformerの構造解説 - Qiita
    sh19910711
    sh19910711 2024/10/27
    "Differential Transformer: 無関係な情報に付与される注目度を減らすために、重みを共有しないもう一つのQuery・Keyテーブルを用意 / 1つ目のQKテーブルから、2つ目のQKテーブルの値を引く" arXiv:2410.05258
  • KDD 2024 参加レポート

    これを見ると、Rec Sys 1、Rec Sys 2などでは、評価指標に関する研究からモバイル端末内で行われる推薦、Cold-start問題への対処に関するものなど幅広い推薦システムに関する研究が発表されていました。 多くの研究は既存の手法の問題点を発見、その問題を解決する手法を提案するような研究でしたが、On (Normalised) Discounted Cumulative Gain as an Off-Policy Evaluation Metric for Top-nnn Recommendationでは推薦問題で一般的に使用されているnDCGがどの程度オンライン実験の結果を近似できるのかを調査し、DCG指標がオフライン実験/オンライン実験に対して不偏となる状況でもnDCGは手法の相対順位が変動する可能性があることを示していました。 DIET: Customized Slimmi

    KDD 2024 参加レポート
    sh19910711
    sh19910711 2024/10/18
    "PAAC: Popularity Biasを軽減 + 特にマイナーアイテムに対する性能改善 / マイナーアイテム: 一部のユーザーのログにしか含まれない + そのユーザーのembeddingに適応し過ぎて過学習する" doi:10.1145/3637528.3671824 KDD'24
  • NLP2023 に参加しました:聴講編 - クックパッド開発者ブログ

    こんにちは。技術機械学習グループの深澤(@fukkaa1225)です。 3月に沖縄で行われた言語処理学会2023に参加してきました。連載の1つ目ではクックパッドとして「レシピに含まれる不使用な材料等に関する記述の抽出」という発表を山口(@altescy)がしてくれた様子をお伝えしました。自分は共著者兼聴講参加です。 連載の2つ目となるこの記事では気になったり面白いと感じた論文やセッションを紹介していきます。 印象に残ったセッション1: 形態素・構文解析 形態素解析といえば MeCab ですが、一強というわけではもちろんなく、様々なアプローチが提案されています。今回のセッションでは KWJA・vibrato、そして新たに提案された Jagger という多様な発表を一度に聞くことができたのは非常に貴重な経験でした。 テキスト生成モデルによる日形態素解析 https://www.anl

    NLP2023 に参加しました:聴講編 - クックパッド開発者ブログ
    sh19910711
    sh19910711 2024/10/11
    "絶対的な位置埋め込みが相対的な位置に基づいた推論をできているという経験的な事実 / RoBERTaが学習を通して獲得した位置埋め込みには周期性があり、自己注意機構はそこから周期成分を抽出 / C3-3" ANLP'23
  • Sentencepiece の分割を MeCab っぽくする - Qiita

    Sentencepieceは公開から約6年経ち、月間のpipダウンロード数が1000万を超え、開発者として嬉しい限りです。ただ、Sentencepieceを使用する際にMeCabなどの形態素解析器を前処理に使うケースが散見されます。単語分割をしたいというニーズは理解できますが、作者としてはあまり満足していません。多言語処理が一般的になり、しかもSentencepieceは言語非依存のシステムであるにもかかわらず、なぜベタな日語処理に依存するのでしょうか。このような使い方は、精度が向上するかもしれませんが、以下のようなデメリットもあります。 形態素解析が入力した空白と、元からある空白を区別できないため、分割されたデータから元の文を復元することができません。(可逆処理ではない)。 形態素解析システムに依存するため、メンテナンス性や可搬性が低下します。正しいバージョンの辞書を維持し、管理するこ

    Sentencepiece の分割を MeCab っぽくする - Qiita
    sh19910711
    sh19910711 2024/10/06
    "Sentencepieceの語彙選択にのみ MeCabを使用 / 分割時にMeCabを使用する必要がなく、Sentencepieceのモデルファイルだけで動作可能になる / MeCabの分割箇所を学習データに出現しないユニークなデリミタ文字列でエンコード"
  • Transformerにおける相対位置エンコーディングを理解する。 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 自然言語処理を中心に近年様々な分野にて成功を納めているTransformerでは、入力トークンの位置情報をモデルに考慮させるために「positional encoding(位置エンコーディング)」と呼ばれる処理が必要になります。 この位置エンコーディングは通常、トークン系列の開始時点を基準とした絶対的な位置情報を埋め込みます。 しかし、タスクによってはトークンの絶対的な位置ではなくトークン間の相対的な位置関係をモデルに考慮させたい場合もあると思います。 そういった需要に応えるため、トークン間の相対的な位置を考慮した位置エンコーディング技

    Transformerにおける相対位置エンコーディングを理解する。 - Qiita
    sh19910711
    sh19910711 2024/10/03
    "自然言語以外の様々な系列データにTransformerが適用されていますが、その全てのデータにおいて絶対位置情報が重要であるとは限りません / 物理世界由来の時空間データは基本的に相対的な位置関係が重要" arXiv:1809.04281 '21