[B! *algorithm][NLP] sh19910711のブックマーク

Owl/Crow：ModernBERTをゼロから学習したコード検索特化モデル

※追記（2025/11/19）記事タイトルをより内容に即したものへ変更しましたトークナイザの構築に関するセクションを新たに追加しました言い回しを少し修正しましたはじめまして。私は大学でコード特化言語モデルを利用したコード検索の研究を行っています。概要本記事では、従来の CodeBERT / GraphCodeBERT 系モデルでは扱いづらかった最大 512 トークンという入力長の制約 FlashAttention 非対応による学習・推論コストの高さ事前学習・追加学習の再現性の低さといった課題を踏まえつつ、ModernBERT アーキテクチャを用いてスクラッチ学習（ゼロから学習）からコード検索向けの埋め込みモデルを自作・公開するまでをまとめました。具体的には、以下の点を中心に紹介します。既存のコード特化言語モデル（CodeBERT / GraphCodeBERT 等

sh19910711 2025/11/19

"行単位のマスキング（Span Masking）を用いて継続事前学習 / 行レベルで文脈を落とす事前学習が検索性能を底上げ / StarCoder: GitHub 上の大規模コードをライセンス準拠で収集したデータセット"

リンク

文献紹介：Dynamic Contextualized Word Embeddings

PhD Defence: Considering Temporal and Contextual Information for Lexical Semantic Change Detection

sh19910711 2025/11/19

2021 / "単語の意味変化: 時間・分野の情報がない単語ベクトルと各時期・各分野の単語ベクトルの類似度の標準偏差 / 仮定: 平均0のガウス分布から生成 + 前の時期から少し動く / 2016年の転換期を検出できている"

リンク

対話要約研究の最前線前編〜データセットと評価指標の紹介〜 - RevComm Tech Blog

本記事の著者はResearch Engineerの大野です。最近は、ホロウナイトというゲームをやっていましたが、もう少しでクリアというところで敵が倒せず諦めました。はじめに RevCommは電話営業や顧客応対の通話を支援するAI搭載型のIP電話「MiiTel」を提供しています。この製品は、通話の文字起こしを保存する機能を備えており、RevCommは数千時間の対話データに接しています。この対話データに対する支援の1つとして対話要約が考えられます。対話要約とは、入力された対話から、その主要な概念を含むより短い文書（要約）を自動的に作成することです。ユーザは、要約を作成する手間が省けたり、あるいは要約を読むことで対話の概要をより早く理解できるなどの利点があります。これから前編と後編の2回に分けて、対話要約に関する記事を書きます。今回の記事では、はじめにいくつかの対話要約のデータセットを

sh19910711 2025/10/05

2023 / "BLEU: 共通する単語n-gramの数に着目し、類似度を計算 + 単語だけでなく、連続する2単語・3単語・4単語に着目 / Huggingface社のライブラリであるevaluateに実装"

リンク

BERTを用いて膨大なコンテンツにメタデータを自動付与する〜 Yahoo!ショッピングの商品属性推定

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo! JAPAN研究所の鍜治です。みなさんはコンテンツにメタデータを付与したいとき、どのようにしていますか？　もちろん手作業で付与することもできますが、コンテンツ量が膨大なときには、自動的にメタデータを付与できる仕組みがあると便利だと思いませんか？私がリーダーを務めている研究開発チームでは、Yahoo!ショッピングの商品に属性というメタデータを自動付与するため、BERTを用いた商品属性推定モデルを開発しています。本記事では、そもそも商品の属性とはどういうものなのか、どのようにBERTを使っているのか、既存モデルと精度はどのくらい違うのか、などについてお話したいと思いますので、よろしくお願いします。 Yaho

sh19910711 2025/09/16

2022 / "BERTの元論文では、マスク言語モデルに加えて次文予測（Next Sentence Prediction）モデルを学習することも提案 ~ ここでは採用していません / 商品タイトルについては、そもそも次文を定義することが難しい"

リンク

知識拡張型言語モデルLUKE

言語処理学会第29回年次大会併設ワークショップ JLR2023 (

sh19910711 2025/09/16

2023 / "LUKE: 単語とエンティティの文脈付きベクトルを出力 / エンティティは複数の入力トークンに分割されるため、Transformer内部でエンティティ同士の関係を捉えることが難しい"

リンク

[DL輪読会] Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm

sh19910711 2025/09/03

2017 / "テキストに付与されている感情表現（顔文字・絵文字・ハッシュタグ）はDistant Supervisionで用いられ ~ / Distant Supervision: 間接的なラベルを用いてラベルなしデータをラベルありデータとして用いる"

リンク

深層学習で部分空間を扱うときは射影行列を考えるとよい - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ

拙著『グラフニューラルネットワーク』が重版して第 5 刷となりました。皆さまありがとうございます！【重版速報🎉🎉🎉🎉】機械学習プロフェッショナルシリーズの重版が決まりました😆ご愛読ありがとうございます‼️ 松井孝太・熊谷亘『転移学習』【4刷】 https://t.co/Qic24KAwxD 佐藤竜馬『グラフニューラルネットワーク』【5刷】 https://t.co/Peqn1ZQavo pic.twitter.com/VBkNp2Uwjj— 講談社サイエンティフィク🖋️📔 (@kspub_kodansha) 2024年8月1日グラフニューラルネットワーク (機械学習プロフェッショナルシリーズ) 作者:佐藤竜馬講談社Amazon 拡散モデルと最適輸送（最適輸送第 5 刷）や GNN の最新動向（グラフニューラルネットワーク第 3 刷）でもやりましたが、重版に感謝して書き下

sh19910711 2025/08/16

2024 / "平面とベクトルのコサイン類似度 / n 次元空間中の d 次元部分空間（≈ ランクが d の射影行列）の集合のことをグラスマン多様体 (Grassmannian) といい、幾何学の分野で古くから研究"

リンク

係り受けに基づく日本語単語埋め込み - LAPRAS Tech Blog

sh19910711 2025/08/03

2019 / "Mikolovらの手法では，「ある語の周りにどのような語が現れやすいか」 + Levy らの手法では「ある語はどのような語と依存関係を持ちやすいか」 / 機能的な類似度（活用形が同じ）が高く評価"

リンク

byte列を直接処理する言語モデル

Table of Contents これは何？byte列をpatchに区切る具体例提案手法のメリット学習効率の向上1つの処理単位に押し込める情報量をコントロールするサブトークンの特徴の利用どのように実現したか？byte列の表現の粒度提案手法における「語彙数」の定義言語モデルのアーキテクチャ所感提案手法のアプローチはマルチバイト言語に対しても有効か？ReferenceAppendixA. byte単位の表現とn-gram表現の持ち方 Metaが2024年12月13日に公開した論文 "Byte Latent Transf ormer: Patches Scale Better Than Tokens" [Pagnoni, 2024] を読んだのでその内容をまとめます。ここで掲載された図は特に説明がない限り全て[Pagnoni, 2024]からの引用で、著作権は著者らに所属します。これは何？

sh19910711 2025/07/08

"byte列の「予測しやすさ」に基づいて動的に処理単位を決定 / 動的に決められる処理単位を論文中ではpatchとよび、tokenとは区別 / byte列の「予測しやすさ」の評価にentropyという特徴量"

リンク

2025年度人工知能学会全国大会（第39回）参加報告 - Sansan Tech Blog

こんにちは、Sansan株式会社技術本部研究開発部の田柳です。 2025年5月27日（火）〜30日（金）の4日間、大阪国際会議場（グランキューブ大阪）にて開催された 2025年度人工知能学会全国大会（JSAI2025）に参加してきました。弊社はプラチナスポンサーとして協賛し、大田尾・黒木・竹長・田柳・山内が現地参加しました。私自身、学生時代は経済学を専攻し、現在は契約書データのキーワード抽出技術の研究開発などに取り組んでいます。こうした機械学習系の学会への参加は今回が初めてで、多くの刺激を受けました。本記事では、印象に残ったセッションや発表、そして会場の雰囲気などをレポートします。ブースにて、写真左からでの田柳・竹長・大田尾 JSAI2025について以下、JSAI2025の公式HPから引用します。 JSAI 2025は、人工知能学会（JSAI）が主催する日本最大級のAI学術イ

sh19910711 2025/06/14

"有価証券報告書に記載されているMD&A（経営者による財政状態・経営成績の分析）欄 + 定性的な記述が多い企業ほど、市場の反応が大きくなる傾向 / 2Win5-80: GITの動画VQAを応用し動画のフレームの代わりにページ画像を入力"

リンク

日本語ModernBERTの開発: 開発と評価編 (1/3) - SB Intuitions TECH BLOG

概要こんにちは、SB Intuitions株式会社インターンの塚越です。日本語・英語合わせて約4.4T tokensを学習した日本語ModernBERTというモデルを構築・公開しました。本記事では、その開発過程や評価結果についてお話しします。我々が開発した日本語ModernBERTは、30m, 70m, 130m, 310mと4つの異なるパラメータサイズをもち、それぞれのモデルが同パラメータ規模のモデルと比較して、本記事公開時点では最も高い性能を達成しています。開発した一連のモデルはHuggingFaceにてMITライセンスのもと公開しておりますので、商用・研究用問わず自由にお使いいただけます。 https://huggingface.co/sbintuitions/modernbert-ja-30m https://huggingface.co/sbintuitions/mod

sh19910711 2025/06/14

"LLMで採用されているがBERTでは採用されていない技術: RoPE + GLU派生手法 / 毒性分類タスク(Toxicity)の性能は全体的に既存モデルと比較して低い傾向 + 低品質なテキストをかなり削減しているため"

リンク

NLP2025 参加報告 - Gunosy Tech Blog

こんにちは、データサイエンス部の森田、大城、新規事業開発室の井口です。もう気がつけば開催から一月経ってしまいましたが、今回の記事は 3/10 ~ 3/14 の 5 日間にわたって開催された言語処理学会第 31 回年次大会 (NLP2025) の参加レポートになります。スポンサーしてます NLP2025 について論文紹介 [P8-15] 逆プロンプトを用いたコールドスタート推薦 [A2-1] 大規模言語モデルにおける複数の指示追従成功率を個々の指示追従成功率から推定する [A5-4] プロンプトに基づくテキスト埋め込みのタスクによる冗長性の違いまとめ NLP2025 について言語処理学会は人工知能の一分野である（自然）言語処理を専門とする学会です。近年は特に LLM の話題が多く、参加者の幅も広がっているようです。昨年に引き続きオフライン・オンラインのハイブリッド開催となり、長崎

sh19910711 2025/06/11

"P8-15: 「逆プロンプトを用いたコールドスタート推薦」 / 質問形式を逆転させ「このユーザーはどのようなアイテムを好むか」という質問で好みそうなアイテムの擬似サンプルを得ることで学習データを拡張"

リンク

最強DB講義 #35 大規模言語モデルに基づく検索モデル

BERTやGPTなどの大規模言語モデルに基づく検索モデルは、様々なテストコレクションにおいて優れた性能を発揮し多くの注目を集めている。これまでに様々な検索モデルが提案されてきており、大規模言語モデルの情報検索への適用は、実サービスにおいても一般的なものとなっている。本講義では、大規模言語モデルを利用した…

sh19910711 2025/05/30

2024 / "情報検索モデルの分類: クエリ・文書が密表現/疎表現されるか + 教師あり/教師なし / SPLADE: 教師あり疎検索モデル + クエリと文書を拡張し各トークンの重みを推定"

リンク

Raggle第2回コンペ - StaticEmbeddingで安全に爆速RAGを実施する

Raggleの第2回コンペでアイデア賞をいただいたのでメモ。ありがとうございます〜ソースコード下記を参考に、Transf ormerモデル組み込みたいんやけど...と生成AIに相談してコード作りました。要件定義と手元デバッグ野郎でした。解法のコアこのツイートにほぼすべてが詰まっています。Twitter最高! Transf ormerではないEmbeddingモデルである、static-embedding-japaneseをベクトル検索に用いました。著者のセコンさんもTwitterに書いてくださっていますが、CPUでも爆速でEmbeddingできます。今回のコンペで使った文書のEmbeddingに使う時間を比較してみたところ、以下の通りでした。モデル時間上記は 396chunks（1chunk, 1000文字ごとチャンク）での計測時間です。 ※ 各々のCPUのスペックやOpe

sh19910711 2025/05/27

"OpenAIのtext-embeeding-smallとアンサンブル / StaticEmbeddingで類似度を計算し、コサイン類似度が0.9を下回っている場合のみRAGの候補として追加とすることで参考情報の多様性を担保"

リンク

言語と数理の交差点：テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)

深層学習の登場以降、機械学習と言語処理の距離はぐっと縮まった。機械学習が問題を抽象化して議論するのに対し、言語処理は言語また言語処理タスクに内在する構造や制約を前提としてモデル化を行う。例えば文の処理では文法的制約を与える木構造を前提とし、対訳辞書構築では単語をノード、対訳関係をエッジとする二部グラフを…

sh19910711 2025/05/06

2024 / "BERT: ”swing”の表現って200個あんねん / 文脈化埋め込み: 文脈なしには使いづらい + 文脈の影響が大きすぎる場合も / Tiyajamorn: 「意味」と「言語らしさ」成分の分離"

リンク

日本語 BERT RetroMAE モデルの公開と、後続検索タスクでの評価 - A Day in the Life

結果として、ほぼ全てのスコアにおいて性能向上が確認されており、RetroMAEの有益性が確認された。また学習方法も、教師なしでテキストのみを与えれば良いという手軽さも実用性が高いであろう。 RetroMAE について RetroMAEの特徴は、Masked Auto-Encoderの手法を採用しながら、以下の3つの設計を取り入れた点である。入力文に対して異なるマスクを適用する新しいワークフローエンコーダーとデコーダーで非対称な構造を採用エンコーダーとデコーダーで異なるマスク率を使用これらの工夫により、文書の意味をより深く理解し、効果的な検索を可能にする表現学習を実現している。実際の評価においても、BEIRやMS MARCOなどのベンチマークで優れた性能を示している。また高性能のマルチリンガル密ベクトルモデルの BAAI/bge-m3 も RetroMAE を用いた事前学習を行なって

sh19910711 2025/05/01

2024 / "BERT: 主にトークンレベルのタスクで事前学習されており、文レベルの表現力が十分に発達していないという課題 / RetroMAE: 検索に特化した事前学習 + 入力文に対して2つの異なるマスクを適用"

リンク

最近の埋め込みモデルのクロスリンガル検索能力をチェックする｜oshizo

私が最近経験したタスクに、クエリに英語と日本語が混在し、検索対象のドキュメントは日本語のみのクロスリンガルな検索がありました。このタスクでは、日本語クエリと比べ英語クエリによる検索精度が相対的に低い傾向が見られていました。まあそれはそうだろうという話なのですが、これを機に、今クロスリンガル検索タスクをやるにはどのモデルを選ぶと良さそうか、最近の有力なモデルを軽く比べてみました。詳細は後ろのセクションで話しますが、日本語クエリ-日本語ドキュメントを重視するならcl-nagoya/ruri-v3-310m、英語クエリを含めたバランスを重視するならCohereのembed-v4.0がよさそうな感じです。ただし、データセット1つでの簡易評価なので、ご参考までに。実際にモデルを選ぶ際はご自身のタスクで評価してみてください。 embed-v4.0はマルチモーダル対応もしているので、個人的にアツ

sh19910711 2025/04/23

"cl-nagoya/ruri-v3-310m: 日本語クエリ-日本語ドキュメント + ModernBERTベース。2025/4時点でJMTEBスコア最強 / Cohereのembed-v4.0: 英語クエリを含めたバランス + マルチモーダル対応"

リンク

日本語向け教師なしキーフレーズ抽出の検証 - ABEJA Tech Blog

ABEJAでデータサイエンティストをしている藤原です。先月開催された言語処理学会第31回年次大会(NLP2025) に参加し、その際に埋め込みモデルベースの教師なしキーフレーズ抽出における長文に対する抽出精度の改善というタイトルで発表を行いました。今回はその発表内容について改めて紹介させていただきます。発表概要としては、日本語のテキストに対して種々の教師なしキーフレーズ抽出手法を統一したインターフェースで実行できるようにツールを整備し、評価用データセットを構築して各種手法の性能比較を行いました。本記事では開発したツール・評価データセットなど原稿であまり触れられなかった部分や、より詳細な実験結果についても記載します。開発したツール・評価データセットはこちらからご利用いただけます。GitHub - flatton/keyphrase_extraction_tools はじめにキー

sh19910711 2025/04/22

"MDERank: 重要なフレーズほど文章から削除されると、その文章の意味が大きく変化するという仮定 + 元の文章との埋め込みの距離を算出し、距離が大きいほど重要なフレーズとみなす" doi:10.18653/v1/2022.findings-acl.34

リンク

深層学習による自然言語処理輪読会#5 資料

sh19910711 2025/04/22

2022 / "カリキュラム学習: 出現頻度が高い単語のみに文脈と予測対象を限定した訓練データを利用。徐々に多様性を増していく + 高頻度の単語は関係が学習しやすいという仮定 + 初期は短い文章を使う"

リンク

テキスト埋め込みモデルPLaMo-Embedding-1Bの開発 - Preferred Networks Research & Development

2025/04初頭時点で、OpenAIのtext-embedding-3-largeなどの他社モデルを上回り、日本語テキスト埋め込みモデルとしてトップのスコアを記録しています (**)。特にテキスト埋め込みモデルの主要な用途と言えるRetrieval (検索タスク) では既存のモデルの最高スコアから2ポイント以上の更新を達成しており、情報検索での利用に適したモデルであることを示唆していると言えます。 (*) コンテキスト長1024で計測 (以降も断りがなければ同様)。これは学習時に用いたコンテキスト長が1024までであるため。ただし、ベースモデルの最大コンテキスト長であり、PLaMo-Embedding-1Bのconfig上の最大コンテキスト長である4096で計測しても、そこまで性能が下落するわけではないことがわかっています (Appendix参照)。 (**) 2025/04/14にRu

sh19910711 2025/04/21

"2つのモデルのパラメータを単純に平均する / 複雑なパラメータを持つモデルについて、単にパラメータを平均化するだけで性能が向上するというのは驚きですが、実際に今回も性能の向上が確認でき ~ "

リンク

はてなブックマーク

タグ

関連タグで絞り込む (109)

*algorithmとNLPに関するsh19910711のブックマーク (606)

お知らせ

はてなブックマーク一部機能のメンテナンスに関するお知らせ

今週のはてなブックマーク数ランキング（2025年11月第3週）

今週のはてなブックマーク数ランキング（2025年11月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス