タグ

*algorithmとNLPに関するsh19910711のブックマーク (605)

  • 対話要約研究の最前線 前編 〜データセットと評価指標の紹介〜 - RevComm Tech Blog

    記事の著者はResearch Engineerの大野です。最近は、ホロウナイトというゲームをやっていましたが、もう少しでクリアというところで敵が倒せず諦めました。 はじめに RevCommは電話営業や顧客応対の通話を支援するAI搭載型のIP電話「MiiTel」を提供しています。 この製品は、通話の文字起こしを保存する機能を備えており、RevCommは数千時間の対話データに接しています。 この対話データに対する支援の1つとして対話要約が考えられます。対話要約とは、入力された対話から、その主要な概念を含むより短い文書(要約)を自動的に作成することです。 ユーザは、要約を作成する手間が省けたり、あるいは要約を読むことで対話の概要をより早く理解できるなどの利点があります。 これから前編と後編の2回に分けて、対話要約に関する記事を書きます。今回の記事では、はじめにいくつかの対話要約のデータセットを

    対話要約研究の最前線 前編 〜データセットと評価指標の紹介〜 - RevComm Tech Blog
    sh19910711
    sh19910711 2025/10/05
    2023 / "BLEU: 共通する単語n-gramの数に着目し、類似度を計算 + 単語だけでなく、連続する2単語・3単語・4単語に着目 / Huggingface社のライブラリであるevaluateに実装"
  • BERTを用いて膨大なコンテンツにメタデータを自動付与する 〜 Yahoo!ショッピングの商品属性推定

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo! JAPAN研究所の鍜治です。 みなさんはコンテンツにメタデータを付与したいとき、どのようにしていますか? もちろん手作業で付与することもできますが、コンテンツ量が膨大なときには、自動的にメタデータを付与できる仕組みがあると便利だと思いませんか? 私がリーダーを務めている研究開発チームでは、Yahoo!ショッピングの商品に属性というメタデータを自動付与するため、BERTを用いた商品属性推定モデルを開発しています。記事では、そもそも商品の属性とはどういうものなのか、どのようにBERTを使っているのか、既存モデルと精度はどのくらい違うのか、などについてお話したいと思いますので、よろしくお願いします。 Yaho

    BERTを用いて膨大なコンテンツにメタデータを自動付与する 〜 Yahoo!ショッピングの商品属性推定
    sh19910711
    sh19910711 2025/09/16
    2022 / "BERTの元論文では、マスク言語モデルに加えて次文予測(Next Sentence Prediction)モデルを学習することも提案 ~ ここでは採用していません / 商品タイトルについては、そもそも次文を定義することが難しい"
  • 知識拡張型言語モデルLUKE

    言語処理学会第29回年次大会 併設ワークショップ JLR2023 (

    知識拡張型言語モデルLUKE
    sh19910711
    sh19910711 2025/09/16
    2023 / "LUKE: 単語とエンティティの文脈付きベクトルを出力 / エンティティは複数の入力トークンに分割されるため、Transformer内部でエンティティ同士の関係を捉えることが難しい"
  • [DL輪読会] Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm

    [DL輪読会] Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm

    [DL輪読会] Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm
    sh19910711
    sh19910711 2025/09/03
    2017 / "テキストに付与されている感情表現(顔文字・絵文字・ハッシュタグ)はDistant Supervisionで用いられ ~ / Distant Supervision: 間接的なラベルを用いてラベルなしデータをラベルありデータとして用いる"
  • 深層学習で部分空間を扱うときは射影行列を考えるとよい - ジョイジョイジョイ

    拙著『グラフニューラルネットワーク』が重版して第 5 刷となりました。皆さまありがとうございます! 【重版速報🎉🎉🎉🎉】 機械学習プロフェッショナルシリーズの重版が決まりました😆ご愛読ありがとうございます‼️ 松井孝太・熊谷亘『転移学習』【4刷】 https://t.co/Qic24KAwxD 佐藤竜馬『グラフニューラルネットワーク』【5刷】 https://t.co/Peqn1ZQavo pic.twitter.com/VBkNp2Uwjj— 講談社サイエンティフィク🖋️📔 (@kspub_kodansha) 2024年8月1日 グラフニューラルネットワーク (機械学習プロフェッショナルシリーズ) 作者:佐藤竜馬講談社Amazon 拡散モデルと最適輸送(最適輸送第 5 刷)や GNN の最新動向(グラフニューラルネットワーク第 3 刷)でもやりましたが、重版に感謝して書き下

    深層学習で部分空間を扱うときは射影行列を考えるとよい - ジョイジョイジョイ
    sh19910711
    sh19910711 2025/08/16
    2024 / "平面とベクトルのコサイン類似度 / n 次元空間中の d 次元部分空間(≈ ランクが d の射影行列)の集合のことをグラスマン多様体 (Grassmannian) といい、幾何学の分野で古くから研究"
  • 係り受けに基づく日本語単語埋め込み - LAPRAS Tech Blog

    sh19910711
    sh19910711 2025/08/03
    2019 / "Mikolovらの手法では,「ある語の周りにどのような語が現れやすいか」 + Levy らの手法では「ある語はどのような語と依存関係を持ちやすいか」 / 機能的な類似度(活用形が同じ)が高く評価"
  • byte列を直接処理する言語モデル

    Table of Contents これは何?byte列をpatchに区切る具体例提案手法のメリット学習効率の向上1つの処理単位に押し込める情報量をコントロールするサブトークンの特徴の利用どのように実現したか?byte列の表現の粒度提案手法における「語彙数」の定義言語モデルのアーキテクチャ所感提案手法のアプローチはマルチバイト言語に対しても有効か?ReferenceAppendixA. byte単位の表現とn-gram表現の持ち方 Metaが2024年12月13日に公開した論文 "Byte Latent Transformer: Patches Scale Better Than Tokens" [Pagnoni, 2024] を読んだのでその内容をまとめます。 ここで掲載された図は特に説明がない限り全て[Pagnoni, 2024]からの引用で、著作権は著者らに所属します。 これは何?

    byte列を直接処理する言語モデル
    sh19910711
    sh19910711 2025/07/08
    "byte列の「予測しやすさ」に基づいて動的に処理単位を決定 / 動的に決められる処理単位を論文中ではpatchとよび、tokenとは区別 / byte列の「予測しやすさ」の評価にentropyという特徴量"
  • 2025年度 人工知能学会全国大会(第39回)参加報告 - Sansan Tech Blog

    こんにちは、Sansan株式会社 技術部 研究開発部の田柳です。 2025年5月27日(火)〜30日(金)の4日間、大阪国際会議場(グランキューブ大阪)にて開催された 2025年度 人工知能学会全国大会(JSAI2025)に参加してきました。弊社はプラチナスポンサーとして協賛し、大田尾・黒木・竹長・田柳・山内が現地参加しました。 私自身、学生時代は経済学を専攻し、現在は契約書データのキーワード抽出技術の研究開発などに取り組んでいます。こうした機械学習系の学会への参加は今回が初めてで、多くの刺激を受けました。 記事では、印象に残ったセッションや発表、そして会場の雰囲気などをレポートします。 ブースにて、写真左からでの田柳・竹長・大田尾 JSAI2025について 以下、JSAI2025の公式HPから引用します。 JSAI 2025は、人工知能学会(JSAI)が主催する日最大級のAI学術イ

    2025年度 人工知能学会全国大会(第39回)参加報告 - Sansan Tech Blog
    sh19910711
    sh19910711 2025/06/14
    "有価証券報告書に記載されているMD&A(経営者による財政状態・経営成績の分析)欄 + 定性的な記述が多い企業ほど、市場の反応が大きくなる傾向 / 2Win5-80: GITの動画VQAを応用し動画のフレームの代わりにページ画像を入力"
  • 日本語ModernBERTの開発: 開発と評価編 (1/3) - SB Intuitions TECH BLOG

    概要 こんにちは、SB Intuitions株式会社インターンの塚越です。 日語・英語合わせて約4.4T tokensを学習した日語ModernBERTというモデルを構築・公開しました。 記事では、その開発過程や評価結果についてお話しします。 我々が開発した日語ModernBERTは、30m, 70m, 130m, 310mと4つの異なるパラメータサイズをもち、それぞれのモデルが同パラメータ規模のモデルと比較して、記事公開時点では最も高い性能を達成しています。 開発した一連のモデルはHuggingFaceにてMITライセンスのもと公開しておりますので、商用・研究用問わず自由にお使いいただけます。 https://huggingface.co/sbintuitions/modernbert-ja-30m https://huggingface.co/sbintuitions/mod

    日本語ModernBERTの開発: 開発と評価編 (1/3) - SB Intuitions TECH BLOG
    sh19910711
    sh19910711 2025/06/14
    "LLMで採用されているがBERTでは採用されていない技術: RoPE + GLU派生手法 / 毒性分類タスク(Toxicity)の性能は全体的に既存モデルと比較して低い傾向 + 低品質なテキストをかなり削減しているため"
  • NLP2025 参加報告 - Gunosy Tech Blog

    こんにちは、データサイエンス部の森田、大城、新規事業開発室の井口です。 もう気がつけば開催から一月経ってしまいましたが、今回の記事は 3/10 ~ 3/14 の 5 日間にわたって開催された言語処理学会第 31 回年次大会 (NLP2025) の参加レポートになります。 スポンサーしてます NLP2025 について 論文紹介 [P8-15] 逆プロンプトを用いたコールドスタート推薦 [A2-1] 大規模言語モデルにおける複数の指示追従成功率を個々の指示追従成功率から推定する [A5-4] プロンプトに基づくテキスト埋め込みのタスクによる冗長性の違い まとめ NLP2025 について 言語処理学会は人工知能の一分野である(自然)言語処理を専門とする学会です。近年は特に LLM の話題が多く、参加者の幅も広がっているようです。 昨年に引き続きオフライン・オンラインのハイブリッド開催となり、長崎

    NLP2025 参加報告 - Gunosy Tech Blog
    sh19910711
    sh19910711 2025/06/11
    "P8-15: 「逆プロンプトを用いたコールドスタート推薦」 / 質問形式を逆転させ「このユーザーはどのようなアイテムを好むか」という質問で好みそうなアイテムの擬似サンプルを得ることで学習データを拡張"
  • 最強DB講義 #35 大規模言語モデルに基づく検索モデル

    BERTやGPTなどの大規模言語モデルに基づく検索モデルは、様々なテストコレクションにおいて優れた性能を発揮し多くの注目を集めている。これまでに様々な検索モデルが提案されてきており、大規模言語モデルの情報検索への適用は、実サービスにおいても一般的なものとなっている。講義では、大規模言語モデルを利用した…

    最強DB講義 #35 大規模言語モデルに基づく検索モデル
    sh19910711
    sh19910711 2025/05/30
    2024 / "情報検索モデルの分類: クエリ・文書が密表現/疎表現されるか + 教師あり/教師なし / SPLADE: 教師あり疎検索モデル + クエリと文書を拡張し各トークンの重みを推定"
  • Raggle第2回コンペ - StaticEmbeddingで安全に爆速RAGを実施する

    Raggleの第2回コンペでアイデア賞をいただいたのでメモ。ありがとうございます〜 ソースコード 下記を参考に、Transformerモデル組み込みたいんやけど...と生成AI相談してコード作りました。要件定義と手元デバッグ野郎でした。 解法のコア このツイートにほぼすべてが詰まっています。Twitter最高! TransformerではないEmbeddingモデルである、static-embedding-japaneseをベクトル検索に用いました。 著者のセコンさんもTwitterに書いてくださっていますが、CPUでも爆速でEmbeddingできます。 今回のコンペで使った文書のEmbeddingに使う時間を比較してみたところ、以下の通りでした。 モデル 時間 上記は 396chunks(1chunk, 1000文字ごとチャンク) での計測時間です。 ※ 各々のCPUのスペックやOpe

    Raggle第2回コンペ - StaticEmbeddingで安全に爆速RAGを実施する
    sh19910711
    sh19910711 2025/05/27
    "OpenAIのtext-embeeding-smallとアンサンブル / StaticEmbeddingで類似度を計算し、コサイン類似度が0.9を下回っている場合のみRAGの候補として追加とすることで参考情報の多様性を担保"
  • 言語と数理の交差点:テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)

    深層学習の登場以降、機械学習と言語処理の距離はぐっと縮まった。機械学習が問題を抽象化して議論するのに対し、言語処理は言語また言語処理タスクに内在する構造や制約を前提としてモデル化を行う。例えば文の処理では文法的制約を与える木構造を前提とし、対訳辞書構築では単語をノード、対訳関係をエッジとする二部グラフを…

    言語と数理の交差点:テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)
    sh19910711
    sh19910711 2025/05/06
    2024 / "BERT: ”swing”の表現って200個あんねん / 文脈化埋め込み: 文脈なしには使いづらい + 文脈の影響が大きすぎる場合も / Tiyajamorn: 「意味」と「言語らしさ」成分の分離"
  • 日本語 BERT RetroMAE モデルの公開と、後続検索タスクでの評価 - A Day in the Life

    結果として、ほぼ全てのスコアにおいて性能向上が確認されており、RetroMAEの有益性が確認された。また学習方法も、教師なしでテキストのみを与えれば良いという手軽さも実用性が高いであろう。 RetroMAE について RetroMAEの特徴は、Masked Auto-Encoderの手法を採用しながら、以下の3つの設計を取り入れた点である。 入力文に対して異なるマスクを適用する新しいワークフロー エンコーダーとデコーダーで非対称な構造を採用 エンコーダーとデコーダーで異なるマスク率を使用 これらの工夫により、文書の意味をより深く理解し、効果的な検索を可能にする表現学習を実現している。実際の評価においても、BEIRやMS MARCOなどのベンチマークで優れた性能を示している。また高性能のマルチリンガル密ベクトルモデルの BAAI/bge-m3 も RetroMAE を用いた事前学習を行なって

    日本語 BERT RetroMAE モデルの公開と、後続検索タスクでの評価 - A Day in the Life
    sh19910711
    sh19910711 2025/05/01
    2024 / "BERT: 主にトークンレベルのタスクで事前学習されており、文レベルの表現力が十分に発達していないという課題 / RetroMAE: 検索に特化した事前学習 + 入力文に対して2つの異なるマスクを適用"
  • 最近の埋め込みモデルのクロスリンガル検索能力をチェックする|oshizo

    私が最近経験したタスクに、クエリに英語と日語が混在し、検索対象のドキュメントは日語のみのクロスリンガルな検索がありました。 このタスクでは、日語クエリと比べ英語クエリによる検索精度が相対的に低い傾向が見られていました。 まあそれはそうだろうという話なのですが、これを機に、今クロスリンガル検索タスクをやるにはどのモデルを選ぶと良さそうか、最近の有力なモデルを軽く比べてみました。 詳細は後ろのセクションで話しますが、日語クエリ-日語ドキュメントを重視するならcl-nagoya/ruri-v3-310m、英語クエリを含めたバランスを重視するならCohereのembed-v4.0がよさそうな感じです。 ただし、データセット1つでの簡易評価なので、ご参考までに。実際にモデルを選ぶ際はご自身のタスクで評価してみてください。 embed-v4.0はマルチモーダル対応もしているので、個人的にアツ

    最近の埋め込みモデルのクロスリンガル検索能力をチェックする|oshizo
    sh19910711
    sh19910711 2025/04/23
    "cl-nagoya/ruri-v3-310m: 日本語クエリ-日本語ドキュメント + ModernBERTベース。2025/4時点でJMTEBスコア最強 / Cohereのembed-v4.0: 英語クエリを含めたバランス + マルチモーダル対応"
  • 日本語向け教師なしキーフレーズ抽出の検証 - ABEJA Tech Blog

    ABEJAでデータサイエンティストをしている藤原です。 先月開催された 言語処理学会第31回年次大会(NLP2025) に参加し、その際に 埋め込みモデルベースの教師なしキーフレーズ抽出における長文に対する抽出精度の改善 というタイトルで発表を行いました。今回はその発表内容について改めて紹介させていただきます。 発表概要としては、日語のテキストに対して種々の教師なしキーフレーズ抽出手法を統一したインターフェースで実行できるようにツールを整備し、評価用データセットを構築して各種手法の性能比較を行いました。記事では開発したツール・評価データセットなど原稿であまり触れられなかった部分や、より詳細な実験結果についても記載します。 開発したツール・評価データセットはこちらからご利用いただけます。GitHub - flatton/keyphrase_extraction_tools はじめに キー

    日本語向け教師なしキーフレーズ抽出の検証 - ABEJA Tech Blog
    sh19910711
    sh19910711 2025/04/22
    "MDERank: 重要なフレーズほど文章から削除されると、その文章の意味が大きく変化するという仮定 + 元の文章との埋め込みの距離を算出し、距離が大きいほど重要なフレーズとみなす" doi:10.18653/v1/2022.findings-acl.34
  • 深層学習による自然言語処理 輪読会#5 資料

    sh19910711
    sh19910711 2025/04/22
    2022 / "カリキュラム学習: 出現頻度が高い単語のみに文脈と予測対象を限定した訓練データを利用。徐々に多様性を増していく + 高頻度の単語は関係が学習しやすいという仮定 + 初期は短い文章を使う"
  • テキスト埋め込みモデルPLaMo-Embedding-1Bの開発 - Preferred Networks Research & Development

    2025/04初頭時点で、OpenAItext-embedding-3-largeなどの他社モデルを上回り、日語テキスト埋め込みモデルとしてトップのスコアを記録しています (**)。特にテキスト埋め込みモデルの主要な用途と言えるRetrieval (検索タスク) では既存のモデルの最高スコアから2ポイント以上の更新を達成しており、情報検索での利用に適したモデルであることを示唆していると言えます。 (*) コンテキスト長1024で計測 (以降も断りがなければ同様)。これは学習時に用いたコンテキスト長が1024までであるため。ただし、ベースモデルの最大コンテキスト長であり、PLaMo-Embedding-1Bのconfig上の最大コンテキスト長である4096で計測しても、そこまで性能が下落するわけではないことがわかっています (Appendix参照)。 (**) 2025/04/14にRu

    テキスト埋め込みモデルPLaMo-Embedding-1Bの開発 - Preferred Networks Research & Development
    sh19910711
    sh19910711 2025/04/21
    "2つのモデルのパラメータを単純に平均する / 複雑なパラメータを持つモデルについて、単にパラメータを平均化するだけで性能が向上するというのは驚きですが、実際に今回も性能の向上が確認でき ~ "
  • 言語処理学会第31回年次大会(NLP2025)に行ってきました

    はじめに こんにちは、ナウキャストで LLM エンジニアをしている Ryotaro です。 2025 年 3 月 10 日から 3 月 14 日まで出島メッセ長崎で開催されていた、言語処理学会第 31 回年次大会(NLP2025)に参加しました。 言語処理学会は年に一回開催される学会であり、NLP 系の学会では日では最大規模です。研究者だけでなく企業の方も参加しており、昨今の LLM の発展により学会に参加する参加障壁が低くなったこともあり、発表者は増加していて今年はなんと過去最大の 777 件の発表数だったそうです。去年が 599 件、一昨年が 579 件なので、LLM の発展により発表者が増えていることがわかりますね。 初日は招待講演やチュートリアル、企業ブースの展示がメインで、真ん中の三日間では、各分野ごとに学会に提出した論文の口頭発表やポスター発表が主に行われました。最終日にはワ

    言語処理学会第31回年次大会(NLP2025)に行ってきました
    sh19910711
    sh19910711 2025/04/19
    "NLP2025: 777 件の発表 + 去年が 599 件、一昨年が 579 件 / 事実性を司る注意ヘッド: ヘッドと呼ばれる部分の出力は入力テキストが「事実」か「誤り」かを判別する情報を含んでいる"
  • Differential Transformerの構造解説 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに この記事では、2024年10月7日に登場したばかりの新しい機構、 arXiv:2410.05258 において提唱されたDifferential Attentionの解説をします。 解説では実装できるレベル感の解説をします。 Differential Transformer (以下DiT) 概要 この機構は、従来のTransformerで問題となっていた、重要ではない無関係な情報にも注目度をふってしまうことを改善するために作られた機構ということです。 様々な条件下で、従来のTransoformerより性能が良いことが示されてい

    Differential Transformerの構造解説 - Qiita
    sh19910711
    sh19910711 2024/10/27
    "Differential Transformer: 無関係な情報に付与される注目度を減らすために、重みを共有しないもう一つのQuery・Keyテーブルを用意 / 1つ目のQKテーブルから、2つ目のQKテーブルの値を引く" arXiv:2410.05258