タグ

*algorithmと系列に関するsh19910711のブックマーク (79)

  • 1次元畳み込みニューラルネットワークでMNISTの時系列処理

    畳み込みニューラルネットワークと聞いて、画像処理を真っ先に思いつくのが普通だと思います。でも、実は別の分野でも大きな成果を出しています。今回扱う1次元畳み込みニューラルネットワークは自然言語処理などの時系列情報を認識する性能で再帰型ニューラルネットワークを凌いでいます。 そのため、今回は自身が1次元畳み込みニューラルネットワークについて学んだ結果をまとめつつ、記事として残したいと思います。もし、間違い等があったら教えていただけると大変助かります。 また、動画でも残していますので、以下にのせます。 畳み込みニューラルネットワークとは 畳み込みニューラルネットワーク(Convolutional Neural Network;CNN)とは、主に画像認識の場で使用される深層ニューラルネットワークで、局所的受容野と重み共有という特徴を生かし、全結合ニューラルネットワークに比べて少ないパラメータ数で空

    1次元畳み込みニューラルネットワークでMNISTの時系列処理
    sh19910711
    sh19910711 2025/07/26
    2023 / "LeNet: 現在の形に最も近い初代のCNN / 系列データに対して1次元畳み込みを適用する際には、時間軸上に対してのみ畳み込みを実施し、最後にチャンネル方向で足し合わせ"
  • Transformerを用いたアイテム間の 相互影響を考慮したレコメンドリスト生成

    sh19910711
    sh19910711 2025/07/22
    "バンドル推薦 / 同時に推薦されるアイテム同士の相互影響 / 同時に推薦するアイテムによって購買意欲等が変化する / アイテム個別のスコアリングでは、このような相互影響を考慮できない"
  • Federated LearningでSentence BERTをFine-tuningできるか?

    はじめまして。BoostDraftでリサーチエンジニアを務めるTomo (LinkedIn) です。 記事では、Federated LearningでSentence BERTをFine-tuningができるかについてお話ししていこうと思います。 TL; DR NLIデータセットを基にSentence BERTを仮想的な4台のマシン上でFine-tuningし、Federated Learningした結果、STSデータセットで精度向上が見られた ただし、マージ頻度によって精度が変わる不思議な挙動が生じた Federated Learning、Sentence BERT等の説明を飛ばしたい方は実験条件へ! 秘密情報を使ってモデルを学習するには? BoostDraftのお客様が扱っている契約書というのは非常に専門性の高い情報です。このデータを集めて契約書専門の機械学習モデルを作ったら非常に有

    Federated LearningでSentence BERTをFine-tuningできるか?
    sh19910711
    sh19910711 2025/07/09
    2024 / "Sentence BERTを仮想的な4台のマシン上でFine-tuningし、Federated Learningした結果、STSデータセットで精度向上が見られた / モデルのマージの手法には様々な方法が提案"
  • そもそもなぜ事前学習(Pre-training)が要るのか? - もちもちしている

    はじめに この記事では,ニューラルネットワークを乱数初期化のまま学習させたときに発生する 「初期化の罠」 を整理し,その回避策としての事前学習を原理から紹介します.Transformer や ResNet がどうして安定的に学習できるのか.最新の理論をもとに掘り下げながら,「事前学習モデルを微調整するのが一番コスパが良い理由」を示したいと思います. 1. いきなり Fine‑tune はダメ? 深層モデルの損失関数は高次元かつ非凸ですが,実際には Transformer や ResNet がサクッと収束するケースのほうが多いです.ところが,小規模データをゼロから Transformer で Fine‑Tune しようとすると,勾配が発散したり精度がガタ落ちしたりするシーンが報告されています.たとえば Spider (∼7 k 訓練例) では,標準初期化の Transformer は 8 層

    そもそもなぜ事前学習(Pre-training)が要るのか? - もちもちしている
    sh19910711
    sh19910711 2025/07/05
    "幅を盛る・残差を挿す・正則化をかけると損失谷が「平らでつながった安全地帯」に変形 / その谷にたどり着けるかは初期値の運次第 + 事前学習は谷への近道を作る"
  • 日本語の音声コーパスCSJでE-Branchformerの音声認識モデルを作って性能を評価する - RevComm Tech Blog

    こんにちは、RevCommでMiiTelの音声解析機能に関する研究開発を担当している石塚です。 2023年1月に開催された国際会議IEEE Workshop on Spoken Language and Technology (SLT) 2022で発表されたE-Branchformer: Branchformer with Enhanced Merging for Speech Recognition (Kim et al., 2023)*1という論文で、音声認識タスクで高い性能を発揮するE-Branchformerという新しい深層学習モデルが提案されました。論文中では英語の音声コーパスを用いて音声認識精度が評価されていますが、日語についての評価は行われていません。 End-to-end音声処理ツールキットESPnetのversion 202301からこのE-Branchformerが利

    日本語の音声コーパスCSJでE-Branchformerの音声認識モデルを作って性能を評価する - RevComm Tech Blog
    sh19910711
    sh19910711 2025/06/28
    2023 / "Conformer: Transformerとconvolutional neural network(CNN; 畳み込みニューラルネットワーク)を組み合わせ / 情報を結合する際にローカルな情報とグローバルな情報を逐次的かつ並列的に組み合わせる"
  • シンプルなDiffusion Transformerを実装してみる

    最近はTransformerベースのDiffusionモデル、いわゆるDiT(Diffusion Transformer)がUNetベースのDiffusionモデルよりも性能がいいと聞くもののコードレベルで理解ができなったのでMNISTの手書き数字の学習と生成を題材にシンプルなDiTを実装してみる。 (この記事はLLM・LLM活用 Advent Calendar 2024の16日目の記事です! テーマは画像生成ですが、 GPTなどLLMで広く使われているTransformerを画像生成に応用したという意味で許してください🙏) 出力比較 UNetベースのシンプルなDiffusionモデル ソースコード TransformerベースのシンプルなDiffusionモデル(DiT) ソースコード 10epochずつ学習させてみたが精度が出る学習率も違うし、どの段階で比較すればいいかがわからなかっ

    シンプルなDiffusion Transformerを実装してみる
    sh19910711
    sh19910711 2025/06/20
    2024 / "パッチ埋め込みを使って画像を小さなブロックに分割 + パッチ間の関係性を自己注意機構で学習 + 画像内の広範な関係性 / UNetベースは畳み込みニューラルネットワークで、画像の局所的な特徴を捉えるのが得意"
  • LLMの性能における重要補題【Johnson–Lindenstrauss lemma】のお気持ち〜Attentionの数式理解を添えて〜

    はじめに 記事は、AI声づくり技術研究会 Advent Calendar 2024の17日目の記事です。 (音声合成関係ないテーマでごめんなさい・・・) 私の好きなyoutuberさんの一人として、「3Blue1BrownJapan」さんがいるのですが、その方の動画で面白い補題について触れていたため、今回はその内容について書きたいと思います。 該当の動画は「LLMはどう知識を記憶しているか | Chapter 7, 深層学習」です。 この動画の後半で「Johnson–Lindenstrauss lemma(ジョンソン-リンデンシュトラウスの補題)」という補題に触れており、興味深い実験も一緒にされております。 今回は、「Johnson–Lindenstrauss lemma」についての簡単な説明と、それが、現在のLLMに対してどう関わってくるのかを自分なりに考察したいと思います。 参考文献

    LLMの性能における重要補題【Johnson–Lindenstrauss lemma】のお気持ち〜Attentionの数式理解を添えて〜
    sh19910711
    sh19910711 2025/06/20
    2024 / "ある3点をとってきた時に、その3点が作る三角形の3辺の長さが、次元削減前後で、ほとんど変わらない / 高次元空間において次元削減前後で、点間の距離と、角度を保存するような写像fが存在する"
  • 日本語ModernBERTの開発: 開発と評価編 (1/3) - SB Intuitions TECH BLOG

    概要 こんにちは、SB Intuitions株式会社インターンの塚越です。 日語・英語合わせて約4.4T tokensを学習した日語ModernBERTというモデルを構築・公開しました。 記事では、その開発過程や評価結果についてお話しします。 我々が開発した日語ModernBERTは、30m, 70m, 130m, 310mと4つの異なるパラメータサイズをもち、それぞれのモデルが同パラメータ規模のモデルと比較して、記事公開時点では最も高い性能を達成しています。 開発した一連のモデルはHuggingFaceにてMITライセンスのもと公開しておりますので、商用・研究用問わず自由にお使いいただけます。 https://huggingface.co/sbintuitions/modernbert-ja-30m https://huggingface.co/sbintuitions/mod

    日本語ModernBERTの開発: 開発と評価編 (1/3) - SB Intuitions TECH BLOG
    sh19910711
    sh19910711 2025/06/14
    "LLMで採用されているがBERTでは採用されていない技術: RoPE + GLU派生手法 / 毒性分類タスク(Toxicity)の性能は全体的に既存モデルと比較して低い傾向 + 低品質なテキストをかなり削減しているため"
  • GENIAC第2期成果/データグリッド:汎用画像生成基盤モデルの軽量化のためのTransformersベースLDM—LocalDiT—の開発

    データ前処理: 元画像の中央を基準に1:1比率でクロップし、各解像度にリサイズしました。この処理によりアスペクト比の一貫性を保ちつつ、重要な被写体を中心に維持することができました。 効率的なデータパイプライン: WebDatasetフォーマットを採用し、NVIDIA DALIを使用した高速データローディングパイプラインを構築しました。これにより、I/Oボトルネックを最小限に抑え、GPUの稼働率を向上させることができました。 ただし、全解像度のデータを個別に保存する方式を採用したため、ディスク容量の不足や、データ移行に多大な時間を要するなどの課題も生じました。今後の改善点として、最高解像度(1Kや2K)のデータセットのみを保存し、学習時に動的にリサイズする戦略も検討価値があると考えています。 学習過程における特筆すべき観察点 学習過程で以下のような興味深い現象が観察されました: データ品質の

    GENIAC第2期成果/データグリッド:汎用画像生成基盤モデルの軽量化のためのTransformersベースLDM—LocalDiT—の開発
    sh19910711
    sh19910711 2025/05/20
    "LocalDiT: PixArt-αをベースとした0.52Bパラメータの画像生成Diffusion Transformerモデル / 従来のグローバル注意機構に代わりに局所的注意機構(Local Attention)を導入"
  • 今日の論文2023/05/11, 12:AttentionViz: A Global View of Transformer Attention - izmyonの日記

    AttentionViz: A Global View of Transformer Attention arxiv.org Yeh, Catherine, Yida Chen, Aoyu Wu, Cynthia Chen, Fernanda Viégas, and Martin Wattenberg. "AttentionViz: A Global View of Transformer Attention." arXiv preprint arXiv:2305.03210 (2023). ©2023 The Authors License: Creative Commons Attribution 4.0 International License(CC-BY) 記事は、原著の内容に基づき筆者が要約または翻訳したものです。以下の図は、そこから引用しています。 This article

    今日の論文2023/05/11, 12:AttentionViz: A Global View of Transformer Attention - izmyonの日記
    sh19910711
    sh19910711 2025/05/14
    2023 / "位置のわずかなずれに基づく関係(例えば、クエリが一歩先のキーに注目する)を見るために、離散的な色付けが有効 / AttentionViz: すべてのアテンションヘッドを見ることができるグローバルビュー"
  • Googleが開発したニューラルネットワークによるマーケティングミックスモデル”NNN”の解説 - ぱぐみの部屋

    マーケティング施策の効果測定の手法で最もメジャーなもののひとつに、マーケティングミックスモデル (MMM) があります。特に近年では、3rd Party Cookieの規制や、Google等の企業がオープンソースとしてMMMのライブラリを公開してくれていたりと、よりその利用シーンが増えてきているのかなと思います。 Robyn (Meta) LightweightMMM, Meridian (Google) PyMC-Marketing (PyMC) MMMでは予測よりも、目的変数(売上やKPI)に対するマーケティング施策の影響の解釈に重きを置かれるため、基的には線形モデルのようなホワイトボックスな手法が用いられます。そんな中、Googleが新たに提案したニューラルネットワークを用いたマーケティングミックスモデリングについて、記事ではご紹介します。 GoogleがMMMの新手法NNNを公

    Googleが開発したニューラルネットワークによるマーケティングミックスモデル”NNN”の解説 - ぱぐみの部屋
    sh19910711
    sh19910711 2025/04/21
    "MMM: 予測よりも目的変数(売上やKPI)に対するマーケティング施策の影響の解釈に重き / NNN: 動画をベクトルに変換する埋め込みモデルを使い、各クリエイティブをベクトル化することでクリエイティブの違いをモデルに ~ "
  • 時系列データ向けの表現学習「T-Rep (ICLR2024論文)」の紹介 - Qiita

    概要 時系列データ向けの表現学習手法「T-Rep: Representation Learning for Time Series using Time-Embeddings」 (ICLR2024) の論文、公式リポジトリを読んだので備忘録を兼ねて紹介します。 手法は多変量の時系列データに対応しており、表現学習時に複数のPretextタスクを導入することで異常検出や分類・予測に寄与する汎用的な特徴量を獲得しています。 時系列表現(representation)はタイムスタンプ単位で出力できるため、point-wiseな異常検出であったり、window単位で集約することでsegment-wiseな分類や異常検出も可能な手法です。 記事の後半では公式チュートリアルを参考に、多変量時系列データの分類を試してみます。 arxiv Github モデル構造 T-Repモデルは以下の3つのモジュール

    sh19910711
    sh19910711 2025/02/27
    "多変量の時系列データに対応しており、表現学習時に複数のPretextタスクを導入することで異常検出や分類・予測に寄与する汎用的な特徴量を獲得 / Pretextタスク: 疑似ラベルを基に、下流タスクに役立つ汎用的な特徴を学習"
  • 音声認識モデルWhisperを投機的デコーディングで高速化する - NTT Communications Engineers' Blog

    こんにちは、イノベーションセンターの加藤です。この記事では、Transformerベースの言語モデルで利用可能な高速化技術である投機的デコーディング(speculative decoding)を用いて、音声認識モデルのWhisperの高速化を検証したのでその結果を紹介します。 投機的デコーディングとは Whisperとは 実験 英語音声 (LibriSpeech) の結果 日語音声 (Common Voice 17.0 日語サブセット) の結果 まとめ 投機的デコーディングとは 大規模言語モデル(LLM)をはじめとするTransformerベースの言語モデルは、これまでの単語列から次に現れそうな単語を予測することを繰り返して文章生成を行なっています。 これに対し、元のモデルよりも軽量な言語モデルの出力を下書きとして利用することで、元のモデルの出力を完全に再現しながら文章生成を高速化する

    音声認識モデルWhisperを投機的デコーディングで高速化する - NTT Communications Engineers' Blog
    sh19910711
    sh19910711 2025/02/26
    "人間が予測変換を活用しながら文章を入力するのと似た流れ / 投機的デコーディング: 元のモデルよりも軽量な言語モデルの出力を下書きとして利用 + 数単語先まで予測してから元の大きなモデルでその予測を検証"
  • Alibabaの推薦システムBehavior Sequence Transformer

    はじめに この記事では、Alibabaが提案した「Behavior Sequence Transformer (BST)」というモデルについて解説し、その実装をMovieLensデータセットに適用した例を紹介します。 以下は実装です。 Repository: Google colab: Behavior Sequence Transformer (BST) URL:Behavior Sequence Transformer for E-commerce Recommendation in Alibaba 論文概要・背景 BSTの発表はKDD’2019と若干古いですが、業界に先駆けてTransformerベースの手法を実稼働環境で検証し、A/Bテスト結果も報告したという内容になっており、先行事例として重要な位置付けの論文です。 A/Bテストでは、AlibabaのE-commerceプラットフ

    Alibabaの推薦システムBehavior Sequence Transformer
    sh19910711
    sh19910711 2025/02/26
    "BST: 業界に先駆けてTransformerベースの手法を実稼働環境で検証しA/Bテスト結果も報告 / ユーザ情報とtransformer layerの出力から、候補アイテムのクリック確率を予測"
  • Differential Transformerの構造解説 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに この記事では、2024年10月7日に登場したばかりの新しい機構、 arXiv:2410.05258 において提唱されたDifferential Attentionの解説をします。 解説では実装できるレベル感の解説をします。 Differential Transformer (以下DiT) 概要 この機構は、従来のTransformerで問題となっていた、重要ではない無関係な情報にも注目度をふってしまうことを改善するために作られた機構ということです。 様々な条件下で、従来のTransoformerより性能が良いことが示されてい

    Differential Transformerの構造解説 - Qiita
    sh19910711
    sh19910711 2024/10/27
    "Differential Transformer: 無関係な情報に付与される注目度を減らすために、重みを共有しないもう一つのQuery・Keyテーブルを用意 / 1つ目のQKテーブルから、2つ目のQKテーブルの値を引く" arXiv:2410.05258
  • 20190515 RNNと自然言語処理 RNNの基礎からAttention〜BERTの概要まで

    「実践者向けディープラーニング勉強会 第三回」に向けた資料。 https://dl4-practitioners.connpass.com/event/128418/ なんとなくエッセンスを理解するための説明。

    20190515 RNNと自然言語処理 RNNの基礎からAttention〜BERTの概要まで
    sh19910711
    sh19910711 2024/10/18
    "ゲートを追加して単純なRNNの欠点を解消 / 文脈を一箇所にまとめずAttentionで時間の関数に / Self-AttentionはRNNなしの強力な文脈表現抽出器" '19
  • 【最強時系列モデル】TimesNetの論文紹介 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? この記事では、ICLR 2023で発表された「TimesNet: Temporal 2D-Variation Modeling for General Time Series Analysis」を解説します。 少しでも分かりやすいなど思っていただけたら、「いいね」や「コメント」お願いします!間違いや指摘がございましたら遠慮なくお申し付けください! TimesNet: Temporal 2D-Variation Modeling for General Time Series Analysis 忙しい方へのまとめ この論文のやったことは大

    【最強時系列モデル】TimesNetの論文紹介 - Qiita
    sh19910711
    sh19910711 2024/10/12
    "TimesNet: 通常一つの次元方向に進行する時系列データを二次元に変換 + その二次元データに対してInception Blockで処理を施すTimes Blockというブロック" '23
  • 言語モデルにおける推論パラメータと小説生成への適用について

    sh19910711
    sh19910711 2024/10/09
    "確率の高いものを選択するだけだと単調 / 前後の文を考慮した確率の評価 + 繰り返しを発生しにくくする + 自然な文になるよう確率値が低い単語も取り入れる" '23
  • 独立ベクトル分析によるオンライン音源分離・追跡のための高速最適化 / Fast online algorithms for independent vector analysis

    sh19910711
    sh19910711 2024/10/03
    "1個の音源のみが移動する状況の音源分離 / AuxlVA: 分離行列の最適化 + 共分散行列の逐次更新 / 1音源追跡のための高速なステアリングベクトル更新" '23
  • Transformerにおける相対位置エンコーディングを理解する。 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 自然言語処理を中心に近年様々な分野にて成功を納めているTransformerでは、入力トークンの位置情報をモデルに考慮させるために「positional encoding(位置エンコーディング)」と呼ばれる処理が必要になります。 この位置エンコーディングは通常、トークン系列の開始時点を基準とした絶対的な位置情報を埋め込みます。 しかし、タスクによってはトークンの絶対的な位置ではなくトークン間の相対的な位置関係をモデルに考慮させたい場合もあると思います。 そういった需要に応えるため、トークン間の相対的な位置を考慮した位置エンコーディング技

    Transformerにおける相対位置エンコーディングを理解する。 - Qiita
    sh19910711
    sh19910711 2024/10/03
    "自然言語以外の様々な系列データにTransformerが適用されていますが、その全てのデータにおいて絶対位置情報が重要であるとは限りません / 物理世界由来の時空間データは基本的に相対的な位置関係が重要" arXiv:1809.04281 '21