タグ

*algorithmと--に関するsh19910711のブックマーク (112)

  • Differential Transformerの構造解説 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに この記事では、2024年10月7日に登場したばかりの新しい機構、 arXiv:2410.05258 において提唱されたDifferential Attentionの解説をします。 解説では実装できるレベル感の解説をします。 Differential Transformer (以下DiT) 概要 この機構は、従来のTransformerで問題となっていた、重要ではない無関係な情報にも注目度をふってしまうことを改善するために作られた機構ということです。 様々な条件下で、従来のTransoformerより性能が良いことが示されてい

    Differential Transformerの構造解説 - Qiita
    sh19910711
    sh19910711 2024/10/27
    "Differential Transformer: 無関係な情報に付与される注目度を減らすために、重みを共有しないもう一つのQuery・Keyテーブルを用意 / 1つ目のQKテーブルから、2つ目のQKテーブルの値を引く" arXiv:2410.05258
  • 全国医療AIコンテスト 2021 1st place solution

    修正、加筆しました

    全国医療AIコンテスト 2021 1st place solution
    sh19910711
    sh19910711 2024/10/12
    "WaveNet: 層が深くなるにつれて、「とびとびで」畳み込みを行うネットワーク + 学習の安定性、速度、精度どれも良く非常に強力" '21
  • Transformerにおける相対位置エンコーディングを理解する。 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 自然言語処理を中心に近年様々な分野にて成功を納めているTransformerでは、入力トークンの位置情報をモデルに考慮させるために「positional encoding(位置エンコーディング)」と呼ばれる処理が必要になります。 この位置エンコーディングは通常、トークン系列の開始時点を基準とした絶対的な位置情報を埋め込みます。 しかし、タスクによってはトークンの絶対的な位置ではなくトークン間の相対的な位置関係をモデルに考慮させたい場合もあると思います。 そういった需要に応えるため、トークン間の相対的な位置を考慮した位置エンコーディング技

    Transformerにおける相対位置エンコーディングを理解する。 - Qiita
    sh19910711
    sh19910711 2024/10/03
    "自然言語以外の様々な系列データにTransformerが適用されていますが、その全てのデータにおいて絶対位置情報が重要であるとは限りません / 物理世界由来の時空間データは基本的に相対的な位置関係が重要" arXiv:1809.04281 '21
  • TLM(Task-driven Language Modeling)の手法を使って、効率的に事前学習済BERTモデルの精度を超えられるか検証してみる - Qiita

    TLM(Task-driven Language Modeling)の手法を使って、効率的に事前学習済BERTモデルの精度を超えられるか検証してみる自然言語処理NLPberthuggingfaceTLM はじめに TLM(Task-drive language Modeling)という手法を提唱する論文を読んで、内容が面白そうだったので、実際に実装してみて、TLMの効果を検証してみました。 実装する上で色々と勉強になったので、誰かのためになるのでは、と思い記事としてまとめてみようと思います。 TLM: Task-drive language Modelingとは? NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient Frameworkという論文で紹介されている手法です。 TLMの課題背景は以下のよ

    TLM(Task-driven Language Modeling)の手法を使って、効率的に事前学習済BERTモデルの精度を超えられるか検証してみる - Qiita
    sh19910711
    sh19910711 2024/09/25
    "TLM: 固有タスクデータを検索クエリーとして一般コーパスのデータを検索 + 事前学習の段階で下流タスクも学習 + 最後に固有タスクデータでFine Tuning / Joint Learning: huggingfaceのTrainerクラスを使い倒す" arXiv:2111.04130 '22
  • LATTE: LAnguage Trajectory TransformErの紹介 - Qiita

    はじめに この記事は、基盤モデル×Roboticsのカレンダー13日目になります。 ほかにもすごい興味深い記事がたくさんあるので気になった方は↓から見ていってください! (ちなみに僕も今回初めて基盤モデルというものを知りました。自分自身、機械学習が専門ではないので、何か間違いがあればご指摘ください。) 基盤モデルとは?という方は @MeRT さんの以下の記事が参考になるかと思います。(上記アドベントカレンダー1日目の記事ですね) また、論文はMicrosoftプロジェクトページ、論文ともに公開されているので、記事はラフな感じでいきたいと思います。 記事 > プロジェクトページ > 論文という順で取っ付きやすくなればいいなーと思います。 LATTEとは? 論文タイトルは「LATTE: LAnguage Trajectory TransformEr」です。 ミュンヘン工科大学とMicr

    LATTE: LAnguage Trajectory TransformErの紹介 - Qiita
    sh19910711
    sh19910711 2024/09/15
    "カメラ画像、人の自然な言語の処理結果から、ロボットの経路生成までを行うシステムを提案 / シミュレータはCoppeliasimとBulletを使用" arXiv:2208.02918 '22
  • [輪講資料] Text Embeddings by Weakly-Supervised Contrastive Pre-training

    大規模な弱教師あり対照学習によって訓練された強力なテキスト埋め込みモデルE5について解説した輪講資料です。 元論文: https://arxiv.org/abs/2212.03533

    [輪講資料] Text Embeddings by Weakly-Supervised Contrastive Pre-training
    sh19910711
    sh19910711 2024/09/14
    "E5: Cross-Encoderからの知識蒸留 + 多段階での対照学習 + SimLMの知識を前提 / Supervised SimCSE: NLIデータセットの「含意」関係にある文ペアを正例に対照学習 / CCPairs: 事前対照学習のための大規模データセット" arXiv:2212.03533
  • 【論文5分まとめ】Ota: Optimal transport assignment for object detection

    この記事は、論文の内容を5分くらいで読めるようにまとめた記事です。そのため、前提となる知識や関連研究に関する説明は大幅に省略しています。 基的には筆者の備忘録ですが、面白そうと思ったら是非ご自身でも読んでみてください。 概要 物体検出モデルにおいて、予測された矩形と真の矩形(gt)の割り当ては、重要な課題の一つである。例えば、RetinaNetであれば、gtとアンカーのIoUが閾値以上であれば、そのアンカーから作られる予測矩形のターゲットとしてgtが割り当てられる。また、FCOSであれば、gtの中心に近い位置やgtの領域に対応する位置から作られる予測矩形にgtを割り当てる。 しかし、このような静的な割り当ては、以下の図のような複数のgtに所属してもよさそうな曖昧な領域の存在の扱いを難しくし、不適切なターゲットによる有害な勾配を生じさせる。 このような問題を回避するために、近年はさまざまな

    【論文5分まとめ】Ota: Optimal transport assignment for object detection
    sh19910711
    sh19910711 2024/08/31
    "物体検出モデルにおいて、予測された矩形と真の矩形(gt)の割り当ては、重要な課題の一つ / OTA: 割り当てを最適輸送問題として捉え + 各予測矩形に対して適切なgtを割り当てるという問題にうまく対応" arXiv:2103.14259 '21
  • 読んだ: 集合知プログラミング - ひだまりソケットは壊れない

    ユーザーへの推薦やカテゴリ分類、いわゆるデータマイニングに興味があったので読みました。 集合知プログラミング 作者: Toby Segaran,當山仁健,鴨澤眞夫出版社/メーカー: オライリージャパン発売日: 2008/07/25メディア: 大型購入: 91人 クリック: 2,220回この商品を含むブログ (275件) を見る 書では集合知について次のように書かれています。 人々は集合知という言葉を長い間使い続けてきた。 それは新たなコミュニケーション技術の到来とともに、ますます人気と重要性を増して来ている。 集合知という表現は、集団の意識や超常現象を想起させるが、技術者がこの表現を使う場合は、今までにない知性を生み出すために、集団の振る舞い、嗜好、アイデアを結びつけることを指す。 『集合知プログラミング』 1.1 節 「集合知とは何か?」 書は、何らかの集団 (例えば web ペー

    読んだ: 集合知プログラミング - ひだまりソケットは壊れない
    sh19910711
    sh19910711 2024/06/21
    "模擬アニーリングと遺伝アルゴリズムが紹介 / 模擬アニーリング: ランダムに推測した解からスタートして、ランダムな方向、小さな距離にパラメータを移した類似解のコストを計算して解を改善していく" 2014
  • 画像の回転などの変換処理が埋め込みベクトルに与える影響を確認してみた | DevelopersIO

    こんちには。 データアナリティクス事業機械学習チームの中村(nokomoro3)です。 今回は小ネタですが、画像の反転や位置の違いが埋め込みベクトルにどの程度影響を与えるのか知りたかったので、記事で試してみたいと思います。 使用する画像 ネコの画像をいらすとやから拝借しました。 こちらに対して、以下のような変換を加えてみます。 サイズ変更 回転 位置替え モノクロ化 そしてネコ以外の画像も比較のため、以下のイヌの画像も使ってみます。 これらの画像データを Titan Multimodal Embeddings で埋め込みベクトルに変換して、コサイン類似度を比較してみようと思います。 埋め込みモデルについて 使用する埋め込みモデルは以下を用います。 Amazon Titan Multimodal Embeddings G1 model - Amazon Bedrock こちらはテキス

    画像の回転などの変換処理が埋め込みベクトルに与える影響を確認してみた | DevelopersIO
    sh19910711
    sh19910711 2024/06/21
    "画像の反転や位置の違いが埋め込みベクトルにどの程度影響を与えるのか / Titan Multimodal Embeddings で埋め込みベクトルに変換して、コサイン類似度を比較 / モノクロ化は意外と差異がなく 0.879 程度"
  • 【ニューラルネットワークの判断根拠抽出】TCAV - ピクセルの重要度から概念の重要度へ - - Qiita

    今回はICML2018に採択された論文,Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV)に関してまとめたいと思います。 判断根拠系の手法では基的にどのピクセルが判断に重要であったか?を主眼に置くことが多いですが(この辺とかこの辺),この論文で提案される手法はピクセル単位ではなく人間の考える概念的な観点から重要度を抽出する面白い方法を取っています。(認知心理学とかヒューマンインターフェースとかそう言った観点の研究ではないです。念のため。) 第一著者はニューラルネットの判断根拠抽出手法としてはメジャーなSmoothgradの著者の一人です。所属はGoogle Brainであり,機械学習の判断根拠をまさに研究されている人です。 論文の

    【ニューラルネットワークの判断根拠抽出】TCAV - ピクセルの重要度から概念の重要度へ - - Qiita
    sh19910711
    sh19910711 2024/06/21
    "概念的な観点から重要度を抽出 / ピクセルではなく,「人がいるから」だとか「ATMの文字があるから」だとかそういう説明 / 人間の感覚に近い概念画像(Concept)に対する重要度を定義" arXiv:1711.11279 2019
  • 【論文紹介】Deep Interest Network for Click-Through Rate Prediction - sola

    今回は、KDD 2018で発表されたCTR (Click Through Rate) 予測に関する論文 Deep Interest Network for Click-Through Rate Prediction を紹介したいと思います。CTR予測は、広義では注目している行動を起こす確率予測であるので、レコメンドに関する論文と捉えることもできます。なお、1週間前くらいに Machine learning papers reading pitch #3 というイベントで、ATRank というリコメンドの汎用的な方法論の論文について紹介しましたが(資料はこちら)、著者らの所属は同じAlibabaです。(ただ著者は全く違います) なお自前で再実装したものは、以下にあります。 github.com 概要 従来手法 提案手法 従来手法の問題点 Deep Interest Network LSTMな

    【論文紹介】Deep Interest Network for Click-Through Rate Prediction - sola
    sh19910711
    sh19910711 2024/06/21
    "CTR予測: 広義では注目している行動を起こす確率予測 / 自然言語処理のような文法規則の下にあるテキストデータなどとは違い、行動データはそういった制約があるわけでなくノイズだらけ" arXiv:1706.06978 2019
  • CNNによる画像分類:背景の影響を低減させる正則化 - Qiita

    はじめに CNNを用いた画像分類モデルを構築するときに、認識したい物体をちゃんと認識したモデルを作るのは結構難しかったりします。特に学習に用いるデータが少なくて偏りがあると以下の例のように画像の背景に基づいた分類モデルになってしまうこともあり得ます。 画像引用:https://arxiv.org/abs/1602.04938 この記事では画像の背景の影響を少しでも減らして認識したい物体を認識したモデルを作るための手法として、Orthogonal Sphere Regularizationという正則化があったので試してみます。 今回の記事で参考にした論文はこちら↓ 使用したコードは以下のGitHubリポジトリに置いてあります。PyTorchCNNを構築し、学習はGoogle ColaboratoryのGPUを用いて行なっています。 Orthogonal Sphere Regularizat

    CNNによる画像分類:背景の影響を低減させる正則化 - Qiita
    sh19910711
    sh19910711 2024/06/14
    "CNN: 学習に用いるデータが少なくて偏りがあると以下の例のように画像の背景に基づいた分類モデルになってしまう / OS Regularization: 背景の空の部分の重要度が減少したことが良い効果をもたらした感じ / ord=fro" 2022
  • Semantic segmentation 振り返り

    Sampling-free Epistemic Uncertainty Estimation Using Approximated Variance Propagation (ICCV2019 oral)

    Semantic segmentation 振り返り
    sh19910711
    sh19910711 2024/06/14
    "CNN: 深い層にいくにつれて見る範囲が広がり、高レベルな特徴が抽出 + 解像度が失われていく / 似ているクラスを正確に分類するためにはglobalな特徴(context)が重要 + 輪郭を正確にsegmentationするにはlocalな特徴が重要" 2019
  • CNNで系列モデリングをするTemporal Convolutional Network(TCN) - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? この記事では**時系列モデリングにはRNNよりCNNのほうが有効である**と提唱してる[論文](https://arxiv.org/pdf/1803.01271.pdf)と、その中で提案されている手法**Temporal Convolutional Network(TCN)**について紹介します 論文概要 タイトル : An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling 論文URL : https://

    CNNで系列モデリングをするTemporal Convolutional Network(TCN) - Qiita
    sh19910711
    sh19910711 2024/06/12
    "時系列モデリングにはRNNよりCNNのほうが有効であると提唱してる論文 / TCN: 系列ベクトルを1次元フィルタでどんどん畳み込んでいくだけ + 自分より前のステップの情報のみを使って畳み込んでいる" arXiv:1803.01271 2020
  • [論文紹介] AdaLoRA

    ICLR22のLoRA[1]の後続研究であるAdaLoRA[2](ICLR23にposterで採択)の解説です. 書誌情報です. Q. Zhang, M. Chen, A. Bukharin, P. He, Y. Cheng, W. Chen, and T. Zhao, "Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning," in ICLR, 2023. 輪講スライドも公開してるので,良ければそちらも参照していただければ. 関連リンク ガチプロによる査読であるところのOpen Review Paper ICLR23版 arXiv版 PEFT v0.3.0における実装箇所 src/peft/tuners/adalora.py - class AdaLoraModel src/peft/tuners/adalora.p

    [論文紹介] AdaLoRA
    sh19910711
    sh19910711 2024/06/10
    "AdaLoRA: LoRAでは固定だったランク 𝑟 の値をLoRAを適用する層に応じて適応的に変化 / LoRA: 層やモジュールによってパラメータの重要度が異なるという事実を無視 / 既にHuggingFace PEFTに実装されていて ~ " arXiv:2303.10512 2023
  • [論文メモ] SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations - Qiita

    前置き SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations 文書ベクトルをお手軽に高い精度で作れるSCDVって実際どうなのか日語コーパスで実験した(EMNLP2017) の記事が圧倒的にわかりやすいのでそっちも見たほうがいいよ!! SCDVの概要 document embeddingの新しい手法。文書分類だけでなく情報探索等にも活用できる。数値実験では既存の方法(doc2vec, LDA, NTSG)に比べ高い精度が出た。 アルゴリズムのアイデアは、 単語はトピックを持つ。 医療、スポーツ、政治など 文書に多く含まれるトピックと同じトピックを持つ単語のほうが影響力が大きい。 医療の単語が多く含まれるとき、政治に関係する単語の影響力は小さくなる。

    [論文メモ] SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations - Qiita
    sh19910711
    sh19910711 2024/05/24
    "SCDV: 絶対値が小さい要素はゼロにし、スパースなベクトルに変換 + 医療の単語が多く含まれるとき、政治に関係する単語の影響力は小さくなる + クラスタごとに単語の表現ベクトルを足し合わせる" arXiv:1612.06778 2018
  • スケールと形状を学習可能なConvolution: Modulated Deformable Convolution (Deformable ConvNets v2)を実装 - Qiita

    2018/11/27にarXivに投稿された論文「Deformable ConvNets v2: More Deformable, Better Results」で、スケールと形状を学習可能なConvolutionであるModulated Deformable Convolutionが提案されています。おもしろそうな手法だったのでPyTorchで実装してみました。 ソースコードはこちら https://github.com/4uiiurz1/pytorch-deform-conv-v2 Modulated Deformable ConvolutionはDeformable Convolutional Networksで提案されているDeformable Convolutionの改良版ですので、初めにDeformable Convolutonについて簡単に説明します。 Deformable

    スケールと形状を学習可能なConvolution: Modulated Deformable Convolution (Deformable ConvNets v2)を実装 - Qiita
    sh19910711
    sh19910711 2024/05/22
    "segmentationやobject detectionのようなタスクでは、様々なスケールと形状の物体をカバーするようなReceptive Fieldを持つネットワークを設計する必要 / modulation: 入力画素ごとの学習可能な重み(0~1)" arXiv:1811.11168 2018
  • 『Phase reconstruction based on recurrent phase unwrapping with deep neural networks』に基づく位相復元手法をPyTorchで実装した - 備忘録

    はじめに 手法 実装 実験 音声の分析条件 実験結果 おわりに 追記 はじめに Masuyama氏らによる位相復元手法 "Phase reconstruction based on recurrent phase unwrapping with deep neural networks"が2020年に提案されている. https://ieeexplore.ieee.org/document/9053234 arxiv.org 手法は,まずDNNで位相の微分(時間方向・周波数方向)を推定し,次に推定した微分に基づいて位相を再帰的に求める(積分する,アンラッピング)という2段階の処理からなる.位相が波形のずれに敏感という問題を回避しつつ,従来のDNNによる位相の直接推定(von Mises DNN)よりも高い精度で位相を推定することができる,というわけである.「位相を再帰的に求める」 rec

    『Phase reconstruction based on recurrent phase unwrapping with deep neural networks』に基づく位相復元手法をPyTorchで実装した - 備忘録
    sh19910711
    sh19910711 2024/05/22
    "RPU: DNNで位相の微分(時間方向・周波数方向)を推定 + 推定した微分に基づいて位相を再帰的に求める(積分する,アンラッピング) / 位相が波形のずれに敏感という問題を回避" arXiv:2002.05832
  • RWA (Recurrent Weighted Average) モデルを学習させてみた in Keras - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? RWA (Recurrent Weighted Average) とは? 論文 (Machine Learning on Sequential Data Using a Recurrent Weighted Average) はこちら 上図の c が RWA のモデル概略図です (a は通常の LSTM、b はアテンション付きの LSTM)。 RWA とは、系列データを扱う再帰的ニューラルネットワーク (Recurrent Neural Networks; RNN) の派生のひとつです。 提案論文中では、RNN の実装としてよく使用され

    RWA (Recurrent Weighted Average) モデルを学習させてみた in Keras - Qiita
    sh19910711
    sh19910711 2024/05/21
    "RWA; Recurrent Weighted Average: Attention を一般化し、再帰的に定義し直すことで RNN の構造に組み込んだもの + attention を過去の状態の移動平均だと考え" arXiv:1703.01253 2017
  • ゼロショット物体検出の研究動向

    sh19910711
    sh19910711 2024/05/18
    "Zero-Shot Detection: 学習時には存在しないクラスの物体検出 + 単語空間を使うことでデータの補間ができる / Ankan18: BBoxのついていないところを検出する予定のない未知クラスの単語ベクトルに割り当て" arXiv:1804.04340 2021