タグ

*algorithmとmodelに関するsh19910711のブックマーク (15)

  • Implicit biasによる正則化効果 - Preferred Networks Research & Development

    記事は,2019年度インターン生だった東京大学 D1 の中島蒼さんによる寄稿です.中島さんはインターンシップにおいて,畳み込みニューラルネットワークの学習について研究を行いました.この記事は,インターンシップ中に文献調査していたimplicit bias に関するレビューとなっています. NN の学習はなぜうまくいくのか 畳み込みニューラルネットワーク(Convolutional NN; CNN)は画像処理など様々な分野に応用され,大きな成功を納めています.すなわち,様々なデータについて,訓練データから学習したニューラルネットワーク(Neural Network; NN)を用いて未知のデータについての予測や分類が行われています.このようにNN の学習が上手くいく,すなわち未知データに良く汎化することは経験的には分かっていますが,理論的な説明はまだ完全には成功していません. NN に限らず

    Implicit biasによる正則化効果 - Preferred Networks Research & Development
    sh19910711
    sh19910711 2025/05/20
    2019 / "暗黙的な正則化(implicit bias)の正体 / 最適化アルゴリズムの性質によるものだという仮説 / SGD: 小ノルム性が正則化として機能し,未知のデータに対する汎化性能に効いている"
  • 推薦/情報検索システムにおけるバイアス除去と不偏学習 - Google スライド

    このブラウザ バージョンのサポートは終了しました。サポートされているブラウザにアップグレードしてください。

    推薦/情報検索システムにおけるバイアス除去と不偏学習 - Google スライド
    sh19910711
    sh19910711 2024/10/19
    "現実世界の推薦システムには過去の推薦policyやユーザーのself-selectionに依存した分布の乖離が多く見られる / IPS: 各Feedbackの観測確率の逆数で事前に損失に重み付け"
  • ニューラルネットへのベイズ推定 - Bayesian Neural Network - nykergoto’s blog

    ニューラルネットワークの過学習防止としてDropout という機構が用いられているのはご案内のとおりです。 この Dropout 、見方を変えるとディープラーニングにおける重みのベイズ推定に相当しているのではないか、という内容が Uncertainty in Deep Learning にて述べられていて、この記事ではその内容について解説していきたいと思います。 また末尾では実際にベイズ推定を実装して、予測がちゃんと不確実性を盛り込んだものになっているかどうか、を確認します。 基的に記事の内容は元の論文(YARIN GAL さんの博士論文です)と同著者の解説ページを元にしています。それぞれ以下からアクセスできますので、解説じゃなくて自分で読みたい!という方はそちらを参考にしてください。個人的には解説も論文もとても読みやい (なんと数式もとても丁寧に記述されています!!) ので、英語が苦手

    ニューラルネットへのベイズ推定 - Bayesian Neural Network - nykergoto’s blog
    sh19910711
    sh19910711 2024/10/13
    "Dropout: 各層においてすべての隠れノードを用いて出力を行わず, ランダムに選ばれたノードの値のみを用いて出力 + backword においても出力に関わったノードの値のみを更新 / 重みのベイズ推定に相当しているのでは" '17
  • [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent

    [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent

    [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
    sh19910711
    sh19910711 2024/10/13
    "深層学習と仮説集合: 経験損失が下がりきっても予測損失は下がっている / 汎化ギャップを考えるにはモデルや損失関数だけではなくアルゴリズムやデータ集合についても考える必要がある" '17
  • Minimum Bayes-Risk Decoding における性能変動の理解に向けて(2024年6月5日 第59回 NLPコロキウム)

    sh19910711
    sh19910711 2024/06/06
    "探したいのは出力文のクオリティを測る尺度を最大化する系列 / Beam search decoding: モデルが付与する確率が最大となる系列を探す手法 + <eos>のみの系列が確率最大になる場合がある (Stahlberg+'19)"
  • 論文紹介:What Learning Algorithm is In-Context Learning?�Investigation with Linear Models

    第14回最先端NLP勉強会の論文( https://openreview.net/forum?id=0g0X4H8yN4I )紹介スライドです.

    論文紹介:What Learning Algorithm is In-Context Learning?�Investigation with Linear Models
    sh19910711
    sh19910711 2024/05/31
    "In-Context Learning: 既存研究はどんな関数を学習できるかに焦点 + どのように関数を学習しているのかを知りたい / Transformerが学習した関数が線形回帰モデルに近いことを示した / メタ学習: 事前学習がOuter-Loopに相当" 2023
  • 深層自己符号化器+混合ガウスモデルによる教師なし異常検知

    [DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...

    深層自己符号化器+混合ガウスモデルによる教師なし異常検知
    sh19910711
    sh19910711 2024/05/28
    "DAGMM: 深層自己符号化器によって次元削減 + 再構築エラーをconcatして低次元の特徴を得て ~ / 異常検知の段階では推定密度からあるサンプルに対する確率密度を計算 + 対数をとって-1倍してエネルギーと呼ぶ" 2018
  • 拡散モデルのサンプリング性能の良さを体感してみる - VISASQ Dev Blog

    はじめに 検索チームの tumuzu です。 画像生成などの技術的進歩は凄まじいですね。簡単なプロンプトから綺麗で多様なデータが生成されていて驚きっぱなしです。そこで拡散モデルの理論的なところが気になったので勉強して記事にしてみました。 この記事では拡散モデルから生成されたデータの質の高さの大きな要因であるサンプリング性能について見ていきます。拡散モデルのサンプリング性能の良さを体感するために、一般的なサンプリング法での問題点を確認しそれが拡散モデルと同等のモデルでは解決できていることを簡単な2次元データを使って見ていきます。 ちなみに『拡散モデル データ生成技術の数理』という書籍を参考にしてます。わかりやすくてとてもいいでした。日語で書かれた詳しい説明が見たい方はおすすめです。 一部環境ではてなブログの数式が崩れて表示されるようです。 数式を右クリックし、Common HTML を選

    拡散モデルのサンプリング性能の良さを体感してみる - VISASQ Dev Blog
    sh19910711
    sh19910711 2024/05/23
    "真の分布や確率はわからないが、尤度関数なら学習できることがあり + 代表的なMCMC法であるメトロポリス・ヘイスティングス法を使ってサンプリングできます / 複数のノイズの強さを用いてスコアを学習"
  • Gmail の優先トレイの論文を読んだ - @nojima's blog

    最近、会社のグループウェアの通知がやたらと多い。 人によっては全ての通知を見ているらしいんだけど、自分の場合は自分宛て通知はみるけど、それ以外の通知は一部しか読んでない。 どうせ一部しか読まないのであれば、できるだけ価値のある通知を読みたいので、通知の中から読む価値の高い上位件をフィルタしてくれるプログラムを書きたい。 そういうわけで、偉大な先駆者である Gmail の優先トレイのアルゴリズムに関する論文『The Learning Behind Gmail Priority Inbox』を読んでみた。 Gmail 優先トレイ 優先トレイは、ユーザーごとの統計モデルを用いて、メールを重要度でランキングすることにより、information overload を軽減する試みである。 チャレンジ: メールの重要度をユーザーの明示的なラベリングなしに推定する 非定常的かつノイジーな訓練データを扱え

    sh19910711
    sh19910711 2024/04/20
    "どうせ一部しか読まないのであればできるだけ価値のある通知を読みたい / 何を重要と見做すかがユーザーによって大きく異なる + 重要度のランキングはスパム検出よりも困難 / 大規模な学習を行うテクニックが色々" 2017
  • メタ学習(meta-learning)の紹介:Regression版で今年の東京の気温を当ててみました~ | GMOインターネット 次世代システム研究室

    2018.10.01 メタ学習(meta-learning)の紹介:Regression版で今年の東京の気温を当ててみました~ こんにちは。次世代システム研究室のK.S.(女性、外国人)です。 夏休みはいかがでしたか? 暑い日々がそろそろ終わり、これからは涼しくなって行くでしょう。では、来月の気温はどれくらいになるでしょうか? 気温がよい感じで下がってくれれば、秋には綺麗な紅葉が見られるかな? 紅葉を楽しみにしているので、機械学習の関連技術を利用し、東京の気温を予測してみたいなあと思いました。 最近、International Conference on Learning Representations (ICLR)といった有名な機械学習の学会が去年の3つの最優秀論文を発表しました。その中の一つは メタ学習についての論文 でした。発表結果を聞いて、え、meta-learningってなんです

    メタ学習(meta-learning)の紹介:Regression版で今年の東京の気温を当ててみました~ | GMOインターネット 次世代システム研究室
    sh19910711
    sh19910711 2024/04/20
    "メタ学習: 学習方法を学習すること(learning to learn) / ディープラーニングならparameter、loss、optimiserだけで十分ですが、メタ学習はさらにmeta-parameter、meta-loss、meta-optimizerが必要" 2018
  • Neural Tangentsによる無限幅深層ニューラルネットワークの構築とベイズ推論

    要点¶Neural TangentsはGoogle AIが開発したJAXのラッパーライブラリです。無限幅 (中間層のユニット数$\to \infty$)のニューラルネットワーク (以後, NN: neural networks)を高速かつ簡単に構築及び学習させることを目的としています。 Neural Tangentsでは無限幅のNNを学習させる手法としてNNGP (Neural Network Gaussian Process)と NTK (Neural Tangent Kernel)の2つを実装しています。 この記事ではNNGPとNTKの要点を紹介し、Neural Tangentsを用いた実装について紹介していきます。 Neural-Tangentsに関連する文献¶ Paper : https://arxiv.org/abs/1912.02803 OpenReview : https:/

    sh19910711
    sh19910711 2024/04/07
    "Neural Tangents: JAXのラッパーライブラリ + NNGPとNTKの2つを実装 / 隠れ層が1層で無限幅 (各層のユニット数 →∞→∞)のニューラルネットワークがガウス過程と等価であることについては (Neal, 1994)で示され" arXiv:1912.02803 2020
  • 『Pythonではじめる数理最適化』の7章「商品推薦のための興味のスコアリング」をStanで解く

    この記事は確率的プログラミング言語 Advent Calendar 2023の12/8の記事です。 概要 『Pythonではじめる数理最適化』はいいですよね。親しみやすい実例、分かりやすい数式、きれいなPythonコードと三拍子そろっています (今年のアドカレで改訂版が近いうちに出ることを知りました)。 7章「商品推薦のための興味のスコアリング」では、「何日前に直近の閲覧があったか」と「閲覧回数」の二つの軸で興味のスコアを考えます。興味のスコアが単調減少であるという制約のもと、再閲覧の割合と推定値の二乗誤差を最小化するという凸二次計画問題として解いています。この記事ではStanで解くとこんな感じですというのを示します。メリットとしてベイズ信頼区間も推定されます。 データ 公式のリポジトリの7章のipynbファイルを途中まで実行して得られるデータフレームrf_dfを使用します。他の人の扱い

    『Pythonではじめる数理最適化』の7章「商品推薦のための興味のスコアリング」をStanで解く
    sh19910711
    sh19910711 2023/12/08
    "7章「商品推薦のための興味のスコアリング」 / 「何日前に直近の閲覧があったか」と「閲覧回数」の二つの軸 + 興味のスコアが単調減少であるという制約 / 再閲覧の割合と推定値の二乗誤差を最小化"
  • DAG の構造学習を連続最適化問題に落とし込んで解く NO TEARS アルゴリズム - Qiita

    NO TEARS アルゴリズムとは NO TEARS はデータから有向非巡回グラフ(Directed Acyclic Graph; DAG)を推定するためのアルゴリズムです。因果推論ライブラリ CausalNex の中で使われています。 $d$ 個の変数間の関係を知るために DAG を推定しようとすると、$d$ に対して計算量が急増化することは容易に想像できます。実際、DAG 学習問題は素直に取り組むと NP 困難となります。これを解消するために、NO TEARS アルゴリズムでは「非巡回」という条件を滑らかな関数で表現し、DAG の学習を連続最適化問題に落とし込みます。つまり、重み $W \in M_d\left(\mathbb{R}\right)$ のグラフ $G\left(W\right)$ があり得る DAG の集合 $\mathbb{D}$ に含まれているかという条件のもとでの最

    DAG の構造学習を連続最適化問題に落とし込んで解く NO TEARS アルゴリズム - Qiita
    sh19910711
    sh19910711 2022/11/23
    "NO TEARS: データから有向非巡回グラフ(DAG)を推定するためのアルゴリズム / d 個の変数間の関係を知るために DAG を推定しようとすると、d に対して計算量が急増化する / 「非巡回」という条件を滑らかな関数で表現"
  • Synthetic Difference In Differenceの紹介 | | AI tech studio

    こんにちは、経済学チームの安井(@housecat442)です。 今日は最近気になっていた論文の一つであるSynthetic Difference In Differenceの内容を簡単に紹介します。 この論文は近年CS系のトップカンファレンスでも大活躍のSusan Atheyとその一派によって書かれており、タイトルもSynthetic ControlとDifference in Differenceの合わせ技を匂わせる非常に興味深いものです。 Synthetic Control(SC)は近年経済学において利用される事が増えてきた、因果効果を推定するための手法です。ちなみに今年のNeurIPSではこのSCを提案したAlberto AbadieによってSCのtutorialが行われます。 そんなSCを拡張した方法であるSynthetic Difference In Difference(SD

    Synthetic Difference In Differenceの紹介 | | AI tech studio
  • 機械学習モデルの予測結果を説明するための力が欲しいか...? - クソして寝ろ

    はじめに 最近はAI機械学習などの単語がビジネスで流行っていて、世はAI時代を迎えている。QiitaやTwitterを眺めているとその影響を受けて、世の多くのエンジニアAIの勉強を始め出しているように見受けられる。 さらに、近年では機械学習のライブラリも充実しており、誰でも機械学習を実装することができる良い時代になってきた。 その一方で、特徴選択を行い精度を向上させたり、機械学習の出した答えがどの特徴に基づいて判断されたのかを理解したりするには、モデルに対する理解やテクニックが必要となる場合も多々ある。複雑なモデルになると人間には解釈が困難で説明が難しい。近頃流行りのDeep Learning系のモデルだと頻繁に「なんかよくわからないけどうまくいきました」となっていると思う。 一般的なエンジニアとしては、この点が割と課題なんじゃないかと勝手に思っている。というか、私が課題に感じている。

    機械学習モデルの予測結果を説明するための力が欲しいか...? - クソして寝ろ
    sh19910711
    sh19910711 2020/01/25
    "データxの周辺からサンプリングしたデータを用いて、説明したい分類器の出力と近似するように解釈可能な(かつ単純な)モデルを学習させる。その後、得られた分類器を用いて分類結果の解釈"
  • 1