生成モデル (generative model) / 識別モデル (discriminative model)† クラス分類を解くための手法は識別モデルと生成モデルに分けられる. データとクラスの確率変数をそれぞれ \(X\) と\(C\) で表す. パラメータは \(\theta=(\theta_1,\theta_2)\). 生成モデル (generative model) \(X\) と\(C\) の結合確率をモデル化: \[\Pr[X,C|\theta]=\Pr[X|C,\theta_1]\Pr[C|\theta_2]\] パラメータはデータ集合とパラメータの同時確率を最大化するように学習: \[\Pr[\{x_i,c_i\}_i^N,\theta]=\Pr[\theta]\prod_i^N\Pr[x_i,c_i|\theta]=\Pr[\theta]\prod_i^N\Pr[x_i
著者のDale Markowitz氏はGoogleクラウド部門に所属するGoogle社員で、最近ではGoogle主催の開発者会議Google I/O 2021で「機械学習のよくある問題の発見と解決」というセッションを担当しました。同氏がMediumに投稿した記事『Transformer解説:GPT-3、BERT、T5の背後にあるモデルを理解する』では、現代の言語AIにおける技術的基礎となっているモデルのTransformerが数式を使わずに解説されています。 Transformer以前に自然言語処理で使われていたモデルは、リカレントニューラルネットワーク(Recurrent Neural Network:RNN)でした。このモデルには長い文章を正しく処理するのが難しい、勾配消失問題の影響を受けやすい、そして処理の並列化が難しいためにモデルの大規模化が困難、というみっつの欠点があったため、自
feature_names_in_ndarray of shape (n_features_in_,)Names of features seen during fit. Defined only when X has feature names that are all strings. See also f_classifANOVA F-value between label/feature for classification tasks. mutual_info_classifMutual information for a discrete target. chi2Chi-squared stats of non-negative features for classification tasks. f_regressionF-value between label/featur
R&D チームの徳田(@dakuton)です。 今年のGWあたりにCUDAのGPG更新アナウンス(NVIDIA Technical Blog: Updating the CUDA Linux GPG Repository Key)がありました。記載に従い利用環境の反映作業をしてみたところ、特にDockerイメージ向けの反映については記事に触れられていない範囲でのハマリポイントがいくつかあることがわかったため、対策についてまとめておきます。 参考(GitHub issue) NVIDIA/nvidia-docker(Public GPG key error #1631) 影響を受けているプロジェクト例 TensorFlow (Tensorflow docker image has outdated keys #56085) TorchServe (Improvements to docker
1. 残差接続 (residual connection)とは [概要] 残差接続 (residual connection)とは,CNNの1種である ResNet [He et al., 2016a], [He et al., 2016b] の構成部品である残差ブロックにおいて,毎ブロックに配置される「スキップ接続 + そのあとの2経路の出力の足し算」の部品のことである. 要は 「残差接続 ≒ スキップ接続」ではあるが,スキップ接続のうち,ResNetの場合の残差ブロックを形成する形を,特に残差接続と呼ぶ.ResNetで,提案された「残差ブロックの多層化」の文脈では,スキップ接続を「残差接続」と別途呼び分けたほうが「残差ブロックを反復して構成しているネットワーク構造である」ことが伝わりやすくなる. 関連記事:ResNetの,従来のCNNと最も異なる点は? 【Q and A記事】 この記事
グリッドサーチによる探索 実際にグリッドサーチによるパラメータのサンプルを実装したうえで解説してきます。 検証ライブラリはscikit-learn、検証データはscikit-learnで提供されている癌の判定データを使います。 from sklearn.datasets import load_breast_cancer import pandas as pd from sklearn.model_selection import GridSearchCV from sklearn.linear_model import LogisticRegression # 検証データの取得(癌の判定データ) data = load_breast_cancer() dataX = pd.DataFrame(data=data.data,columns=data.feature_names) dataY
英語版記事を日本語へ機械翻訳したバージョン(Google翻訳)。 万が一翻訳の手がかりとして機械翻訳を用いた場合、翻訳者は必ず翻訳元原文を参照して機械翻訳の誤りを訂正し、正確な翻訳にしなければなりません。これが成されていない場合、記事は削除の方針G-3に基づき、削除される可能性があります。 信頼性が低いまたは低品質な文章を翻訳しないでください。もし可能ならば、文章を他言語版記事に示された文献で正しいかどうかを確認してください。 履歴継承を行うため、要約欄に翻訳元となった記事のページ名・版について記述する必要があります。記述方法については、Wikipedia:翻訳のガイドライン#要約欄への記入を参照ください。 翻訳後、{{翻訳告知|en|Minimum description length|…}}をノートに追加することもできます。 Wikipedia:翻訳のガイドラインに、より詳細な翻訳の手
こんにちは,Ryobot (りょぼっと) です. 概要 「メモリネットワーク」は代表的な記憶装置付きニューラルネットワークである. 本稿ではメモリモデル (記憶装置付きニューラルネットワーク) をいくつか概説し,論文 2 紙 (1) Memory Networks, (2) Towards AI-Complete Question Answering の理論的な記述を全文翻訳して補足説明している. 目次 メモリモデルの概説 Memory Networks (MemNN) 1 メモリネットワークの概要 2 基本モデル 3 拡張モデル 4 実験 Towards AI-Complete Question Answering (bAbI task) 1 メモリネットワークの拡張 2 bAbI タスク 3 実験 長文である.ざっくり知るだけなら「メモリモデルの概説」と Memory Networks
A Hierarchical Bayesian Language Model based on Pitman-Yor Processes (HPYLM) 概要 A Hierarchical Bayesian Language Model based on Pitman-Yor Processes を読んだ A Bayesian Interpretation of Interpolated Kneser-Ney を読んだ C++でHPYLMを実装した はじめに HPYLMはPitan-Yor過程によるスムージングを行うベイズ階層n-gram言語モデルの一種です。 後で記事にしますが可変長ベイズ階層n-gram言語モデルであるVPYLMとは違いHPYLMはn-gramのオーダーを固定します。 スムージングとHPYLM テキストデータが以下の3文とします。 この時、たとえば単語列she will
こんにちは。 前回、モデルを選択する基準のところで情報量基準という言葉をちょこっと出して、そのままスルーしました。しかし、データ分析においては重要なのでとりあえずその基礎くらいは知っておきましょう。ちなみにコードを書く際にパラメータ選択させられることもあります。 ではそもそも情報量基準とはなんなのか? 機械学習におけるとりあえずの目標は学習です。言い換えれば目的関数のerrorを最小化することです。線形回帰などは最適解があり、数式を解けるので最適なパラメータが得られるのですが、前回も言ったようにskip functionのないニューラルネットワークを始め多くのモデルは最適解を得ることが容易ではないです。そこでランダムな値からパラメータを変動させていくのでした。この際、errorが減少するようにパラメータを更新する、つまり、勾配の逆方向に動かすのでした。 では、ここで出る問題は errorが
本連載は「これから機械学習に取り組みたい」「ディープラーニングや機械学習を使った経験がある」といったエンジニアに向けて、データ量が少なくても分析が実現できる「スパースモデリング」という手法を紹介します。今回は、スパースモデリングの歴史を紐解きながら、その代表的なアルゴリズムであるLASSOについて解説します。 スパースモデリングの基本アイデア オッカムの剃刀 2010年代初頭にバズワードにまでなったビッグデータ。今では当時の過熱ぶりはなくなり、ハードウェアやクラウド環境の充実とともに活用が広がっています。ビッグデータには一つの明確に定まった定義はありませんが、RDBMSでは扱いづらくなるほどの大量データであるという量的側面と、データの出処やその種類が多種多様であるという質的側面などが特徴として挙げられます。ビッグデータが手元にあり、解きたいビジネス課題にそのビッグデータを使うのが適当である
Note: this post was originally written in June 2016. It is now very outdated. Please see this guide to fine-tuning for an up-to-date alternative, or check out chapter 8 of my book "Deep Learning with Python (2nd edition)". In this tutorial, we will present a few simple yet effective methods that you can use to build a powerful image classifier, using only very few training examples --just a few hu
An overview of gradient descent optimization algorithms Gradient descent is the preferred way to optimize neural networks and many other machine learning algorithms but is often used as a black box. This post explores how many of the most popular gradient-based optimization algorithms such as Momentum, Adagrad, and Adam actually work. This post explores how many of the most popular gradient-based
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く