Twitter: ottamm_190 追記 2022/4/24 speakerdeck版:https://speakerdeck.com/masatoto/shen-ceng-xue-xi-falsebu-que-shi-xing-uncertainty-in-deep-neural-networks コンパクト版:https://speakerdeck.com/masatoto/shen-ceng-xue-xi-niokerubu-que-shi-xing-ru-menRead less
深層学習の世界では時折・・・と言っても、一ヶ月に一回くらいだが・・・信じられないようなことが起きる。 以前、ゲーム画面を見ただけでパックマンやらマリオやらを再現するAIが出現したと聞いたとき、「嘘だろ」と思ったのだが、まあ言うてパックマン。なんとなくできるのかもしれない。 しかしこの手のものはあまりにも直感に反するので自分の手で確かめないと本当かどうかわからない。 そんな時のために僕の仕事机には7台のGPUマシンがあるわけだが、たまたまRTXが遊んでいたので実行してみたら、「嘘だろ」としか言いようがない結果を目の当たりにすることになった。 GTAVこと「グランセフトオートV」は、自動車泥棒になって架空の街を走り回るゲームだ。 こいつをひたすらAIに学習させると、GTAVをAIが再現するという、全く直感に反することが行われるらしい。3Dゲームというのは、それを作った経験のある人なら誰でも、恐
Description This course concerns the latest techniques in deep learning and representation learning, focusing on supervised and unsupervised deep learning, embedding methods, metric learning, convolutional and recurrent nets, with applications to computer vision, natural language understanding, and speech recognition. The prerequisites include: DS-GA 1001 Intro to Data Science or a graduate-level
1.はじめに 以前から人の動画から3Dモデルを推定する手法はありましたが、複雑な動きの場合は細部でゆがみやズレが生じていました。今回は、この問題点を改善したVIBEという技術をご紹介します。 *この論文は、2019.12に提出されました。 2.VIBEとは? VIBEとは、Video Inference for Body Pose and Shape Estimation の略で、ディープラーニング を使って、人の動画から3Dモデルを推定する技術です。 使用しているモデルは、SMPL (Skinned Multi-Person Linear model)と言う人間の自然なポーズにおける多種多様な体型を正確に表現するためのモデルです。 このモデルは、N=6890個の頂点を持っており、頂点の重み付き和からP=23個の関節位置を求めることが出来ます。 下記が、VIBEのアーキテクチャーです。入力
Raspberry Pi4 単体で TensorFlow Lite はどれくらいの速度で動く?【2020年12月版】RaspberryPiTensorflowLitexnnpack 1. はじめに 今から半年前の2020年6月、ラズパイ4上でTensorFlow Liteを使った様々なAI認識アプリを動かしてみて、その動作速度をまとめました。 当時のTensorFlowはバージョン2.2でしたが、現在は 2.4(rc4) へと進んでいます。進化が極めて速いDeepLearningの世界において、この半年間でTensorFlow Liteはどう変化したでしょうか。もし「手持ちのアプリは何も変えてないのに、TensorFlow Liteを新しくするだけでめっちゃ速く動くようになったぜ」というのだと嬉しいですよね。 本記事では、前回計測に用いたアプリを再び最新版のTensorFlow Lite環
はじめに 「メルアイコン」と呼ばれる、Melvilleさんの描くアイコンはその独特な作風から大勢から人気を集めています。 上はMelvilleさんのアイコンです。 この方へアイコンの作成を依頼し、それをtwitterアイコンとしている人がとても多いことで知られています。 代表的なメルアイコンの例 (左から順にゆかたゆさん、みなぎさん、しゅんしゅんさんのものです (2020/12/1現在)) 自分もこんな感じのメルアイコンが欲しい!!ということで機械学習でメルアイコン生成器を実装しました!!.......というのが前回の大まかなあらすじです。 今回は別の手法を使って、キャラの画像をメルアイコンに変換するモデルを実装しました。例えばこんな感じで変換できます。 実装したコードはこちら 本記事ではこれに用いた手法を紹介していきます。 GANとは 画像の変換にあたってはUGATITという手法を使って
はじめに 最近ついに、Google Meet に背景ぼかし機能が利用可能になりましたよね。日本語だとインプレスのケータイ Watchの記事などで紹介されてます。確か 2020 年 9 月末前後で順次リリースされていたと記憶しています。 このときは「背景ぼかし」の機能しかなかったのですが、最近(私が気づいたのは 2020/10/30)更にアップデートされました。アップデートで「背景差し替え」機能が付いて、ぼかし機能もぼかし効果が強弱 2 つから選べるようになりました。まだ日本語のニュース記事は見てないですが、Googleによるアップデートの発表はちゃんとされています。 そして、Google AI Blog でBackground Features in Google Meet, Powered by Web MLという記事が公開され、実装についての解説がされました。 この記事はその解説記事を
対象者 深層学習シリーズの記事です。 前回の記事はこちらです。 ここでは順伝播について、まずはスカラでの理論を説明して、それから行列に拡張します。 前回記事で紹介したコードに追加していったり修正していく形となるので、まずは前回記事からコードを取ってきておいてくださいね〜 次回の記事はこちら 目次 スカラでの順伝播 スカラでの順伝播理論 スカラでの順伝播実装 行列での順伝播 行列での順伝播理論 行列での順伝播実装 __init__メソッドの実装 行列演算について 行列和 行列の要素積 行列積 転置 スカラでの順伝播 ここでは、スカラ(実数)での順伝播の理論と実装を説明します。といっても、だいたい基礎編で既に述べている通りです。 スカラでの順伝播理論 まずは理論ですね。 このニューロンモデルから見ていきます。 これを定式化すると$f(x) = \sigma(wx + b)$となることはここで述
強化学習をざっと勉強した際のまとめです。 入門者の参考となれば幸いです。 強化学習とは 強化学習の位置付けはこのようになります。 【用語】 - 教師あり学習 - 教師データとして入力とその出力がある - 回帰や分類問題 - 教師なし学習 - 教師データがない - データの特徴を抽出したり、表現変換 強化学習では何をしていくかというと、 「将来の価値を最大化するような行動を学習」 していきます。 強化学習のモデル 強化学習の基本的な仕組みは次のようになっています。 以下の$t$は任意のステップを示します エージェント(意思決定者): 意思決定と学習を行う主体 環境: エージェントが相互作用を行う対象 状態: 環境がエージェントの行動を反映した上で、エージェントに与える状況, $s_t$ 行動: $a_t$ 報酬: $r_t$ 方策: $π_t(s, a)$:確率分布で表される行動戦略。任意の
まずディープラーニングがどのように発展していったのかお話しします。 第一次ニューラルネットワークブーム ある時、脳の神経細胞を仕組みを再現した人工ニューロンを作ります。 人工ニューロンとは上図のようなものを指します。 この複数の信号から1つの信号を出力するアルゴリズムをパーセプトロンと呼びます。 この人工ニューロンを2つ重ねるとが学習できるらしくブームが起こります。下図。 ですが世の中の多くを占めている非線形の問題が解けなく、ブームが終わります。 第二次ニューラルネットワークブーム 実は3層以上重ねるとどうやら非線形問題が解けることは知られていましたが、誰も実装まで手が付けられませんでした。 ところがある時、BackPropagationという方法が発見され、3層以上を重ねられました。 何層も重ねたものをニューラルネットワークと呼びます。 (アルゴリズムを多層パーセプトロンといいます。)
Troubleshooting Deep Neural Networks A Field Guide to Fixing Your Model Why? When I started in deep learning, I felt frustrated that I was spending most of my time debugging instead of the "fun" stuff. (Later, I discovered that debugging never goes away, and the best practitioners still spend most of their time on it.) As I learned more and began helping others train models, I realized that much o
はじめにリアルタイム声質変換アプリケーション、Realtime Yukarinを開発し、 OSS(オープンソースソフトウェア)として公開しました。 ここで言う声質変換とは、「誰でも好きな声になれる」技術のことを指します。 好きな声になれる声質変換は夢があって流行りそうなのですが、まだ全然普及していないと思います。 それは現時点で、声質変換を実際にリアルタイムで使えるフリーな仕組みが無いためだと考えました。 そこで、自由に使えるリアルタイム声質変換アプリケーションを作り、ソースコードと合わせて公開しました。 声質変換とは声を変える方法で有名なのは、声の高さや音色を変える手法、いわゆるボイスチェンジャーです。 既存のボイスチェンジャーは、元の声を起点として、変換パラメータを自分で調整する必要があります。 一方ここでの声質変換は、元の声と好きな声を用いて機械学習し、変換パラメータを自動で調整しま
CVPR2018にて超解像分野において極めて重要そうだなと感じた論文がありました。Yochai Blauらによる下記の論文です。 [1711.06077] The Perception-Distortion Tradeoff この内容を踏まえて最近の超解像研究の流れをまとめたいと思います。 超解像とは? 超解像について振り返ります。多くの方がwaifu2xというソフトウェアで一度は目にしたことがあるかもしれません。下記イメージのように低解像の画像を高解像の画像に変換する方法を 超解像(Super Resolution)と呼ばれます。 (参照元:二次元画像を拡大したいと思ったことはありませんか? - デー) このwaifu2xがざっくりどのように超解像を行っているかというと、ベースはSRCNNというConvolutional Neural Netoworkを使った超解像手法であり、下記のよう
技術開発の進展により加速度的に進化しているAI(人工知能)。このAIという言葉とともに語られているのが、機械学習やディープラーニングだ。AIと機械学習、そしてディープラーニングの違いとは何なのか。 1.はじめに 最近、ニュースや書籍などでAIという言葉を見聞きすることが多い。人手不足の救世主のように扱われたり、人の仕事を奪う悪魔のように書かれるが、その実体はいまひとつ分かりにくい。ましてや、自分の携わっている仕事に対して、具体的に何をしてくれるのかが分からないという声をよく聞く。 もう1つややこしいのは、その呼び名である。AI、機械学習、ディープラーニング、それぞれが何のことなのか、どんな関係なのか不明なまま、なんとなく人に聞けなくて腑に落ちない。この記事では機械学習を中心に、その実体を説明したい。 2.AIとは AIとはArtificial Intelligenceの略、日本語にすれば人
この投稿は米国時間 3 月 26 日に投稿されたもの(投稿はこちら)の抄訳です。 Posted by Google Cloud デベロッパー アドボケイト 佐藤一憲 この 3 つのラーメンは、41 店舗あるラーメン二郎のうち 3 店舗で作られたものです。それぞれ、どの店舗で出されたものか分かりますか? データ サイエンティストの土井賢治さんが作成した機械学習(ML)によるラーメン識別器を使えば、それぞれの微妙な盛り付けの違いを見分けることで、95% の精度で店舗を特定できます。 この写真を見ても分かるとおり、ラーメン二郎の相当コアなファンでもなければ、ラーメン画像から 41 店舗のどこで作られたかを見分けることは簡単ではありません。テーブルやどんぶりの色、形にあまり違いのない場合が多いのです。 土井さんは、ディープ ラーニングを使ってこの問題を解けるか興味を持ち、インターネット上から 48
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く