Deep Learningを利用したAI開発に これから携わる方、 既に携わっている方、 こんな悩みはありませんか? Pythonや数式を学ばないといけない ネットワーク構造やパラメータを変更するなどコーディングだと試行錯誤に時間がかかる 学習した何十種類ものニューラルネットワークの管理に苦労している ニューラルネットワークのチューニングを自動化したい 開発環境の構築に手間と費用がかかる
May 21, 2015 There’s something magical about Recurrent Neural Networks (RNNs). I still remember when I trained my first recurrent network for Image Captioning. Within a few dozen minutes of training my first baby model (with rather arbitrarily-chosen hyperparameters) started to generate very nice looking descriptions of images that were on the edge of making sense. Sometimes the ratio of how simpl
Predicting Income with the Census Income Dataset The implementation is based on TensorFlow 1.x. Overview The Census Income Data Set contains over 48,000 samples with attributes including age, occupation, education, and income (a binary label, either >50K or <=50K). The dataset is split into roughly 32,000 training and 16,000 testing samples. Here, we use the wide and deep model to predict the inco
こんにちは。ぼへみあです。 機械学習がすっかりブームになって、仕事や趣味でディープラーニングを使ったことがある人が増えていると思います。 特に画像分野でディープラーニングは成果を上げているので、特定のものを判別・識別するといった事例が多いかと思います。 そうした画像系のディープラーニング経験者なら経験する現象があります。 それは、 「その分野について、作ったAIよりも自分が詳しくなる」 という現象です。 おそ松さん見分けの第一人者になってしまった 以前取り組んだおそ松さんの6つ子をディープラーニングで見分けるネタでは、学習用データセットの作成のために、自力で5000枚以上のおそ松さんたちを見分ける作業を行いました。その結果、アニメを見ても、これは何松だ、と判断できるようになってしまいました。当時はおそ松さんを見分ける能力は誰にも負けない自信がありました。 なぜか学会でおそ松さんの話をする機
こんにちは。ぼへみあです。 先日はポケモンの個体値判別の記事を書いたらかつてないほどバズって驚きました。 今では、スクリーンショットを撮ったり、常駐してゲーム画面に被せるタイプの個体値チェッカーアプリがたくさん出てきてるので、分度器勢は消え去ったようです。 被せるタイプはとても便利で使っているのですが、基本的に入力は全て自分で行う必要があり、少し面倒です。 コンピュータビジョン研究者見習いとしては、全てローカルの画像認識で行わせたいところです。 そこで手始めに、ポケモンの種類を画像認識で判別するためにポケモンデータセットを作ったのですが、寄り道してポケモンから妖怪ができてしまったので、そのお話です。 ポケモンデータセットの作成 機械学習でクラス分類を行わせるのためには、そのドメインのデータセットが必要です。 以前、おそ松さんを見分けた時も6000枚弱のデータセットをスクリーンショットをたく
この記事を読みニューラルネットワークに興味を持ち勉強を始めました。 ニューラルネットワークを目で見て直感的に理解できるのは素晴らしいですね。 半年以上も前の記事なのでコメントを読まれているか分かりませんが、お聞きしたいことがあります。 TensorFlow Playgroundの入力層のFeatureについて勉強をしているのですが、なぜ生の入力値(座標x,y)ではなく、Featureを間にかませているかその背景を教えていただきたいです。 というのも、MNISTのチュートリアル等では縦横28x28ピクセルの784個のアドレスのグレースケールの値を入力とし、入力層に784個のニューロンを並べている解説が 多く、TensorFlow Playgroundで行われているようなFeatureの選択がどこから出てきたものなのか分からないのです。 ちょっと宣伝のようになってしまいますが、自分の学習成果の
動機 elix-tech.github.io の記事を読んで、「可視化」の項が面白いなーと思って。 引用されている図によると、人間の目にはまったく出力クラスとは関係なさそうに見える画像でもCNNによる分類器は騙されてしまう、ということのようだ。 なるほど分類モデルの方を固定しておいて入力を変数として最適化していけば任意の出力に最適な入力を得ることができるのか、と。 自分でもやってみることにした。 分類モデル TensorFlowによるDeep Learningでのアイドル顔識別モデルの性能評価と実験 - すぎゃーんメモ の記事で使ったモデルとデータセットで、ここではCross Validation用にデータを分けずに7,200件すべてを学習に使い20,000 step進めたものを用意した。 このモデルは学習したアイドルたちの顔画像に対してはかなりハッキリと分類できるようになっていて、試しに
nico-opendata niconicoでは、学術分野における技術発展への寄与を目的として、 研究者の方を対象に各種サービスのデータを公開しています。 ニコニコ動画コメント等データセット (株)ドワンゴ及び(有)未来検索ブラジルと国立情報学研究所が協力して研究者に提供しているデータセットです。 ニコニコ動画コメント等のデータが利用可能です。 利用申請フォーム※国立情報学研究所へリンクします ニコニコ大百科データ (株)ドワンゴ及び(有)未来検索ブラジルと国立情報学研究所が協力して研究者に提供しているデータセットです。 ニコニコ大百科のデータが利用可能です。 利用申請フォーム※国立情報学研究所へリンクします Nico-Illustデータセット Comicolorization: Semi-Automatic Manga Colorization Chie Furusawa*、Kazuyu
ネットワークの重みや各ニューロンがどういう入力の時に発火するのかが、学習していく過程で各時刻可視化されてとても良い教材です。 http://playground.tensorflow.org/ うずまきのデータセットに関して「中間層が1層しかないとうずまき(線形非分離な問題)は解けない」という誤解があるようなので、まずは1層でできるという絵を紹介。なお僕のタイムライン上では id:a2c が僕より先に気付いていたことを名誉のために言及しておきます。 で、じゃあよく言われる「線形非分離な問題が解けない」ってのはどういうことか。それはこんな問題設定。入力に適当な係数を掛けて足し合わせただけでは適切な境界を作ることができません。 こういうケースでは中間層を追加すると、中間層が入力の非線形な組み合わせを担当してくれるおかげで解けなかった問題が解けるようになります。 1つ目のデータセットでは特徴量の
以前から書いているDeep Learningによるアイドル顔識別の話の続き。 コツコツと顔画像収集とラベル付けを続けて、そこそこにデータが集まってきたので ここらでちゃんと性能評価をしてみよう、と。 データセットの作成 今回は、現時点で重複なく180件以上の顔画像が集まっている40人のアイドルを分類対象とした。 対象アイドル一覧 これらのアイドルに分類のラベルindexを振り(推してる順とかじゃなくてランダムにね)、それぞれから無作為に抽出した180件の顔画像をそれぞれラベルとセットでレコードを作り、シャッフルして30件ずつ6つのデータセットに分けて保存。 data-00.tfrecords data-01.tfrecords data-02.tfrecords data-03.tfrecords data-04.tfrecords data-05.tfrecords レコードは、以前の記
ディープラーニングなどの成果を活用したAPI一覧 個人の整理用なので、分類や説明は大雑把です。 画像解析 IBM Watson AlchemyVision 機能・特徴 画像内で見つかった物体・人・文字を返す 試してみる IBM Watson Visual Insights(2016年6月末廃止予定) 機能・特徴 消費者の興味、活動、趣味、ライフイベント、製品に関連した洞察を抽出するためにオンラインの画像、ビデオを分析する 試してみる IBM Watson Visual Recognition 機能・特徴 画像中に映った代表的なものの関連する分類のスコアを返す 試してみる GOOGLE CLOUD VISION API 機能・特徴 画像からさまざまな情報を引き出す 画像を数千のカテゴリ(たとえば、「ヨット」「ライオン」「エッフェル塔」など)にすばやく分類する 画像に映る個々の物体や人物の顔を
Several recent papers have explored self-supervised learning methods for vision transformers (ViT). Key approaches include: 1. Masked prediction tasks that predict masked patches of the input image. 2. Contrastive learning using techniques like MoCo to learn representations by contrasting augmented views of the same image. 3. Self-distillation methods like DINO that distill a teacher ViT into a st
ずいぶん遅くなりましたが、ひとまず完成です。疑問点・翻訳ミスを始めとした指摘がありましたら、どしどしお願いします(14/12/18)。 1週間あるから大丈夫だろうとたかを括っていたら、あっという間に投稿日になってしまいました。本当はPylearn2を使ってRBMを学習させようと考えていたのですが、役に立つ内容を書くには時間が足りなさすぎるので、お茶を濁します。 今回の目標 Restricted Boltzmann Machine及びDeep Belief Networkの基本的な動作原理を知る "A Practical Guide to Training Redstricted Boltzmann Machine"(GE Hinton, 2012)で黒魔術(RBMの性能を引き出すコツ)を学ぶ 先日、以下のような発表をしました。今回の内容は以下のスライドの焼き直し・改良を含みます。参考にどう
WhatisCNN.md 畳み込みニューラルネットワーク RBMとは何か Restricted Bolzmann Machine 通常のボルツマンマシンとは違い,可視ユニット同士,不可視ユニット同士の連結を認めない 制限付きボルツマンマシン のことを指す 通常1層ではなく,何層かに重ねて使われる RBMを1段階学習した後,不可視ユニットの活性(値)をより高階層のRBMの入力データとする 不可視ユニットを効率的に学習させることができ,また計算量を現実的な水準に落としている ある訓練データvが与えられたとき、条件付き確率p(hj=1|v)が計算でき、その意味は「vが与えられたとき hjがONになる(1になる)確率 」 DBNとは何か Deep Belief Network RBMを多数重ねて 、下の層から順にRBMを1つずつ学習させるというアイデア DBNは2006年にGeoffrey Hin
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く