タグ

cnnに関するmanabouのブックマーク (43)

  • AIは人を笑わせられるのか? ボケの自動生成を競う、お笑いAIバトルの舞台裏

    AIはボケで人を笑わせられるのか? 針原佳貴氏(以下、針原):みなさま、お待たせいたしました。アマゾン ウェブ サービス ジャパン、ソリューションアーキテクトの針原です。「電笑戦 ~AIは人を笑わせられるのか? 挑戦を支える技術AWS~」というセッションを始めてまいりたいと思います。 技術セッションでは、「電笑戦」の概要説明のあと、電笑戦のサンプルモデルを構築していただいた電通デジタル・石川さんより技術解説をしていただき、その後、電笑戦参加企業の3社から、これまでのモデル開発と戦に向けた意気込みを語っていただきます。 まず初めに、みなさんご存知でしょうか。『ボケて』は、株式会社オモロキが運営している国内最大級のお笑いメディアです。1枚の画像に対して一言ボケを投稿して、笑いをとります。 例えば、この画像を見てボケられるでしょうか。 「いなり寿司」。こちらが実際に『ボケて』に投稿されてい

    AIは人を笑わせられるのか? ボケの自動生成を競う、お笑いAIバトルの舞台裏
  • 物体検出のDeepLearning読むべき論文7選とポイントまとめ【EfficientDetまでの道筋】 - Qiita

    お久しぶりです。 2012年のHintonさんのAlexNetによるILSVRCでの圧勝を皮切りに、画像認識の世界でもDeepLearningが脚光を浴びることとなりました。 物体検出の世界でも現在DeepLearningを用いたモデルが主流になっています。 https://paperswithcode.com/sota/object-detection-on-coco を見ると、 COCO test-devにおいて、state-of-the-art(SoTA)のモデルはEfficientDet-D7xのようです。 独断と偏見も少々ありますが、そのEfficientDetを理解するために読むべき論文を7つ集めてみました。 DeepLearning以降の物体検出に焦点を当てて、出来るだけ簡潔につらつらと書いていきたいと思います。 物体検出とは 物体検出について知らないという人は以下の動画を見

    物体検出のDeepLearning読むべき論文7選とポイントまとめ【EfficientDetまでの道筋】 - Qiita
  • 次世代の畳み込み?!CondConv - Qiita

    はじめに 日課のarXiv論文のチェックをしていたところ、Microsoftから興味深い論文1が出ていました。 Microsoftから動的にConvの重みを変えるDynamic Convolutionの提案。重み自体を出力するのではなく、複数のConvの線型結合の係数を出力する(Attention)。実はGoogleからもCondConvという同様のアプローチが提案されていて(NIPS'19)熱い! https://t.co/M36wbog1nm https://t.co/lwznevSy2y pic.twitter.com/vNZH6M4CL3 — Yusuke Uchida (@yu4u) December 10, 2019 チラ見してみると、積ん読していたGoogle Brainから出ている論文CondConv2の論文とほぼ同じような主張をしていたので、CondConvのほうを改めて

    次世代の畳み込み?!CondConv - Qiita
  • 畳み込みニューラルネットワークの高精度化と高速化

    2012年の画像認識コンペティションILSVRCにおけるAlexNetの登場以降,画像認識においては畳み込みニューラルネットワーク (CNN) を用いることがデファクトスタンダードとなった.CNNは画像分類だけではなく,セグメンテーションや物体検出など様々なタスクを解くためのベースネットワークとしても広く利用されてきている.講演では,AlexNet以降の代表的なCNNの変遷を振り返るとともに,近年提案されている様々なCNNの改良手法についてサーベイを行い,それらを幾つかのアプローチに分類し,解説する.更に,実用上重要な高速化手法について、畳み込みの分解や枝刈り等の分類を行い,それぞれ解説を行う. Recent Advances in Convolutional Neural Networks and Accelerating DNNs 第21回ステアラボ人工知能セミナー講演資料 http

    畳み込みニューラルネットワークの高精度化と高速化
  • AutoML Vision と RasPi でリビングのいろいろな音を認識する

    Cloud AutoML Vision は、画像とその分類ラベルをクラウドにアップロードするだけで画像認識の機械学習モデルを作成できるサービス。ラーメン二郎のどんぶり画像から 95% 精度で店舗を当てたりできる高性能だけど、機械学習のディープな知識や経験がなくても使える。 で、これでまず試してみたかったのが、音の認識だ。画像じゃなくて音。 2 年くらい前に、画像認識用の CNN を使って音声を認識する論文が Microsoft Research から出てて、へぇーっと思った。スペクトログラムっていう、よく犯罪捜査で出てくる声紋のアレを使って音を画像にして、その模様から音の特徴を認識する。 CNN音声認識Microsoft Research)なるほどなあ。。つまり、世の中のどんなデータでも、捉えたい特徴を画像の特徴として表せれば、画像認識で識別できる……ってことだ。 そして、AutoM

    AutoML Vision と RasPi でリビングのいろいろな音を認識する
  • NVDLAのConvolution DMAが実行する畳み込みの手順の解析 - FPGA開発日記

    NVDLAというか、畳み込み演算をどのようにハードウェアで実現するかということをさらに掘り下げている。 NVDLA : Unit Description Unit Description — NVDLA Documentation NVDLAのConvolution DMAは、以下のような画像に対して入力画像とカーネルを畳み込むことを考える。ここではチャネルについては無視している。 上記の図における、各パラメータは以下の通りである。 Top Padding(TP) : 画像データに対して上部に何ピクセルパディングを入れるか。 Bottom Padding(BP) : 画像データに対して下部に何ピクセルパディングを入れるか。 Left Padding(LP) : 画像データに対して左部に何ピクセルパディングを入れるか。 Right Padding(RP) : 画像データに対して右部に何ピクセ

    NVDLAのConvolution DMAが実行する畳み込みの手順の解析 - FPGA開発日記
  • 畳込みニューラルネットワークの基本技術を比較する ーResnetを題材にー - Qiita

    今更ながら、畳込みニューラルネット(CNN)の基技術を比較します。 やりたいことは、どの技術が一番効果があるのか数値化します。 以下の流れでやっていきます。 (基CNN) → (Resnetの各技術を追加していく) → (+最先端技術) 基CNNに、Resnetに出てくる技術を追加しながら、分類精度の上昇幅を比較します。 コードはkerasで書いています。 Resnetとは 2015年に登場したモデルで、層を飛ばす仕組みを作ることで、深い層を作っても 学習可能なモデルとなりました。ディープラーニング業界では、斬新なアイデアで 革命を起こしました。 詳しくは以下の記事をご覧下さい。 https://qiita.com/koshian2/items/343a55d59d8fdc112661 データのダウンロード 使うデータはCIFAR-10です。これは、32×32サイズの画像が入った

    畳込みニューラルネットワークの基本技術を比較する ーResnetを題材にー - Qiita
  • TensorFlowとCNNで、自作データセットを画像分類する

    初めまして! BitStarでエンジニアのインターンをしている久根間です。 普段は、Railsで、社内システムや自社サービスの開発をしていますが、個人的に、機械学習に興味があるので、自作したデータセットを画像解析する方法をまとめてみようと思います。 はじめに この記事では、TensorflowのDeep MNIST for Expertsチュートリアルのコードを少し変えて、自作したデータセットを学習させていく方法を書いていきたいと思います。なので、今回は、データの扱いを中心にいきたいと思います。チュートリアルやCNNについては、深く突っ込まないので、ご了承ください。 具体的に、何を分類するかですが、BitStarでは、YouTubeのチャンネルを、ジャンルごとに分類したりしています。そこで、『YouTubeのサムネイルから、動画の内容を分類する』をやっていきたいと思います。〜やってみたの動

    TensorFlowとCNNで、自作データセットを画像分類する
  • How I Taught A Machine To Take My Job

    A simple landscape created entirely by an ML algorithm, taught by me.In my last medium post, I discussed how we could use convolutional neural networks for gesture recognition in VR. I concluded that while it was really cool, drawing objects was sometimes more tedious that having a simple menu. So that got me thinking… What if I used neural networks to anticipate what objects I wanted to place? Th

    How I Taught A Machine To Take My Job
  • OpenFace+機械学習で視線検知 - Qiita

    Githubでコードを公開しました!(2018.05.01 追記) https://github.com/29Takuya/EyeSight 0. 背景 こんにちは、@29Takuyaです。(プロフィールページ) この記事は、僕が学部3年(2016年後半)に授業の一環として行った活動をまとめたものです。 Python機械学習の知識を身につけることが主な目的であったため、新規性などは特にありません。(暖かい目でご覧頂けると嬉しいです) 1. 目的 顔が写った一枚の画像を入力として、その人の視線がカメラを向いているかそうでないかを判定するします。(二値分類) 僕の研究室では、対話ロボットの研究を行っているのですが、視線を検知することでよりスムーズな対話が実現できるのではというのがモチベーションです。 2. 関連技術(OpenFace) 顔が写った画像と言っても、顔のサイズや位置などは様々です

    OpenFace+機械学習で視線検知 - Qiita
  • SSDで道路の損傷を検出した - Qiita

    はじめに SSD(Single Shot Multibox Detector)で道路の損傷を検出しました. 作業環境等に関しては株式会社パソナテックさんにご協力いただきました. なお成果物は学習済みモデルとともにGitHubに公開されています. 不具合もまだ複数あると思いますので,気軽にissueを立てていただければと思います. やったことを最初から文章で説明するより,まずは成果物を見ていただいたほうが早いと思うので,デモをお見せします. このように,横断歩道やセンターラインのかすれ,陥没,ひび割れなどを検出することができます. 道路の損傷を検出する方法はいろいろありますが,画像認識を用いるならば,車で移動しながらスマホや車載カメラでリアルタイムに検出できると便利です. このような認識手法を採用するのであれば,デバイスの制約により,計算量が小さいモデルが求められます. 道路の損傷を物体認識

    SSDで道路の損傷を検出した - Qiita
  • NVIDIA Thrust を用いた GPGPU による行列演算の実装方法

    こんにちは。アプリケーション共同開発部新卒エンジニアの高坂です。 記事では、最近特に目にする機会の増えた人工ニューラルネットワークの演算処理を支える GPGPU 演算を簡単に実装できる NVIDIA 社の Thrust ライブラリについて、その使い方を簡単に説明します。 はじめに コンピュータにプログラムを実行させる場合、CPU に演算を行わせるのが一般的かと思います。近年の情報技術の向上により、CPU コアあたりの演算能力の向上、またコア数・スレッド数の増加による性能向上が著しく、コンピュータが現実的な時間で行えることの幅が確実に広がっています。 しかしながら、現在のフラッグシップサーバ CPU として Intel Xeon Platinum 8180 プロセッサを例にとると、一個あたりのコア数は 28 コア 56 スレッド、8ソケット構成をサポートしているので理論上 224 コア 4

    NVIDIA Thrust を用いた GPGPU による行列演算の実装方法
  • 美容サイトARINEで稼働中の機械学習を用いた髪型ネイル識別システム | GREE Engineering

    応用人工知能チームの尾崎です。今年新卒エンジニアとして入社し、機械学習モデルの実装評価からAPIサーバの実装、コンテナを利用したプロダクトへの導入まで開発全般を担当しています。 今回はARINEで稼働中の畳み込みニューラルネットワーク (CNN) を用いた髪型・ネイル識別システムについてご紹介します。 背景 ARINEでは、おすすめのヘアスタイルやトレンドのコーディネートなど沢山の記事が公開されています。記事には数多くの写真素材が用いられていますが、これらの素材の多くは提携サイトから検索APIを提供してもらったり、提携サイト内の検索機能を用いて写真素材を探し選んでいました。しかし、一部の写真素材は自社で撮影していたり、最近ではヘアサロンやネイルサロンからも提供してもらっているため、それらの画像を検索する手段がありませんでした。 そこで今回、ライターさんが執筆に必要な写真素材を手軽に検索でき

    美容サイトARINEで稼働中の機械学習を用いた髪型ネイル識別システム | GREE Engineering
  • 最新の物体検出手法Mask R-CNNのRoI AlignとFast(er) R-CNNのRoI Poolingの違いを正しく理解する - Qiita

    最新の物体検出手法Mask R-CNNのRoI AlignとFast(er) R-CNNのRoI Poolingの違いを正しく理解するDeepLearningR-CNNfaster-r-cnnfast-r-cnnmask-r-cnn はじめに CNNベースの高速な物体検出の先駆けであるFast R-CNN1やFaster R-CNN2、最新のMask R-CNN3では、まず物体の候補領域をregion proposalとして検出し、そのregion proposalが実際に認識対象の物体であるか、認識対象であればどのクラスかであるかを推定します。 Fast R-CNN系の手法のベースとなったR-CNN4では、region proposalの領域を入力画像から切り出し、固定サイズの画像にリサイズしてからクラス分類用のCNNにかけるという処理を行っていたため、大量のregion proposa

    最新の物体検出手法Mask R-CNNのRoI AlignとFast(er) R-CNNのRoI Poolingの違いを正しく理解する - Qiita
  • Deep Learning Acceleration勉強会(# DLAccel)に参加してきたのでまとめ - ぴよぴよ.py

    今日参加してきた Deep Learning Acceleration勉強会 - connpass が非常に面白かった. 一度聞いただけでは全然理解できなかったので、後から読み返すように公開された資料や論文などをメモをまとめた。 私自身は仕事で一度tensorflowでCNN触ってみたくらいで、超初心者なので、 おかしな書き方をしているところがあるかもしれませんヾ(´゚Д゚;) [2017/09/04 11:00 追記] 間違いの修正/情報追記 目次 モデルアーキテクチャ観点からのDeep Neural Network高速化 by Yusuke Uchida(@yu4u)さん 資料 よくある高速化の方法 Factorization conv(5 x 5) => conv(3 x 3) - conv(3 x 3) conv(3 x 3) -> conv(1 x 3) - conv (3 x

    Deep Learning Acceleration勉強会(# DLAccel)に参加してきたのでまとめ - ぴよぴよ.py
  • Recent Trends in Deep Learning Based Natural Language Processing · Issue #387 · arXivTimes/arXivTimes

    一言でいうと NLPにおけるdeep learningの手法を網羅的に解説したレビュー論文。紹介されている手法は、分散表現系(word2vecとその前身)、CNN系(Basic CNN, time-delay neural network, dynamic CNN, multi-clumn CNN, dynamic multi-pooling CNN, hybrid CNN-HMM)、RNN系(Simple RNN, LSTM, GRU, Dual-LSTM, MemNet)、Recursive neural network、 強化学習系、教師なし学習系(seq2seq)、生成モデル(VAEs, GANs)、メモリ増設系(memory networks, dynamic memory networks)など。 論文リンク https://arxiv.org/abs/1708.02709 著

    Recent Trends in Deep Learning Based Natural Language Processing · Issue #387 · arXivTimes/arXivTimes
  • ラーメン二郎を識別する人工知能の中身 - Qiita

    この記事は 前にラーメン二郎を識別するチャットボットを作ったのですが、そのバックエンドではディープラーニングで画像分類をしています 具体的には、Tensorflow上で動く画像識別モデルInception-v3を使って、独自カテゴリ約1300種類の画像を分類しています 結構はまりどころが多く、動くところまで持っていくのはそれなりに面倒だったので、手順を残しておきます Tensorflowでの画像認識 Inception-v3? GoogleのディープラーニングフレームワークTensorflowのチュートリアルではいくつかの画像認識のサンプルが出てきます MNIST For ML Beginners:単なるニューラルネットワークで28x28のモノクロ数字画像の分類 Deep MNIST for Experts:CNNで28x28のモノクロ数字画像の分類 Convolutional Neura

    ラーメン二郎を識別する人工知能の中身 - Qiita
  • CNNの高速化: Winograd's Minimal Filtering - Fixstars Tech Blog /proc/cpuinfo

    Winograd’s Minimal Filtering Algorithm では、入力とフィルタを元の空間における畳み込みが要素ごとの積となるような空間に変換し、要素ごとの積をとった後に逆変換することで畳み込みを行います。 このアルゴリズムを用いたとき、出力サンプル数 $m$、フィルタサイズ $r$ の畳み込み $F(m, r)$ に必要となる乗算回数 $\mu(F(m, r))$ は $m + r – 1$ となります。 また、変換と逆変換をネストすることによって2次元の畳み込みも行うことができます。その場合、出力サンプル数 $m \times n$、フィルタサイズ $r \times s$ の畳み込み $F(m \times n, r \times s)$ に必要な乗算回数 $\mu(F(m \times n, r \times s))$ は $(m + r – 1)(n + s –

    CNNの高速化: Winograd's Minimal Filtering - Fixstars Tech Blog /proc/cpuinfo
  • 自然言語におけるCNNの攻勢:QRNNにせまる

    12/13のarXivTimes輪講では、CNNの自然言語への適用としてQRNNの論文をピックアップしました。また、前回の分散表現の流れで、グラフの埋め込み表現の論文も扱いました。 QUASI-RECURRENT NEURAL NETWORKS

  • TensorFlow (ディープラーニング)で為替(FX)の予測をしてみる CNN編 - Qiita

    前回までRNN(LSTM)や他の識別器で為替の予測を行ってきましたが、今回はCNNで予測をしてみたいと思います。 第1回 TensorFlow (ディープラーニング)で為替(FX)の予測をしてみる 第2回 ディープじゃない機械学習で為替(FX)の予測をしてみる データの準備 前回まで終値の差分を学習データとしていましたが、今回は終値そのものを学習データにしてみます。 また、今回はUSDJPYの1時間足、2008年1月1日〜2017年3月10日を利用し、前半95%を学習、後半5%をテスト(バリデーション)としました。 CNNは画像認識で高い精度を発揮していますが、画像以外でも応用することは可能です。例えば終値が以下のようなデータがあったとします。 これを画像に変換します。 このように1次元の画像と見なすことができます。 色が複数チャネルあるように見えますが実際はグレースケールです。カラーマッ

    TensorFlow (ディープラーニング)で為替(FX)の予測をしてみる CNN編 - Qiita