並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 339件

新着順 人気順

R-CNNの検索結果1 - 40 件 / 339件

  • 新卒ポーカープレイヤーが山籠りして機械学習エンジニアになった話 - 新卒ポーカープレイヤーの日記

    2019年8月某日AM5:30、カビ臭い布団で目を覚ます。今日も今日とて身体中が痒い。ここは、平均標高1200mの某町のさらに外れにある、季節労働者用の寮。押し入れ下段の布団は腐っている。水道管は朽ちており、顔を洗うのも憚れるような茶色い水しか出てこない。昨晩試しに買ったアメスピの新作は不味い。ああ、早く部屋を出なければ、朝飯の時間に間に合わない。 起きたままの格好で山道を10分ほど下り、作業員の待機室に着く。いつもは各々が無言で具の少ない味噌汁を啜っているのだが、今日は何やら騒然としている。どうやら昨晩、調理場のおじさんが料理長に泣きながら土下座し、「故郷(クニ)へ帰らせて頂きやす!」と言い放ち、寮から脱走したらしい。面白すぎる。しかし、そんな空気を一掃するように作業開始のベルは鳴る。 ペアで働く同僚は、40歳を過ぎている。しかし、その所作に落ち着きはなく、話していると少年を相手にしてい

      新卒ポーカープレイヤーが山籠りして機械学習エンジニアになった話 - 新卒ポーカープレイヤーの日記
    • 物体認識モデルYOLOv3を軽く凌駕するYOLOv4の紹介 - ほろ酔い開発日誌

      はじめに 先月、YOLOv4が公開されました。位置づけとしては、物体認識のポピュラーなモデルの1つであるYOLO系統の最新版となります。結果がすごいのはぱっと見分かりましたし、内容も既存の手法をサーベイ・実験頑張って、精度上げていったんだなあくらいのさら読みはしていましたが、もう少しちゃんと読んでおこうと思い、読んでみたので紹介します。 私自身は物体認識の研究者というわけではないですが、なんだかんだ物体認識周りの記事をいくつか書いているので興味のある方は以下もご参照下さい。 note.com note.com [DL輪読会]Objects as Points from Deep Learning JP www.slideshare.net さて、このYOLOv4ですが、元々のYOLOの作者であるJoseph Redmon氏は著者ではありません。Jeseph Redmon氏は研究の軍事利用や

        物体認識モデルYOLOv3を軽く凌駕するYOLOv4の紹介 - ほろ酔い開発日誌
      • Deep Learning ideas that have stood the test of time

        Deep Learning is such a fast-moving field and the huge number of research papers and ideas can be overwhelming. The goal of this post is to review ideas that have stood the test of time. These ideas, or improvements of them, have been used over and over again. They’re known to work. If you were to start in Deep Learning today, understanding and implementing each of these techniques would probably

        • 物体検出のDeepLearning読むべき論文7選とポイントまとめ【EfficientDetまでの道筋】 - Qiita

          お久しぶりです。 2012年のHintonさんのAlexNetによるILSVRCでの圧勝を皮切りに、画像認識の世界でもDeepLearningが脚光を浴びることとなりました。 物体検出の世界でも現在DeepLearningを用いたモデルが主流になっています。 https://paperswithcode.com/sota/object-detection-on-coco を見ると、 COCO test-devにおいて、state-of-the-art(SoTA)のモデルはEfficientDet-D7xのようです。 独断と偏見も少々ありますが、そのEfficientDetを理解するために読むべき論文を7つ集めてみました。 DeepLearning以降の物体検出に焦点を当てて、出来るだけ簡潔につらつらと書いていきたいと思います。 物体検出とは 物体検出について知らないという人は以下の動画を見

            物体検出のDeepLearning読むべき論文7選とポイントまとめ【EfficientDetまでの道筋】 - Qiita
          • Zero-shot Learning網羅的サーベイ:CLIPが切り開いたVision & Languageの新しい世界 - エクサウィザーズ Engineer Blog

            こんにちは! 画像システムグループで機械学習エンジニアをやっている小島です。 この記事では、今ホットな「Zero-shot Learning」と「Vision & Language」に関する最新情報を、CLIPという研究を起点として網羅的にサーベイをしていきます。このために論文1000本に目を通し、70本程度を記事にしました。 Zero-shotやVision & Languageは、Stable Diffusionに代表される画像生成AIとも密接に関連している技術です。この記事を通して、Vision & Languageの奥深い世界を体感できるでしょう。 注意事項 この記事は非常に長いため、全部読むのに1時間以上かかる可能性があるので、休憩を取りながら、または必要な部分だけ読んでください。各セクションを個別に読んでも問題ありません。 また、文章中の画像は、特別な記載がない限り、引用元の論

              Zero-shot Learning網羅的サーベイ:CLIPが切り開いたVision & Languageの新しい世界 - エクサウィザーズ Engineer Blog
            • 画像ディープラーニングの始め方(画像系AIの概要理解からUdemy受講, E資格取得まで) - Qiita

              本記事の目的 もともと本業でデータサイエンスやディープラーニングを扱っていたわけでもなく、ディープラーニング周りは「なんとなく知っている」という状態。ちゃんと勉強したいと思いながらもなかなか手が出ず、モデル実装の経験もない。 上記の状態から、この1年間くらいでやっと、初めてディープラーニング実装の経験をするところまでたどり着いた。とりあえずデータサイエンスの入口に立てた(かもしれない)ということで、整理のためここまで取り組んできたことをまとめてみた。 これから勉強を始める、誰かのために役立てば嬉しい。 <画像ディープラーニングの始め方> ◇ ステップ1. 画像系AIの全体像を把握する ◇ ステップ2. 画像分類を実装してみる ◇ ステップ3. 理論をフォローアップする ◇ ステップ4. 実装の経験を積む ステップ1.画像系AIの全体像を把握する とりあえず初心者向けの書籍や動画などを見て全

                画像ディープラーニングの始め方(画像系AIの概要理解からUdemy受講, E資格取得まで) - Qiita
              • コンピュータビジョン(CV)の動向 2021 | gihyo.jp

                はじめに 国立研究開発法人 産業技術総合研究所の人工知能研究センターに所属している、片岡裕雄と申します。研究者としてコンピュータビジョン(CV)やパターン認識に関する研究を行う一方で、研究コミュニティcvpaper.challengeを主宰して「CV分野の今を映し、トレンドを創り出す」ことにも挑戦しています。cvpaper.challengeには最新動向の日本語サーベイ資料や研究メンバーによる研究成果も載せています。今回の記事に書ききれない、より詳細な情報はぜひそちらをご覧ください。 今回の記事については、出身大学の大先輩・皆川卓也氏から話を受けて実現しました。皆川氏は2010年にコンピュータビジョンの業界動向を寄稿されているのですが、今回恐れ多くもその企画を受け継ぐことになりました。 それから11年、深層学習の隆盛とともに発展してきたCV分野の動向を述べるにはあまりにも紙面が限られていま

                  コンピュータビジョン(CV)の動向 2021 | gihyo.jp
                • エッジで機械学習ってなんだろう -ブラウザ、スマホ、IoT機器での推論を概観する- - Qiita

                  本内容は、技術書典7 合同本『機械学習の炊いたん2』収録の、「エッジで機械学習」記事を公開したものです。内容は2019年9月時点の調査等に基づきます。 最近Raspberry Pi 4の検証結果などをみていると、エッジ、かつCPUでもそれなりの速度で動くケースもみられます。またこの後にM5StickV(K210)などを触りましたが、専用チップも使い所があります。今後、それらの動きもできれば補足したいと思います。 9/12-22に開催された技術書典9では、新刊『機械学習の炊いたん3』を頒布しました。私は、「AIエンジニア、データサイエンティストのための経営学、ソフトウェア工学」を寄稿しています。他にも機械学習のビジネス、エンジニアリング、数理までもりだくさん。気になられたら、ぜひご覧ください! 他にも、技術書典9「機械学習、データ分析」系の新刊リスト - Qiitaの通り、たくさんの本が出品

                    エッジで機械学習ってなんだろう -ブラウザ、スマホ、IoT機器での推論を概観する- - Qiita
                  • 機械学習を使ってUIを補完するAppleの研究の紹介 - dely Tech Blog

                    TRILL開発部のiOSエンジニアの石田です。 今年もdelyではアドベントカレンダーを行っており、本記事はその2日目の記事となっています。 昨日の1日目の記事は奥原さん (@okutaku0507) の「プロダクトマネージャー3年目の教科書」という記事でした。delyのエースPdMである奥原さんによる大作となっていますので是非ご覧ください。 本記事では、機械学習を使ってUIを補完するAppleの研究について紹介します。 AppleはMachine Learning Researchで機械学習に関する様々な研究を発表しています。 その多くはコンピュータビジョンや音声・テキスト認識のような研究なのですが、機械学習xUIという研究も行っております。 本記事ではその中でも、アプリのスクリーンショット(画像)から機械学習を使ってUIコンポーネントを認識し、アクセシビリティ機能を補完するMaking

                      機械学習を使ってUIを補完するAppleの研究の紹介 - dely Tech Blog
                    • Document AIを巡る技術とLayerXにおける可能性 - LayerX エンジニアブログ

                      初めまして。機械学習エンジニアの島越@nt_4o54です。現在はMLチームで日々、バクラクシリーズで用いられているAI-OCR機能の改善や新規機能の開発などを行なっています。 7月はLayerXエンジニアブログを活発にしよう月間ということで、自分からは表題にもある通り、「Document AI」と呼ばれる技術についての紹介と、またLayerXにおいてどういう応用先があるのかというお話をさせていただこうと思います。 ※ 同名のDocument AIというGCPのサービスがありますが、今回は一般的なDocument AIの話になります。 Document AIとは Document AIに用いられる技術 Optical Character Recognition (OCR) Document Classification Layout Analysis Document Parsing Tab

                        Document AIを巡る技術とLayerXにおける可能性 - LayerX エンジニアブログ
                      • コンピュータビジョン分野のトップカンファレンスであるECCV2022の論文紹介(後編) - NTT Communications Engineers' Blog

                        目次 目次 はじめに ECCV2022のトラッキング論文 ピックアップした論文 Towards Grand Unification of Object Tracking Tracking Objects As Pixel-Wise Distributions Particle Video Revisited: Tracking through Occlusions Using Point Trajectories XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model 最後に はじめに この記事は前回の記事の後編です。ECCV2022で紹介されたトラッキングに関する論文をいくつかご紹介します。 engineers.ntt.com ECCV2022のトラッキング論文 1645本の論文の中

                          コンピュータビジョン分野のトップカンファレンスであるECCV2022の論文紹介(後編) - NTT Communications Engineers' Blog
                        • コンピュータビジョン分野における世界最高峰の国際会議CVPR2022の論文紹介(後編) - NTT Communications Engineers' Blog

                          目次 目次 はじめに 論文紹介 The Norm Must Go On: Dynamic Unsupervised Domain Adaptation by Normalization OcclusionFusion: Occlusion-aware Motion Estimation for Real-time Dynamic 3D Reconstruction EPro-PnP: Generalized End-to-End Probabilistic Perspective-N-Points for Monocular Object Pose Estimation Cascade Transformers for End-to-End Person Search TrackFormer: Multi-Object Tracking With Transformers Global T

                            コンピュータビジョン分野における世界最高峰の国際会議CVPR2022の論文紹介(後編) - NTT Communications Engineers' Blog
                          • 最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you

                            こんにちは。@shunk031 です。 普段は最先端の技術が大好きなパソコンのオタクですが、京都へ旅行して古き良き日本の文化に感化されました。 この記事は 法政大応情 Advent Calendar 2020 21 日目の記事です。 From http://codh.rois.ac.jp/ 今回は日本古典籍の分類タスクについて取り組んでみようと考え、近年の日本古典籍における「くずし字認識」に着目して調査をしました *1。 日本古典籍といった古文書に対して、OCR 等の文字認識技術によって文字情報をデジタル化し、それらの情報をもとに解析を行う流れは現代では自然だと考えています。 しかしながら、一般的に OCR は難しく、また古文書を機械に解析させることはさらなる困難があるのは容易に想像できます。 くずし字認識に対して、近年の取り組みでは ROIS-DS 人文学オープンデータ協働センターが K

                              最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you
                            • コンピュータビジョンの最新論文調査 2D Human Pose Estimation 編 | BLOG - DeNA Engineering

                              はじめに こんにちは、AIシステム部でコンピュータビジョンの研究開発をしている加藤です。我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回は 2D Human Pose Estimation 編として加藤直樹 ( @nk35jk ) が調査を行いました。 本記事では 2D Human Pose Estimation に関する代表的な研究事例を紹介するとともに、2019年10月から11月にかけて開催されたコンピュータビジョンのトップカンファレンスである ICCV 2019 に採録された 2D Human Pose Estimation の最新論文を紹介します。 過去の他タスク編については以下をご参照ください。 Human Recognition 編 (2019/04/26) 3D Vision 編 (2019/06/04) キーポイント検

                                コンピュータビジョンの最新論文調査 2D Human Pose Estimation 編 | BLOG - DeNA Engineering
                              • 五等分の花嫁をAIで予想してみた - Qiita

                                若干釣りタイトルです。深層学習による画像認識をAIと呼ぶか否か問題。 背景 五等分の花嫁の原作の方がだいぶ佳境ですね。 この前12巻が発売されましたが、作者によると14巻で完結とのこと。 だらだら続けるよりは良いんでしょう。名残惜しいけど。 さて、五等分の花嫁と言えば可愛い五つ子ちゃんたちを終始眺めるのも乙なもんですが、一応本作のテーマは「未来の花嫁は誰になるのか?」です。 劇中にも花嫁が何回か出てきてはいるけどもそこは五つ子、ウェディングドレスじゃ誰か分からないわけです。 人の目には誰か分からなくてもAIならば誰か当てられるのでは…?と言うのがこの記事の主題になっています。 実はアニメから入っていて、アニメを観ていた当初そんなネタで記事書いたらバズらないかなーとか何とか思ってたのですが、アイデアを温め、もといめんどくさがってたらいつの間にか師走に入ってました。アニメが今年の初めだったこと

                                  五等分の花嫁をAIで予想してみた - Qiita
                                • 物体検出について読むならこれ! - Qiita

                                  Deep Learning論文多すぎませんか? 「物体検出のためのDeep Learning論文」だけでも多すぎませんか? 多すぎて全容を把握できないせいで、逆に R-CNN, YOLO, SSD, CornerNet とその発展ばかり紹介されてませんか? いやー、物体検出のためのDeep Learningについての良いサーベイがあると良いんですけどねー。 という方におすすめなのがこちら! Deep Learning for Generic Object Detection: A Survey [Li Liu+, IJCV2019] https://arxiv.org/abs/1809.02165 https://doi.org/10.1007/s11263-019-01247-4 日本語訳しておきました! https://shinya7y.github.io/note/detection

                                    物体検出について読むならこれ! - Qiita
                                  • ディープラーニングの先端技術、マルチモーダルの日本語モデルを作ってみた【日本語VL-T5】 - Qiita

                                    要点 マルチモーダル深層学習って何?Vision-Language Modelって何?という方向けに、 Google Colabで実際に学習済みモデルを動かしながら技術概要を理解していただけるチュートリアル記事です。 マルチモーダルの時代が到来 この10年、ディープラーニングの登場により、画像の分類や、文章読解(日本語等の自然言語によるQA)などが高い精度で自動化できるようになりましたね。 しかし、画像は画像、自然言語は自然言語・・・と、それぞれに特化した手法の開発が中心で、それらが混在したマルチメディア(マルチモーダル)の問題へのチャレンジは少ない状況に長らくありました。マルチモーダルの重要性は人間の様々な知的判断の場面を思い返せば分かりますね。実課題解決において重要なAI技術分野といえます。 シングルモーダルが中心だった潮目はこの1年くらいで変わり、昨今、マルチモーダルな深層学習モデル

                                      ディープラーニングの先端技術、マルチモーダルの日本語モデルを作ってみた【日本語VL-T5】 - Qiita
                                    • TensorFlow 2 meets the Object Detection API

                                      https://blog.tensorflow.org/2020/07/tensorflow-2-meets-object-detection-api.html https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhKis9ECId8eIwn_p0SVMBt3a1vfvKOcOZXy6zK0fWoyzXnzQTguKc2CV__6oI1Pwg22NjWsErpDKqjwQdzjilvmqwWkXPj2ncglphh6mAhpoZ_QXQiDwxnwo-GjKEP0fEOb3uBlNlh9sc/s1600/tensorflow2objectdetection.png July 10, 2020 — Posted by Vivek Rathod and Jonathan Huang, Google Research At the

                                        TensorFlow 2 meets the Object Detection API
                                      • 物体検出器 EfficientDet をブラウザで高速推論 - OPTiM TECH BLOG

                                        R&D チームの奥村(@izariuo440)です。EfficientDet がブラウザで動いているのを見たことがなかったので、やってみました。以下はブラウザで実行中の様子1です。 結果として、EfficientDet-D0 で 256x256 の解像度の画像を TensorFlow Lite で推論させると、ネイティブで 20 FPS、WebAssembly SIMD support ありの Chrome で 7 FPS 程度の速度性能を確認できました。 Case XNNPACK XNNPACK スレッド数 FPS A OFF N/A 4 B ON 1 15 C ON 4 20 測定環境は MacBook Pro (Retina, 15-inch, Mid 2015) の 2.5 GHz です。 背景と動機 周辺知識 EfficentDet EfficientDet の精度 Effici

                                          物体検出器 EfficientDet をブラウザで高速推論 - OPTiM TECH BLOG
                                        • 画像の中の文字を見つけるのって今どんな感じなの?まとめてみたんご - Qiita

                                          AdventCalender論文2日目担当のCurryです! 今回は画像の中の文字を見つける技術の昔と最新をまとめました。 意外と文字検出の論文紹介ってないんじゃね!?っていう 画像は参照サイト(各章の先頭のURL)、論文中から引っ張ってきてます 文字検出 画像の中の文字を見つけるのは 文字検出 と呼ばれます。英語では Text Detection とか Text Localization という。 つまりこんなタスク。オレンジ線が文字を囲めてるので、検出ができたと判断できる。 入力画像 出力 文字検出の難しさは、以下のようによく言われる。(いわゆる論文のイントロの謳い文句) 1. 文字の多様性 2. 文字の色 3. 文字のコントラストや背景との混同 4. 文字の大きさが違う 5. 文字の方向(いわゆるアルファベットが斜めになっていたり) ちなみに、、、 文字認識 は文字を判別することなの

                                            画像の中の文字を見つけるのって今どんな感じなの?まとめてみたんご - Qiita
                                          • インターンシップでマルチA100 GPUサーバをぶん回してみた - NTT Communications Engineers' Blog

                                            はじめに 2月14日から25日までの2週間、NTTコミュニケーションズのインターンシップに参加させていただいた八木です。普段は大学院で画像処理の高速化に関する研究をしています。インターンシップでは技術コースのうち「AI/MLシステムとの統合を志向した、メディアAI技術の研究開発」ポストに応募しました。全日リモートでの参加で、joinしたチームのマルチA100 GPUサーバなどを用いて画像認識モデルを学習し、NTT Com で独自に構築しているデータセットでその性能評価をしました。この記事では、その体験談を記載します。 インターンシップまでの経緯 就活イベントで NTT Com の紹介を聞いたのですが、そこで色々と説明してくださった社員の方からメディアAI技術開発チームを紹介してもらい、後日今回のメンターさんらと懇談していただきました。その際、チームの紹介を受け興味を持ち、このインターンシッ

                                              インターンシップでマルチA100 GPUサーバをぶん回してみた - NTT Communications Engineers' Blog
                                            • Google wins MLPerf benchmark contest with fastest ML training supercomputer | Google Cloud Blog

                                              Google breaks AI performance records in MLPerf with world's fastest training supercomputer Fast training of machine learning (ML) models is critical for research and engineering teams that deliver new products, services, and research breakthroughs that were previously out of reach. Here at Google, recent ML-enabled advances have included more helpful search results and a single ML model that can t

                                                Google wins MLPerf benchmark contest with fastest ML training supercomputer | Google Cloud Blog
                                              • ONNX 2020 - OPTiM TECH BLOG

                                                R&D チームの奥村(@izariuo440)です。相変わらず深層学習モデルの推論に取り組んでいます。深層学習モデルの推論器として二年前に ONNX Runtime を軽くレビューしましたが、当時と比較するとかなり進歩しており、ONNX Runtime だけでなく ONNX 自体や関連ソフトウェアも成熟が進んでいるので、備忘録として私がお世話になっているものをかいつまんで紹介します。 OPTiM TECH BLOG Advent Calendar 2020 12/18 の記事です。 ONNX や ONNX Runtime は二年前の記事で少し解説しています。必要に応じてご参照ください。 tech-blog.optim.co.jp ONNX チュートリアル ONNX Model Zoo オプティマイザ その他 ONNX 関連のソフトウェア ONNX Runtime onnx-tensorrt

                                                  ONNX 2020 - OPTiM TECH BLOG
                                                • MMDeployでJetson AGX Orinの物体検出速度をAGX Xavierと比較してみた - NTT Communications Engineers' Blog

                                                  目次 目次 はじめに MMDetectionとは MMDeployとは 実験内容 利用したモデル 計測結果 まとめ はじめに イノベーションセンターの加藤です。普段はコンピュータビジョンの技術開発やAI/MLシステムの検証に取り組んでいます。 今年登場したJetsonの最新版モデル「Jetson AGX Orin」は、前世代である「Jetson AGX Xavier」シリーズの最大8倍のパフォーマンス1、ビジョンや自然言語処理など様々な学習済みモデルにおいては最大5倍の高速化2が謳われており、エッジデバイス上で動かせるAIアプリケーションの幅がかなり広がりそうです。普段メディアAIに取り組んでいる私としてはどのレベルまでの物体検出モデルがエッジ上で動かせるようになったのかが気になりました。そこで本記事ではMMDetectionの提供する物体検出モデルをNVIDIA TensorRTを用いて

                                                    MMDeployでJetson AGX Orinの物体検出速度をAGX Xavierと比較してみた - NTT Communications Engineers' Blog
                                                  • Python作者 Guido氏インタラクティブ記念講演会レポート | gihyo.jp

                                                    本レポートではメインコンテンツである、3つの「Guidoさんに○○」について簡単にレポートします。 GuidoさんにQ&A 「GuidoさんにQ&A」のコーナーでは、質問を参加者から事前にフォームで集め、そのうちいくつかの質問をピックアップし、その場でGuidoさんに回答してもらいました。MCはJDLAのシバタアキラさんとPyCon JP AssociationのJonasさんです。 Q&Aの様子 質問に使用したスライドは以下のページで公開しています。 GuidoさんにQ&A 全部で7つの質問をしました。質問を投稿してくれたみなさん、ありがとうございます。ここではいくつかの質問とその回答を紹介します。 「他の人に使ってもらうツール」に大切なこと 質問:「他の人に使ってもらうツール」を作る上で大切なことは何だと思いますか? Guidoさん:他の人が何を望んでいるかを知ることは難しく、まずは自

                                                      Python作者 Guido氏インタラクティブ記念講演会レポート | gihyo.jp
                                                    • [翻訳]AI生成コンテンツの総合調査:GANからChatGPTまでのGenerative AIの歴史|株式会社ガラパゴス

                                                      原文の総文字数15万字超え!生成AI研究の歴史をまとめた論文をChatGPTを使って翻訳しました。ところどころ日本語がおかしいところもありますが、15万もの文字翻訳するのめんどくさい!という方、参考程度にご覧ください。ポイントだけ読み進めるとサクッと把握できます。 こちらの翻訳です 本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。 脚注、参考文献、Appendixなどは本文をご覧ください。 概要【POINT1】ChatGPTはAIGCのカテゴリに属し、効率的で高品質なコンテンツ作成をします。 【POINT2】大規模モデルの利用で、意図抽出や生成結果が向上し、現実に近いコンテンツが生まれます。 【POINT3】この調査では、生成モデルの進歩や未解決の問題・将来の課題について解説しています。 最近、ChatGPT は、DALL-E-2 [1]や

                                                        [翻訳]AI生成コンテンツの総合調査:GANからChatGPTまでのGenerative AIの歴史|株式会社ガラパゴス
                                                      • たった1枚の画像から「まるでカメラ自体が動いているかのように視点が動く画像」を作り上げる技術が誕生

                                                        ニューラルネットワークを活用して、たった1枚の写真からまるで撮影しているカメラが動いて視点の位置が変わったように見える画像を作り出す、「3D Ken Burnsエフェクト」という技術が開発されました。 [1909.05483] 3D Ken Burns Effect from a Single Image https://arxiv.org/abs/1909.05483 Simon Niklaus - 3D Ken Burns Effect from a Single Image http://sniklaus.com/papers/kenburns 開発された3D Ken Burnsエフェクトがどんなものかは以下のムービーを見ればわかります。 元の画像は、ウェディングドレス姿の女性とフラワーガールを少し離れた位置から撮影したもの。 3D Ken Burnsエフェクトを使うと、元の画像から

                                                          たった1枚の画像から「まるでカメラ自体が動いているかのように視点が動く画像」を作り上げる技術が誕生
                                                        • How Disney uses PyTorch for animated character recognition

                                                          Authors: Miquel Àngel Farré, Anthony Accardo, Marc Junyent, Monica Alfaro, Cesc Guitart at Disney Disney’s Content GenomeThe long and incremental evolution of the media industry, from a traditional broadcast and home video model, to a more mixed model with increasingly digitally-accessible content, has accelerated the use of machine learning and artificial intelligence (AI). Advancing the implemen

                                                            How Disney uses PyTorch for animated character recognition
                                                          • 【速報】知識ゼロでもデータを用意するだけで機械学習が可能に。end to end MLサービス「Amazon SageMaker JumpStart」登場。 #reinvent | DevelopersIO

                                                            せーのでございます。 今年のre:Invent 2020は機械学習が花盛りで、SageMaker系のサービスだけでも Amazon SageMaker Data Wrangler Amazon SageMaker Pipeline Amazon SageMaker Feature Store Deep Profiling for SageMaker Debugger Amazon SageMaker Clarify Amazon SageMaker Edge Manager と、追いかけるだけで大変なことになっています。 ここでそのSageMaker祭りで疲れた体に水ビンタかますようなサービスが登場したのでご紹介します。 その名も「SageMaker JumpStart」です。 ここまできたか。。。 SageMaker JumpStartはオープンソースにある既にトレーニングされた機械学習

                                                              【速報】知識ゼロでもデータを用意するだけで機械学習が可能に。end to end MLサービス「Amazon SageMaker JumpStart」登場。 #reinvent | DevelopersIO
                                                            • The Best GPUs for Deep Learning in 2023 — An In-depth Analysis

                                                              OverviewThis blog post is structured in the following way. First, I will explain what makes a GPU fast. I will discuss CPUs vs GPUs, Tensor Cores, memory bandwidth, and the memory hierarchy of GPUs and how these relate to deep learning performance. These explanations might help you get a more intuitive sense of what to look for in a GPU. I discuss the unique features of the new NVIDIA RTX 40 Amper

                                                                The Best GPUs for Deep Learning in 2023 — An In-depth Analysis
                                                              • PyTorch MobileがプロトタイプでNNAPIに対応したので試してみる - OPTiM TECH BLOG

                                                                まえがき プレイ時間200時間にして念願の初ソロドン勝を達成しもう思い残すことはないR&Dチームの宮﨑です。 ちょうど一か月ほど前の11/13にPyTorch Mobileが(プロトタイプですが)Android NNAPIをサポートというアナウンスがありました。公式によると10倍高速化されたケースもあるとのことで、さっそくチュートリアルのベンチマークを走らせてみました! OPTiM TECH BLOG Advent Calendar 2020 12/14の記事です。 まえがき PyTorch Mobileとは NNAPIとは PyTorch MobileをNNAPIに対応させる手順 NNAPIの性能計測までの流れ ベンチマーク結果 最後に PyTorch Mobileとは 対応する演算子の豊富さや書きやすさなどから人気を誇るPyTorchですが、ここ最近はPyTorchモデルをC++/Mo

                                                                  PyTorch MobileがプロトタイプでNNAPIに対応したので試してみる - OPTiM TECH BLOG
                                                                • ディープラーニングを支える技術 ——「正解」を導くメカニズム[技術基礎]

                                                                  2022年1月8日紙版発売 2021年12月24日電子版発売 岡野原大輔 著 A5判/304ページ 定価2,948円(本体2,680円+税10%) ISBN 978-4-297-12560-8 Gihyo Direct Amazon 楽天ブックス ヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ 楽天kobo honto 本書のサポートページサンプルファイルのダウンロードや正誤表など この本の概要 初学者の方々に向けた,ディープラーニングの技術解説書。 2012年に一般画像分類コンテスト(ILSVRC)で衝撃的な性能を達成したAlexNetの登場以来,急速な進化を遂げているディープラーニング。現在の人工知能/AIの発展の中核を担っており,スマートフォンからIoT,クラウドに至るまで幅広い領域で,画像,音声,言語処理をはじめ

                                                                    ディープラーニングを支える技術 ——「正解」を導くメカニズム[技術基礎]
                                                                  • How to Train a TensorFlow 2 Object Detection Model

                                                                    With the recent release of the TensorFlow 2 Object Detection API, it has never been easier to train and deploy custom state of the art object detection models with TensorFlow. To build a custom model you can leverage your own custom dataset to detect your own custom objects: foods, pets, mechanical parts, and more. In this blog and TensorFlow 2 Object Detection Colab Notebook, we walk through how

                                                                      How to Train a TensorFlow 2 Object Detection Model
                                                                    • [損失関数]Huber損失(Huber Loss)/Smooth L1 Lossとは?

                                                                      図1 「Huber損失」のグラフ(横軸:入力値=誤差、縦軸:出力値=損失) 比較しやすいようにグラフ内に3種類の線を描いた。 ・青色の線: Huber損失=下記2つの弱点を克服した ・オレンジ色の線: MAE(平均絶対誤差)/L1損失=0地点で「微分不可能」で、0に近い場所でも勾配が大きいという弱点がある ・緑色の線: MSE(平均二乗誤差)=外れ値に敏感という弱点がある(例えば横軸の入力値が3のとき、縦軸の出力値は9と非常に大きな値となりグラフからはみ出している) Smooth L1 Lossとは Huber損失に密接に関係する損失関数にSmooth L1 Loss(滑らかなL1損失)がある。Smooth L1 Lossは、Huber損失の計算式にあるδに1.0を指定した場合と同じ計算式となる。Smooth L1 Lossは、例えばモデルアーキテクチャ「Fast R-CNN」の損失関数と

                                                                        [損失関数]Huber損失(Huber Loss)/Smooth L1 Lossとは?
                                                                      • ビジョン技術の実利用ワークショップ「ViEW2023」参加報告 - NTT Communications Engineers' Blog

                                                                        この記事は、NTTコミュニケーションズ Advent Calendar 2023 25日目の記事です。 はじめに こんにちは、イノベーションセンター テクノロジー部門 メディアAI PJ所属の和田、小林です。 普段は画像/映像/言語/音声 等メディアを入力としたAI技術(メディアAI技術)を用いて、事業部/関連部支援や最新技術の調査/研究開発を行なっています。 今回は技術調査の一環として参加した「ViEW2023」について、ワークショップの概要や発表された論文について紹介したいと思います。 ViEW2023は2023年12月7日~8日にパシフィコ横浜で開催されました。詳細は下記サイトをご覧ください。 ViEW2023 公式Webサイト https://view.tc-iaip.org/view/2023/index.html . 目次 はじめに 目次 ViEWについて 流行りのテーマ 小田

                                                                          ビジョン技術の実利用ワークショップ「ViEW2023」参加報告 - NTT Communications Engineers' Blog
                                                                        • Awesome - Most Cited Deep Learning Papers | Curated list of awesome lists | Project-Awesome.org

                                                                          [Notice] This list is not being maintained anymore because of the overwhelming amount of deep learning papers published every day since 2017. A curated list of the most cited deep learning papers (2012-2016) We believe that there exist classic deep learning papers which are worth reading regardless of their application domain. Rather than providing overwhelming amount of papers, We would like to p

                                                                          • Faster R-CNNにおけるRPNの世界一分かりやすい解説

                                                                            今更ですがFaster R-CNNとRPNについて勉強していたら、思いのほか分かりやすい記事がなかったので自分で書くことにしました。 英語版はこちら Faster R-CNNとは2015年にMicrosoftが発明した物体検出アルゴリズムです。Deep LearningによるEnd-to-Endな実装に初めて成功しています。 元論文:https://arxiv.org/pdf/1506.01497.pdf ざっくりとした流れは ① ある矩形の中身が物体なのか背景(=何も写っていない)なのかを学習 ② ①で検出した場所に、具体的に何が写っているのかを学習 という2段構造です。Faster R-CNNの偉い所は①においてResion Proposal Network(RPN)と呼ばれるCNN構造を用いたところです。今までは画像処理の手法であるSelective Searchを使っていたのですが

                                                                              Faster R-CNNにおけるRPNの世界一分かりやすい解説
                                                                            • 【物体検出手法の歴史 : YOLOの紹介】 - Qiita

                                                                              (2020/12/3訂正:論文中の単語ConfidenceとConfidence score(信頼度スコア)について本項での表現が紛らわしかったのでその修正と合わせて大幅に追記させていただきました。) 本稿は,YOLO【You Only Look Once: Unified, Real-Time Object Detection】,を簡潔に紹介したものです. 本項では,YOLOの理解をする上で物体検出の歴史を辿りながら,わかりやすく記述することを心がけました. また,YOLOの論文の内容を忠実にお読みになりたい方は「YOLOv3 論文訳」の方をご参照ください. ※専門性があると判断した用語については日本語訳せずそのまま記述するか,()の中に元の単語を記述しています. YOLOの名前の由来 まず,YOLOという名前の由来から見ていきましょう. YOLOは, “Humans glance at

                                                                                【物体検出手法の歴史 : YOLOの紹介】 - Qiita
                                                                              • Annotated history of modern AI and deep neural networks

                                                                                For a while, DanNet enjoyed a monopoly. From 2011 to 2012 it won every contest it entered, winning four of them in a row (15 May 2011, 6 Aug 2011, 1 Mar 2012, 10 Sep 2012).[GPUCNN5] In particular, at IJCNN 2011 in Silicon Valley, DanNet blew away the competition and achieved the first superhuman visual pattern recognition[DAN1] in an international contest. DanNet was also the first deep CNN to win

                                                                                  Annotated history of modern AI and deep neural networks
                                                                                • 論文解説:リモートセンシングにおける深層学習のトレンド | 宙畑

                                                                                  「リモセンと深層学習の課題とトレンド」を知る上で、よくまとまっている2017年の論文"Deep learning in remote sensing: A comprehensive review and list of resources."がありましたので、この論文の解説をします。 1. はじめに 宇宙から地球を観測するリモートセンシング(リモセン)データと深層学習については宙畑でも色々な記事が出ています。この「リモセン×機械学習」を俯瞰でみた時にどのようなトレンドになっているのでしょうか。 この「リモセンと深層学習の課題とトレンド」を知る上で、よくまとまっている2017年の論文“Deep learning in remote sensing: A comprehensive review and list of resources.”がありましたので、この論文の解説をします。なお、本

                                                                                    論文解説:リモートセンシングにおける深層学習のトレンド | 宙畑