並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 351件

新着順 人気順

R-CNNの検索結果1 - 40 件 / 351件

  • 新卒ポーカープレイヤーが山籠りして機械学習エンジニアになった話 - 新卒ポーカープレイヤーの日記

    2019年8月某日AM5:30、カビ臭い布団で目を覚ます。今日も今日とて身体中が痒い。ここは、平均標高1200mの某町のさらに外れにある、季節労働者用の寮。押し入れ下段の布団は腐っている。水道管は朽ちており、顔を洗うのも憚れるような茶色い水しか出てこない。昨晩試しに買ったアメスピの新作は不味い。ああ、早く部屋を出なければ、朝飯の時間に間に合わない。 起きたままの格好で山道を10分ほど下り、作業員の待機室に着く。いつもは各々が無言で具の少ない味噌汁を啜っているのだが、今日は何やら騒然としている。どうやら昨晩、調理場のおじさんが料理長に泣きながら土下座し、「故郷(クニ)へ帰らせて頂きやす!」と言い放ち、寮から脱走したらしい。面白すぎる。しかし、そんな空気を一掃するように作業開始のベルは鳴る。 ペアで働く同僚は、40歳を過ぎている。しかし、その所作に落ち着きはなく、話していると少年を相手にしてい

      新卒ポーカープレイヤーが山籠りして機械学習エンジニアになった話 - 新卒ポーカープレイヤーの日記
    • 物体認識モデルYOLOv3を軽く凌駕するYOLOv4の紹介 - ほろ酔い開発日誌

      はじめに 先月、YOLOv4が公開されました。位置づけとしては、物体認識のポピュラーなモデルの1つであるYOLO系統の最新版となります。結果がすごいのはぱっと見分かりましたし、内容も既存の手法をサーベイ・実験頑張って、精度上げていったんだなあくらいのさら読みはしていましたが、もう少しちゃんと読んでおこうと思い、読んでみたので紹介します。 私自身は物体認識の研究者というわけではないですが、なんだかんだ物体認識周りの記事をいくつか書いているので興味のある方は以下もご参照下さい。 note.com note.com [DL輪読会]Objects as Points from Deep Learning JP www.slideshare.net さて、このYOLOv4ですが、元々のYOLOの作者であるJoseph Redmon氏は著者ではありません。Jeseph Redmon氏は研究の軍事利用や

        物体認識モデルYOLOv3を軽く凌駕するYOLOv4の紹介 - ほろ酔い開発日誌
      • Deep Learning ideas that have stood the test of time

        Deep Learning is such a fast-moving field and the huge number of research papers and ideas can be overwhelming. The goal of this post is to review ideas that have stood the test of time. These ideas, or improvements of them, have been used over and over again. They’re known to work. If you were to start in Deep Learning today, understanding and implementing each of these techniques would probably

        • テンセントの広告技術が未来すぎる!AdKDD2019のテンセントAds招待講演まとめ - Gunosyデータ分析ブログ

          研究開発チームインターンの北田 (shunk031) です。アメリカのアラスカにて行われたKDD2019に参加・発表してきました。 www.kdd.org KDD2019の広告分野のワークショップであるAdKDD2019では、世界を牽引するアドテク企業が複数招待講演を行いました。 www.adkdd.org その中でも Tencent Ads: Interesting Problems and Unique Challengesにおいて、テンセントの広告チーム(テンセント Ads)の取り組みが未来過ぎたため、資料に取り上げられている技術を中心にまとめて報告させていただきます。 特に驚くべきは動画に対して広告対象の商品画像を自動で合成する VideoIn Ads は眼を見張るものがありました。ぜひこの記事を一読していただき、一緒に未来を感じてほしいです (そしてそれ以上のものを作っていきたい

            テンセントの広告技術が未来すぎる!AdKDD2019のテンセントAds招待講演まとめ - Gunosyデータ分析ブログ
          • 物体検出のDeepLearning読むべき論文7選とポイントまとめ【EfficientDetまでの道筋】 - Qiita

            お久しぶりです。 2012年のHintonさんのAlexNetによるILSVRCでの圧勝を皮切りに、画像認識の世界でもDeepLearningが脚光を浴びることとなりました。 物体検出の世界でも現在DeepLearningを用いたモデルが主流になっています。 https://paperswithcode.com/sota/object-detection-on-coco を見ると、 COCO test-devにおいて、state-of-the-art(SoTA)のモデルはEfficientDet-D7xのようです。 独断と偏見も少々ありますが、そのEfficientDetを理解するために読むべき論文を7つ集めてみました。 DeepLearning以降の物体検出に焦点を当てて、出来るだけ簡潔につらつらと書いていきたいと思います。 物体検出とは 物体検出について知らないという人は以下の動画を見

              物体検出のDeepLearning読むべき論文7選とポイントまとめ【EfficientDetまでの道筋】 - Qiita
            • Zero-shot Learning網羅的サーベイ:CLIPが切り開いたVision & Languageの新しい世界 - エクサウィザーズ Engineer Blog

              こんにちは! 画像システムグループで機械学習エンジニアをやっている小島です。 この記事では、今ホットな「Zero-shot Learning」と「Vision & Language」に関する最新情報を、CLIPという研究を起点として網羅的にサーベイをしていきます。このために論文1000本に目を通し、70本程度を記事にしました。 Zero-shotやVision & Languageは、Stable Diffusionに代表される画像生成AIとも密接に関連している技術です。この記事を通して、Vision & Languageの奥深い世界を体感できるでしょう。 注意事項 この記事は非常に長いため、全部読むのに1時間以上かかる可能性があるので、休憩を取りながら、または必要な部分だけ読んでください。各セクションを個別に読んでも問題ありません。 また、文章中の画像は、特別な記載がない限り、引用元の論

                Zero-shot Learning網羅的サーベイ:CLIPが切り開いたVision & Languageの新しい世界 - エクサウィザーズ Engineer Blog
              • 画像ディープラーニングの始め方(画像系AIの概要理解からUdemy受講, E資格取得まで) - Qiita

                本記事の目的 もともと本業でデータサイエンスやディープラーニングを扱っていたわけでもなく、ディープラーニング周りは「なんとなく知っている」という状態。ちゃんと勉強したいと思いながらもなかなか手が出ず、モデル実装の経験もない。 上記の状態から、この1年間くらいでやっと、初めてディープラーニング実装の経験をするところまでたどり着いた。とりあえずデータサイエンスの入口に立てた(かもしれない)ということで、整理のためここまで取り組んできたことをまとめてみた。 これから勉強を始める、誰かのために役立てば嬉しい。 <画像ディープラーニングの始め方> ◇ ステップ1. 画像系AIの全体像を把握する ◇ ステップ2. 画像分類を実装してみる ◇ ステップ3. 理論をフォローアップする ◇ ステップ4. 実装の経験を積む ステップ1.画像系AIの全体像を把握する とりあえず初心者向けの書籍や動画などを見て全

                  画像ディープラーニングの始め方(画像系AIの概要理解からUdemy受講, E資格取得まで) - Qiita
                • コンピュータビジョン(CV)の動向 2021 | gihyo.jp

                  はじめに 国立研究開発法人 産業技術総合研究所の人工知能研究センターに所属している、片岡裕雄と申します。研究者としてコンピュータビジョン(CV)やパターン認識に関する研究を行う一方で、研究コミュニティcvpaper.challengeを主宰して「CV分野の今を映し、トレンドを創り出す」ことにも挑戦しています。cvpaper.challengeには最新動向の日本語サーベイ資料や研究メンバーによる研究成果も載せています。今回の記事に書ききれない、より詳細な情報はぜひそちらをご覧ください。 今回の記事については、出身大学の大先輩・皆川卓也氏から話を受けて実現しました。皆川氏は2010年にコンピュータビジョンの業界動向を寄稿されているのですが、今回恐れ多くもその企画を受け継ぐことになりました。 それから11年、深層学習の隆盛とともに発展してきたCV分野の動向を述べるにはあまりにも紙面が限られていま

                    コンピュータビジョン(CV)の動向 2021 | gihyo.jp
                  • エッジで機械学習ってなんだろう -ブラウザ、スマホ、IoT機器での推論を概観する- - Qiita

                    本内容は、技術書典7 合同本『機械学習の炊いたん2』収録の、「エッジで機械学習」記事を公開したものです。内容は2019年9月時点の調査等に基づきます。 最近Raspberry Pi 4の検証結果などをみていると、エッジ、かつCPUでもそれなりの速度で動くケースもみられます。またこの後にM5StickV(K210)などを触りましたが、専用チップも使い所があります。今後、それらの動きもできれば補足したいと思います。 9/12-22に開催された技術書典9では、新刊『機械学習の炊いたん3』を頒布しました。私は、「AIエンジニア、データサイエンティストのための経営学、ソフトウェア工学」を寄稿しています。他にも機械学習のビジネス、エンジニアリング、数理までもりだくさん。気になられたら、ぜひご覧ください! 他にも、技術書典9「機械学習、データ分析」系の新刊リスト - Qiitaの通り、たくさんの本が出品

                      エッジで機械学習ってなんだろう -ブラウザ、スマホ、IoT機器での推論を概観する- - Qiita
                    • 機械学習を使ってUIを補完するAppleの研究の紹介 - dely Tech Blog

                      TRILL開発部のiOSエンジニアの石田です。 今年もdelyではアドベントカレンダーを行っており、本記事はその2日目の記事となっています。 昨日の1日目の記事は奥原さん (@okutaku0507) の「プロダクトマネージャー3年目の教科書」という記事でした。delyのエースPdMである奥原さんによる大作となっていますので是非ご覧ください。 本記事では、機械学習を使ってUIを補完するAppleの研究について紹介します。 AppleはMachine Learning Researchで機械学習に関する様々な研究を発表しています。 その多くはコンピュータビジョンや音声・テキスト認識のような研究なのですが、機械学習xUIという研究も行っております。 本記事ではその中でも、アプリのスクリーンショット(画像)から機械学習を使ってUIコンポーネントを認識し、アクセシビリティ機能を補完するMaking

                        機械学習を使ってUIを補完するAppleの研究の紹介 - dely Tech Blog
                      • Document AIを巡る技術とLayerXにおける可能性 - LayerX エンジニアブログ

                        初めまして。機械学習エンジニアの島越@nt_4o54です。現在はMLチームで日々、バクラクシリーズで用いられているAI-OCR機能の改善や新規機能の開発などを行なっています。 7月はLayerXエンジニアブログを活発にしよう月間ということで、自分からは表題にもある通り、「Document AI」と呼ばれる技術についての紹介と、またLayerXにおいてどういう応用先があるのかというお話をさせていただこうと思います。 ※ 同名のDocument AIというGCPのサービスがありますが、今回は一般的なDocument AIの話になります。 Document AIとは Document AIに用いられる技術 Optical Character Recognition (OCR) Document Classification Layout Analysis Document Parsing Tab

                          Document AIを巡る技術とLayerXにおける可能性 - LayerX エンジニアブログ
                        • コンピュータビジョン分野のトップカンファレンスであるECCV2022の論文紹介(後編) - NTT Communications Engineers' Blog

                          目次 目次 はじめに ECCV2022のトラッキング論文 ピックアップした論文 Towards Grand Unification of Object Tracking Tracking Objects As Pixel-Wise Distributions Particle Video Revisited: Tracking through Occlusions Using Point Trajectories XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model 最後に はじめに この記事は前回の記事の後編です。ECCV2022で紹介されたトラッキングに関する論文をいくつかご紹介します。 engineers.ntt.com ECCV2022のトラッキング論文 1645本の論文の中

                            コンピュータビジョン分野のトップカンファレンスであるECCV2022の論文紹介(後編) - NTT Communications Engineers' Blog
                          • コンピュータビジョン分野における世界最高峰の国際会議CVPR2022の論文紹介(後編) - NTT Communications Engineers' Blog

                            目次 目次 はじめに 論文紹介 The Norm Must Go On: Dynamic Unsupervised Domain Adaptation by Normalization OcclusionFusion: Occlusion-aware Motion Estimation for Real-time Dynamic 3D Reconstruction EPro-PnP: Generalized End-to-End Probabilistic Perspective-N-Points for Monocular Object Pose Estimation Cascade Transformers for End-to-End Person Search TrackFormer: Multi-Object Tracking With Transformers Global T

                              コンピュータビジョン分野における世界最高峰の国際会議CVPR2022の論文紹介(後編) - NTT Communications Engineers' Blog
                            • 最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you

                              こんにちは。@shunk031 です。 普段は最先端の技術が大好きなパソコンのオタクですが、京都へ旅行して古き良き日本の文化に感化されました。 この記事は 法政大応情 Advent Calendar 2020 21 日目の記事です。 From http://codh.rois.ac.jp/ 今回は日本古典籍の分類タスクについて取り組んでみようと考え、近年の日本古典籍における「くずし字認識」に着目して調査をしました *1。 日本古典籍といった古文書に対して、OCR 等の文字認識技術によって文字情報をデジタル化し、それらの情報をもとに解析を行う流れは現代では自然だと考えています。 しかしながら、一般的に OCR は難しく、また古文書を機械に解析させることはさらなる困難があるのは容易に想像できます。 くずし字認識に対して、近年の取り組みでは ROIS-DS 人文学オープンデータ協働センターが K

                                最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you
                              • コンピュータビジョンの最新論文調査 2D Human Pose Estimation 編 | BLOG - DeNA Engineering

                                はじめに こんにちは、AIシステム部でコンピュータビジョンの研究開発をしている加藤です。我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回は 2D Human Pose Estimation 編として加藤直樹 ( @nk35jk ) が調査を行いました。 本記事では 2D Human Pose Estimation に関する代表的な研究事例を紹介するとともに、2019年10月から11月にかけて開催されたコンピュータビジョンのトップカンファレンスである ICCV 2019 に採録された 2D Human Pose Estimation の最新論文を紹介します。 過去の他タスク編については以下をご参照ください。 Human Recognition 編 (2019/04/26) 3D Vision 編 (2019/06/04) キーポイント検

                                  コンピュータビジョンの最新論文調査 2D Human Pose Estimation 編 | BLOG - DeNA Engineering
                                • 五等分の花嫁をAIで予想してみた - Qiita

                                  若干釣りタイトルです。深層学習による画像認識をAIと呼ぶか否か問題。 背景 五等分の花嫁の原作の方がだいぶ佳境ですね。 この前12巻が発売されましたが、作者によると14巻で完結とのこと。 だらだら続けるよりは良いんでしょう。名残惜しいけど。 さて、五等分の花嫁と言えば可愛い五つ子ちゃんたちを終始眺めるのも乙なもんですが、一応本作のテーマは「未来の花嫁は誰になるのか?」です。 劇中にも花嫁が何回か出てきてはいるけどもそこは五つ子、ウェディングドレスじゃ誰か分からないわけです。 人の目には誰か分からなくてもAIならば誰か当てられるのでは…?と言うのがこの記事の主題になっています。 実はアニメから入っていて、アニメを観ていた当初そんなネタで記事書いたらバズらないかなーとか何とか思ってたのですが、アイデアを温め、もといめんどくさがってたらいつの間にか師走に入ってました。アニメが今年の初めだったこと

                                    五等分の花嫁をAIで予想してみた - Qiita
                                  • 物体検出について読むならこれ! - Qiita

                                    Deep Learning論文多すぎませんか? 「物体検出のためのDeep Learning論文」だけでも多すぎませんか? 多すぎて全容を把握できないせいで、逆に R-CNN, YOLO, SSD, CornerNet とその発展ばかり紹介されてませんか? いやー、物体検出のためのDeep Learningについての良いサーベイがあると良いんですけどねー。 という方におすすめなのがこちら! Deep Learning for Generic Object Detection: A Survey [Li Liu+, IJCV2019] https://arxiv.org/abs/1809.02165 https://doi.org/10.1007/s11263-019-01247-4 日本語訳しておきました! https://shinya7y.github.io/note/detection

                                      物体検出について読むならこれ! - Qiita
                                    • ディープラーニングの先端技術、マルチモーダルの日本語モデルを作ってみた【日本語VL-T5】 - Qiita

                                      要点 マルチモーダル深層学習って何?Vision-Language Modelって何?という方向けに、 Google Colabで実際に学習済みモデルを動かしながら技術概要を理解していただけるチュートリアル記事です。 マルチモーダルの時代が到来 この10年、ディープラーニングの登場により、画像の分類や、文章読解(日本語等の自然言語によるQA)などが高い精度で自動化できるようになりましたね。 しかし、画像は画像、自然言語は自然言語・・・と、それぞれに特化した手法の開発が中心で、それらが混在したマルチメディア(マルチモーダル)の問題へのチャレンジは少ない状況に長らくありました。マルチモーダルの重要性は人間の様々な知的判断の場面を思い返せば分かりますね。実課題解決において重要なAI技術分野といえます。 シングルモーダルが中心だった潮目はこの1年くらいで変わり、昨今、マルチモーダルな深層学習モデル

                                        ディープラーニングの先端技術、マルチモーダルの日本語モデルを作ってみた【日本語VL-T5】 - Qiita
                                      • TensorFlow 2 meets the Object Detection API

                                        https://blog.tensorflow.org/2020/07/tensorflow-2-meets-object-detection-api.html https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhKis9ECId8eIwn_p0SVMBt3a1vfvKOcOZXy6zK0fWoyzXnzQTguKc2CV__6oI1Pwg22NjWsErpDKqjwQdzjilvmqwWkXPj2ncglphh6mAhpoZ_QXQiDwxnwo-GjKEP0fEOb3uBlNlh9sc/s1600/tensorflow2objectdetection.png July 10, 2020 — Posted by Vivek Rathod and Jonathan Huang, Google Research At the

                                          TensorFlow 2 meets the Object Detection API
                                        • 物体検出器 EfficientDet をブラウザで高速推論 - OPTiM TECH BLOG

                                          R&D チームの奥村(@izariuo440)です。EfficientDet がブラウザで動いているのを見たことがなかったので、やってみました。以下はブラウザで実行中の様子1です。 結果として、EfficientDet-D0 で 256x256 の解像度の画像を TensorFlow Lite で推論させると、ネイティブで 20 FPS、WebAssembly SIMD support ありの Chrome で 7 FPS 程度の速度性能を確認できました。 Case XNNPACK XNNPACK スレッド数 FPS A OFF N/A 4 B ON 1 15 C ON 4 20 測定環境は MacBook Pro (Retina, 15-inch, Mid 2015) の 2.5 GHz です。 背景と動機 周辺知識 EfficentDet EfficientDet の精度 Effici

                                            物体検出器 EfficientDet をブラウザで高速推論 - OPTiM TECH BLOG
                                          • AI女子、無料GPUでYOLO v3はじめました。 - Qiita

                                            はじめに AIスタートアップでWEBアプリ開発をやりながら、pythonとAIを勉強中です。 画像認識でやりたいことがあり、まずは開発環境の構築とアルゴリズムを使ってみるところまでを実践しました。 今回やりたいこと YOLOv3を使う 無料でGPUを使う YOLOとは 物体検出アルゴリズムのうちの1つです。(物体検出は他にFaster R-CNNやSSDなどのアルゴリズムがあります。) YOLOの特徴は、速くて高精度なことで、現在v3が最新バージョンです。 今回ニューラルネットフレームワークはDarknetを使ます。(フレームワークは他に、TensorflowやChainer、Caffeなどがあります。) ちなみに、YOLOはYou only look onceの略で、You only live once(人生一度きり)をもじっているそうです。 YOLOで物体検出する Darknetのイン

                                              AI女子、無料GPUでYOLO v3はじめました。 - Qiita
                                            • 画像の中の文字を見つけるのって今どんな感じなの?まとめてみたんご - Qiita

                                              AdventCalender論文2日目担当のCurryです! 今回は画像の中の文字を見つける技術の昔と最新をまとめました。 意外と文字検出の論文紹介ってないんじゃね!?っていう 画像は参照サイト(各章の先頭のURL)、論文中から引っ張ってきてます 文字検出 画像の中の文字を見つけるのは 文字検出 と呼ばれます。英語では Text Detection とか Text Localization という。 つまりこんなタスク。オレンジ線が文字を囲めてるので、検出ができたと判断できる。 入力画像 出力 文字検出の難しさは、以下のようによく言われる。(いわゆる論文のイントロの謳い文句) 1. 文字の多様性 2. 文字の色 3. 文字のコントラストや背景との混同 4. 文字の大きさが違う 5. 文字の方向(いわゆるアルファベットが斜めになっていたり) ちなみに、、、 文字認識 は文字を判別することなの

                                                画像の中の文字を見つけるのって今どんな感じなの?まとめてみたんご - Qiita
                                              • インターンシップでマルチA100 GPUサーバをぶん回してみた - NTT Communications Engineers' Blog

                                                はじめに 2月14日から25日までの2週間、NTTコミュニケーションズのインターンシップに参加させていただいた八木です。普段は大学院で画像処理の高速化に関する研究をしています。インターンシップでは技術コースのうち「AI/MLシステムとの統合を志向した、メディアAI技術の研究開発」ポストに応募しました。全日リモートでの参加で、joinしたチームのマルチA100 GPUサーバなどを用いて画像認識モデルを学習し、NTT Com で独自に構築しているデータセットでその性能評価をしました。この記事では、その体験談を記載します。 インターンシップまでの経緯 就活イベントで NTT Com の紹介を聞いたのですが、そこで色々と説明してくださった社員の方からメディアAI技術開発チームを紹介してもらい、後日今回のメンターさんらと懇談していただきました。その際、チームの紹介を受け興味を持ち、このインターンシッ

                                                  インターンシップでマルチA100 GPUサーバをぶん回してみた - NTT Communications Engineers' Blog
                                                • Google wins MLPerf benchmark contest with fastest ML training supercomputer | Google Cloud Blog

                                                  Google breaks AI performance records in MLPerf with world's fastest training supercomputer Fast training of machine learning (ML) models is critical for research and engineering teams that deliver new products, services, and research breakthroughs that were previously out of reach. Here at Google, recent ML-enabled advances have included more helpful search results and a single ML model that can t

                                                    Google wins MLPerf benchmark contest with fastest ML training supercomputer | Google Cloud Blog
                                                  • ONNX 2020 - OPTiM TECH BLOG

                                                    R&D チームの奥村(@izariuo440)です。相変わらず深層学習モデルの推論に取り組んでいます。深層学習モデルの推論器として二年前に ONNX Runtime を軽くレビューしましたが、当時と比較するとかなり進歩しており、ONNX Runtime だけでなく ONNX 自体や関連ソフトウェアも成熟が進んでいるので、備忘録として私がお世話になっているものをかいつまんで紹介します。 OPTiM TECH BLOG Advent Calendar 2020 12/18 の記事です。 ONNX や ONNX Runtime は二年前の記事で少し解説しています。必要に応じてご参照ください。 tech-blog.optim.co.jp ONNX チュートリアル ONNX Model Zoo オプティマイザ その他 ONNX 関連のソフトウェア ONNX Runtime onnx-tensorrt

                                                      ONNX 2020 - OPTiM TECH BLOG
                                                    • MMDeployでJetson AGX Orinの物体検出速度をAGX Xavierと比較してみた - NTT Communications Engineers' Blog

                                                      目次 目次 はじめに MMDetectionとは MMDeployとは 実験内容 利用したモデル 計測結果 まとめ はじめに イノベーションセンターの加藤です。普段はコンピュータビジョンの技術開発やAI/MLシステムの検証に取り組んでいます。 今年登場したJetsonの最新版モデル「Jetson AGX Orin」は、前世代である「Jetson AGX Xavier」シリーズの最大8倍のパフォーマンス1、ビジョンや自然言語処理など様々な学習済みモデルにおいては最大5倍の高速化2が謳われており、エッジデバイス上で動かせるAIアプリケーションの幅がかなり広がりそうです。普段メディアAIに取り組んでいる私としてはどのレベルまでの物体検出モデルがエッジ上で動かせるようになったのかが気になりました。そこで本記事ではMMDetectionの提供する物体検出モデルをNVIDIA TensorRTを用いて

                                                        MMDeployでJetson AGX Orinの物体検出速度をAGX Xavierと比較してみた - NTT Communications Engineers' Blog
                                                      • Python作者 Guido氏インタラクティブ記念講演会レポート | gihyo.jp

                                                        本レポートではメインコンテンツである、3つの「Guidoさんに○○」について簡単にレポートします。 GuidoさんにQ&A 「GuidoさんにQ&A」のコーナーでは、質問を参加者から事前にフォームで集め、そのうちいくつかの質問をピックアップし、その場でGuidoさんに回答してもらいました。MCはJDLAのシバタアキラさんとPyCon JP AssociationのJonasさんです。 Q&Aの様子 質問に使用したスライドは以下のページで公開しています。 GuidoさんにQ&A 全部で7つの質問をしました。質問を投稿してくれたみなさん、ありがとうございます。ここではいくつかの質問とその回答を紹介します。 「他の人に使ってもらうツール」に大切なこと 質問:「他の人に使ってもらうツール」を作る上で大切なことは何だと思いますか? Guidoさん:他の人が何を望んでいるかを知ることは難しく、まずは自

                                                          Python作者 Guido氏インタラクティブ記念講演会レポート | gihyo.jp
                                                        • [翻訳]AI生成コンテンツの総合調査:GANからChatGPTまでのGenerative AIの歴史|株式会社ガラパゴス

                                                          原文の総文字数15万字超え!生成AI研究の歴史をまとめた論文をChatGPTを使って翻訳しました。ところどころ日本語がおかしいところもありますが、15万もの文字翻訳するのめんどくさい!という方、参考程度にご覧ください。ポイントだけ読み進めるとサクッと把握できます。 こちらの翻訳です 本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。 脚注、参考文献、Appendixなどは本文をご覧ください。 概要【POINT1】ChatGPTはAIGCのカテゴリに属し、効率的で高品質なコンテンツ作成をします。 【POINT2】大規模モデルの利用で、意図抽出や生成結果が向上し、現実に近いコンテンツが生まれます。 【POINT3】この調査では、生成モデルの進歩や未解決の問題・将来の課題について解説しています。 最近、ChatGPT は、DALL-E-2 [1]や

                                                            [翻訳]AI生成コンテンツの総合調査:GANからChatGPTまでのGenerative AIの歴史|株式会社ガラパゴス
                                                          • 【開催報告】ML@Loft #4 (Edge) | Amazon Web Services

                                                            AWS Startup ブログ 【開催報告】ML@Loft #4 (Edge) こんにちは、スタートアップソリューションアーキテクトの針原 (Twitter: @_hariby) です。7月19日に AWS Loft Tokyo で開催された機械学習のコミュニティイベント ML@Loft の第4回では Edge Deep Learning をはじめとした技術についての話が盛り上がりました。興味はあったけど予定が合わなかった、という方のために内容をまとめたいと思います。 ML@Loft は機械学習のお悩み相談イベントで、目黒の AWS Loft Tokyo で2019年4月より毎月開催されています。もともとは AWS をお使いのお客さまが、サービスの中に機械学習を取り入れて開発・運用していく際のお悩を気軽に相談できる場が欲しい、ということで始まったイベントです。登壇者 (相談役) が自己紹介

                                                              【開催報告】ML@Loft #4 (Edge) | Amazon Web Services
                                                            • たった1枚の画像から「まるでカメラ自体が動いているかのように視点が動く画像」を作り上げる技術が誕生

                                                              ニューラルネットワークを活用して、たった1枚の写真からまるで撮影しているカメラが動いて視点の位置が変わったように見える画像を作り出す、「3D Ken Burnsエフェクト」という技術が開発されました。 [1909.05483] 3D Ken Burns Effect from a Single Image https://arxiv.org/abs/1909.05483 Simon Niklaus - 3D Ken Burns Effect from a Single Image http://sniklaus.com/papers/kenburns 開発された3D Ken Burnsエフェクトがどんなものかは以下のムービーを見ればわかります。 元の画像は、ウェディングドレス姿の女性とフラワーガールを少し離れた位置から撮影したもの。 3D Ken Burnsエフェクトを使うと、元の画像から

                                                                たった1枚の画像から「まるでカメラ自体が動いているかのように視点が動く画像」を作り上げる技術が誕生
                                                              • How Disney uses PyTorch for animated character recognition

                                                                Authors: Miquel Àngel Farré, Anthony Accardo, Marc Junyent, Monica Alfaro, Cesc Guitart at Disney Disney’s Content GenomeThe long and incremental evolution of the media industry, from a traditional broadcast and home video model, to a more mixed model with increasingly digitally-accessible content, has accelerated the use of machine learning and artificial intelligence (AI). Advancing the implemen

                                                                  How Disney uses PyTorch for animated character recognition
                                                                • 【速報】知識ゼロでもデータを用意するだけで機械学習が可能に。end to end MLサービス「Amazon SageMaker JumpStart」登場。 #reinvent | DevelopersIO

                                                                  せーのでございます。 今年のre:Invent 2020は機械学習が花盛りで、SageMaker系のサービスだけでも Amazon SageMaker Data Wrangler Amazon SageMaker Pipeline Amazon SageMaker Feature Store Deep Profiling for SageMaker Debugger Amazon SageMaker Clarify Amazon SageMaker Edge Manager と、追いかけるだけで大変なことになっています。 ここでそのSageMaker祭りで疲れた体に水ビンタかますようなサービスが登場したのでご紹介します。 その名も「SageMaker JumpStart」です。 ここまできたか。。。 SageMaker JumpStartはオープンソースにある既にトレーニングされた機械学習

                                                                    【速報】知識ゼロでもデータを用意するだけで機械学習が可能に。end to end MLサービス「Amazon SageMaker JumpStart」登場。 #reinvent | DevelopersIO
                                                                  • The Best GPUs for Deep Learning in 2023 — An In-depth Analysis

                                                                    OverviewThis blog post is structured in the following way. First, I will explain what makes a GPU fast. I will discuss CPUs vs GPUs, Tensor Cores, memory bandwidth, and the memory hierarchy of GPUs and how these relate to deep learning performance. These explanations might help you get a more intuitive sense of what to look for in a GPU. I discuss the unique features of the new NVIDIA RTX 40 Amper

                                                                      The Best GPUs for Deep Learning in 2023 — An In-depth Analysis
                                                                    • PyTorch MobileがプロトタイプでNNAPIに対応したので試してみる - OPTiM TECH BLOG

                                                                      まえがき プレイ時間200時間にして念願の初ソロドン勝を達成しもう思い残すことはないR&Dチームの宮﨑です。 ちょうど一か月ほど前の11/13にPyTorch Mobileが(プロトタイプですが)Android NNAPIをサポートというアナウンスがありました。公式によると10倍高速化されたケースもあるとのことで、さっそくチュートリアルのベンチマークを走らせてみました! OPTiM TECH BLOG Advent Calendar 2020 12/14の記事です。 まえがき PyTorch Mobileとは NNAPIとは PyTorch MobileをNNAPIに対応させる手順 NNAPIの性能計測までの流れ ベンチマーク結果 最後に PyTorch Mobileとは 対応する演算子の豊富さや書きやすさなどから人気を誇るPyTorchですが、ここ最近はPyTorchモデルをC++/Mo

                                                                        PyTorch MobileがプロトタイプでNNAPIに対応したので試してみる - OPTiM TECH BLOG
                                                                      • コンピュータビジョンの最新論文調査 Object Tracking 編 | BLOG - DeNA Engineering

                                                                        はじめに こんにちは、AIシステム部でコンピュータビジョン研究開発をしている唐澤(@Takarasawa_)です。 我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回はObject Tracking編として唐澤 拓己が調査を行いました。 過去の他タスク編については以下をご参照ください。 Human Recognition 編 3D Vision 編 キーポイント検出の手法を用いた物体検出編 論文調査のスコープ 2018年11月以降にarXivに投稿されたコンピュータビジョンに関する論文を範囲としており、その中から重要と思われるものをピックアップして複数名で調査を行っております。今回は主にObject Tracking技術に関する最新論文を取り上げます。 Object Tracking の位置付け Object Tracking とは物体

                                                                          コンピュータビジョンの最新論文調査 Object Tracking 編 | BLOG - DeNA Engineering
                                                                        • ディープラーニングを支える技術 ——「正解」を導くメカニズム[技術基礎]

                                                                          2022年1月8日紙版発売 2021年12月24日電子版発売 岡野原大輔 著 A5判/304ページ 定価2,948円(本体2,680円+税10%) ISBN 978-4-297-12560-8 Gihyo Direct Amazon 楽天ブックス ヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ 楽天kobo honto 本書のサポートページサンプルファイルのダウンロードや正誤表など この本の概要 初学者の方々に向けた,ディープラーニングの技術解説書。 2012年に一般画像分類コンテスト(ILSVRC)で衝撃的な性能を達成したAlexNetの登場以来,急速な進化を遂げているディープラーニング。現在の人工知能/AIの発展の中核を担っており,スマートフォンからIoT,クラウドに至るまで幅広い領域で,画像,音声,言語処理をはじめ

                                                                            ディープラーニングを支える技術 ——「正解」を導くメカニズム[技術基礎]
                                                                          • コンピュータビジョンの最新論文調査 Segmentation 編 | BLOG - DeNA Engineering

                                                                            はじめに こんにちは、AIシステム部でコンピュータビジョンの研究開発をしている唐澤です。 我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回は Segmentation 編として唐澤 拓己(@Takarasawa_)、葛岡 宏祐(facebook)、宮澤 一之(@kzykmyzw)が調査を行いました。 過去の他タスク編については以下をご参照ください。 Human Recognition 編 3D Vision 編 キーポイント検出の手法を用いた物体検出編 Object Tracking 編 論文調査のスコープ 2018年11月以降にarXivに投稿されたコンピュータビジョンに関する論文を範囲としており、その中から重要と思われるものをピックアップして複数名で調査を行っております。今回は主に Segmentation 技術に関する最新論文を

                                                                              コンピュータビジョンの最新論文調査 Segmentation 編 | BLOG - DeNA Engineering
                                                                            • How to Train a TensorFlow 2 Object Detection Model

                                                                              With the recent release of the TensorFlow 2 Object Detection API, it has never been easier to train and deploy custom state of the art object detection models with TensorFlow. To build a custom model you can leverage your own custom dataset to detect your own custom objects: foods, pets, mechanical parts, and more. In this blog and TensorFlow 2 Object Detection Colab Notebook, we walk through how

                                                                                How to Train a TensorFlow 2 Object Detection Model
                                                                              • [損失関数]Huber損失(Huber Loss)/Smooth L1 Lossとは?

                                                                                図1 「Huber損失」のグラフ(横軸:入力値=誤差、縦軸:出力値=損失) 比較しやすいようにグラフ内に3種類の線を描いた。 ・青色の線: Huber損失=下記2つの弱点を克服した ・オレンジ色の線: MAE(平均絶対誤差)/L1損失=0地点で「微分不可能」で、0に近い場所でも勾配が大きいという弱点がある ・緑色の線: MSE(平均二乗誤差)=外れ値に敏感という弱点がある(例えば横軸の入力値が3のとき、縦軸の出力値は9と非常に大きな値となりグラフからはみ出している) Smooth L1 Lossとは Huber損失に密接に関係する損失関数にSmooth L1 Loss(滑らかなL1損失)がある。Smooth L1 Lossは、Huber損失の計算式にあるδに1.0を指定した場合と同じ計算式となる。Smooth L1 Lossは、例えばモデルアーキテクチャ「Fast R-CNN」の損失関数と

                                                                                  [損失関数]Huber損失(Huber Loss)/Smooth L1 Lossとは?
                                                                                • ビジョン技術の実利用ワークショップ「ViEW2023」参加報告 - NTT Communications Engineers' Blog

                                                                                  この記事は、NTTコミュニケーションズ Advent Calendar 2023 25日目の記事です。 はじめに こんにちは、イノベーションセンター テクノロジー部門 メディアAI PJ所属の和田、小林です。 普段は画像/映像/言語/音声 等メディアを入力としたAI技術(メディアAI技術)を用いて、事業部/関連部支援や最新技術の調査/研究開発を行なっています。 今回は技術調査の一環として参加した「ViEW2023」について、ワークショップの概要や発表された論文について紹介したいと思います。 ViEW2023は2023年12月7日~8日にパシフィコ横浜で開催されました。詳細は下記サイトをご覧ください。 ViEW2023 公式Webサイト https://view.tc-iaip.org/view/2023/index.html . 目次 はじめに 目次 ViEWについて 流行りのテーマ 小田

                                                                                    ビジョン技術の実利用ワークショップ「ViEW2023」参加報告 - NTT Communications Engineers' Blog