並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 2217件

新着順 人気順

computer_visionの検索結果41 - 80 件 / 2217件

  • Stable Diffusionの内容を理解するための情報・書籍 - karaage. [からあげ]

    Stable Diffusion完全に理解した 画像生成AIで話題のStable Diffusion、完全に理解した状態になりたいですね。私もです。夜な夜な、Stable Diffusion睡眠不足になりながらの自分の理解は以下です。 Stable DiffusionというAIモデルは、上記のように、2つのモデルで構成されています。凄いのがDiffusion Modelとよばれるもので、これはランダムノイズ的な画像から、クオリティの高い絵を生成することができます。 ただ、このままだとどんな絵が生成されるか分からないので、絵をコントロールするために、プロンプト(自然言語)をCLIPと呼ばれるTransformerのモデルに入力して、埋め込みベクトルに変換します。このベクトル情報をDiffusion Modelに入れてやることで、自分の好きな画像を生成することができます。 無理やりカメラとの対

      Stable Diffusionの内容を理解するための情報・書籍 - karaage. [からあげ]
    • RNNからTransformerまでの歴史を辿る ~DNNを使ったNLPを浅く広く勉強~ - arutema47's blog

      Amazon Prime 一ヶ月無料 Seq2seqからBERTまでのNLPモデルの歴史をざっとまとめる。 DNNは知ってるけどTransformerってなんだかわからない、って人におすすめです。 Abst. 画像認識にもTransformerが使われることが多く、DeepRLやGPT-3といったNLPモデルも身近になってきています。"Attention is 何?"と言えなくなってきたので勉強しました。 Feedforward NetworksからSeq2Seq, Attention機構からTransformer登場、そしてBERT GPTといった最新モデルまでの流れを広く浅く記述する予定。 またKaggle NLPコンペの上位解法から利用例を探る。 Tl;DR TransformerはSelf-Attentionという機構でデータ内の時系列的特徴を抽出でき、従来のRNNを始めとするNN

        RNNからTransformerまでの歴史を辿る ~DNNを使ったNLPを浅く広く勉強~ - arutema47's blog
      • PyTorch vs TensorFlow in 2023

        Should you use PyTorch vs TensorFlow in 2023? This guide walks through the major pros and cons of PyTorch vs TensorFlow, and how you can pick the right framework. PyTorch and TensorFlow are far and away the two most popular Deep Learning frameworks today. The debate over which framework is superior is a longstanding point of contentious debate, with each camp having its share of fervent supporters

          PyTorch vs TensorFlow in 2023
        • MIT、人種差別的と批判された大規模画像データセット「Tiny Images」をオフラインに

          米マサチューセッツ工科大学(MIT)は6月29日(現地時間)、多数のAIシステムのトレーニングに利用されてきた8000万点以上の画像を集めたデータセット「Tiny Images」をオフラインにしたと発表した。カテゴライズの用語に差別的なものがあると指摘されたため。 MITのアントニオ・トラルバ教授は声明文で、「影響を受けた可能性のある人々に謝罪する」と語った。 問題を指摘したのはプライバシー関連の米新興企業UnifyIDのチーフサイエンティスト、ビナイ・プラブー氏とアイルランド国立大学ダブリン校のアベバ・ビルハネ教授。両氏は6月25日、「Large image datasets: A pyrrhic win for computer vision?」(リンク先はPDF)という匿名の論文(7月1日に正式版を公開)で、Tiny Imagesに女性の画像に「売春婦」というラベルが付いていたり、黒

            MIT、人種差別的と批判された大規模画像データセット「Tiny Images」をオフラインに
          • ぼやけた顔写真から最大64倍鮮明な画像を生成するAIツールを開発、デューク大研究チーム

            デューク大学の研究チームは、ぼやけて被写体が特定できない顔写真から、これまでの方法よりも精細な、極めて本物に近い画像をコンピュータで生成できるAIツール「PULSE」(Photo Upsampling via Latent Space Exploration)を開発した。 研究チームは、2020年6月14~19日の会期でオンラインで開催中の2020 Conference on Computer Vision and Pattern Recognition(CVPR)で、PULSEのプレゼンテーションを行った。 これまでの方法では、顔写真の解像度は最大8倍にしか高めることができなかった。デューク大学のチームは少数のピクセルからなる顔写真画像の解像度を最大64倍に高める方法を考案した。 研究チームを率いたデューク大学のコンピュータ科学者シンシア・ルーディン氏は「このような低解像度の画像を用いて

              ぼやけた顔写真から最大64倍鮮明な画像を生成するAIツールを開発、デューク大研究チーム
            • The End of Programming – Communications of the ACM

              The end of classical computer science is coming, and most of us are dinosaurs waiting for the meteor to hit. I came of age in the 1980s, programming personal computers such as the Commodore VIC-20 and Apple ][e at home. Going on to study computer science (CS) in college and ultimately getting a Ph.D. at Berkeley, the bulk of my professional training was rooted in what I will call “classical” CS: p

              • カメラにシールを貼るだけでディープラーニングを誤認識させる攻撃方法が登場

                3つの要点 ✔️カメラにシールを貼るだけでディープラーニングを誤認識させることが可能になった ✔️対象物を異なる角度や距離で撮影しても誤認識させられることを動画データで検証 ✔️顔認証用のカメラにシールを貼っておくことでシステムに気づかれずに他人になりすましたりできてしまうかもしれない ディープラーニングによる画像分類は高い性能を誇りますが、画像に摂動を加えるだけで、人間の目ではほぼ違いがないのにディープラーニングが他のカテゴリであると誤認識してしまう adversarial attack という攻撃方法が知られています。 この adversarial attack にどのように対応するかは、実世界でディープラーニングを含んだシステムを運用していく上で重要になるだけでなく、人間の認識とディープラーニングによる認識の違いを理解するのにも重要であり、一つの大きな研究テーマにもなっています。 こ

                • DEEP LEARNING · Deep Learning

                  Description This course concerns the latest techniques in deep learning and representation learning, focusing on supervised and unsupervised deep learning, embedding methods, metric learning, convolutional and recurrent nets, with applications to computer vision, natural language understanding, and speech recognition. The prerequisites include: DS-GA 1001 Intro to Data Science or a graduate-level

                  • AI時代にこそ読みたい画像処理の本 - karaage. [からあげ]

                    AI時代に必要な画像処理の本 今や猫も杓子もAIだディープラーニングだと言われる時代です。特に画像認識だと、とりあえずAIでしょ!みたいな感じはありますが、やはりそのバックグラウンドにある基本的な画像処理は重要なのではないかなと思う今日この頃です。 そんなことを思ったのは、Interface誌2020年7月号の画像処理特集が良かったからです。 Interface(インターフェース) 2020年 07 月号 CQ出版Amazon 気づいている人は気づいていると思うのですが、Interface誌の画像処理特集は毎年の恒例行事です(笑)正直、内容も同じような感じなので(めちゃくちゃ失礼)、今年は買わなくても良いかなと思っていたのですが、YouTube時代の画像処理特集にあった写真の、筆者の身体の張り具合をみて思わず手を出してしまいました。 Interface誌より引用。話題のFaceAppなんて

                      AI時代にこそ読みたい画像処理の本 - karaage. [からあげ]
                    • CV・CG・ロボティクスのためのリー群・リー代数入門: (0) 目次 - swk's log はてな別館

                      セミナー講演と解説論文執筆の機会を頂きました.関係各位に感謝します. コンピュータビジョン (CV), コンピュータグラフィクス (CG), ロボティクスなどで,特に姿勢推定や姿勢制御などを扱う際にリー群,リー代数の知識が必要になることがある. 具体的には,論文などを読んでいると,回転行列,剛体変換行列,射影変換行列などを表す際に当たり前のように行列指数関数が出てきて,何が何だかわからない (AA略),ということがしばしば起きる.これを何とか理解したい. いくつか例を挙げると The matrix $E_\mathcal{CW}$ contains a rotation and a translation component and is a member of the Lie group $SE(3)$, the set of 3D rigid-body transformations.

                        CV・CG・ロボティクスのためのリー群・リー代数入門: (0) 目次 - swk's log はてな別館
                      • Grad-CAMだけじゃない画像認識におけるCAM手法を徹底解説 - ABEJA Tech Blog

                        長期インターン生の木村です。 今回、以前から興味を持っていた画像認識モデルにおける説明可能なAIのクラス活性化マッピング手法を調査してみました。 説明可能なAIとは 近年、深層学習ベースの画像認識モデルは製造業、医療、自動運転など至る場面で社会実装が進められていますが、ディープなラーニングを行っているだけに推論の判断根拠を人間が解釈できない問題があります。医療、自動運転のような命に関わる領域では安全性や公平性を担保できないために安心して導入できません。 このような問題を解決するのが「説明可能なAI(XAI)」です。 「説明可能なAI(XAI)」は、AIの推論結果を人間が解釈可能な形で出力する技術を指します。例えば、犬と猫が映っている画像を画像分類するAIが犬と推論した場合、モデルがどこを判断根拠としているかをヒートマップで可視化します。このヒートマップは、「顕著性マップ」と呼ばれます。 画

                          Grad-CAMだけじゃない画像認識におけるCAM手法を徹底解説 - ABEJA Tech Blog
                        • VRヘッドセットを作っている“中の人”は、「Apple Vision Pro」をどう見た?

                          VRヘッドセットを作っている“中の人”は、「Apple Vision Pro」をどう見た?(1/5 ページ) 米Appleが6月5日(現地時間)に発表したMRヘッドセット「Apple Vision Pro」について、VRヘッドセット「MeganeX」など、VR向けハードウェア製品の開発・販売を手掛ける、Shiftall代表取締役CEOの岩佐琢磨氏から見た視点をコラムとしてお届けする。本稿は、岩佐氏のブログ「キャズムを超えろ! Rev.2」に掲載された記事をもとに加筆していただいたものを、ITmedia NEWS編集部で掲載している。 これはVRヘッドセットではない 米AppleのARヘッドセットが発表されました。正確にはSpatial Computing Device…?(空間コンピューティングデバイス)らしいですが。限られた人しか製品を見ることができず、日本国内でPreview品を見るこ

                            VRヘッドセットを作っている“中の人”は、「Apple Vision Pro」をどう見た?
                          • goによるOCRエンジン実行のまとめ - freee Developers Hub

                            会計フリー周りのエンジニアをしているよーだ(@rtryoda)です。この記事は freee Developers Advent Calendar 2019 の11日目です。最近各ベンダーやOSSのOCRエンジンをgoで触る機会があったので、実行方法と結果をまとめました。 OCRとは OCRとは光学的文字認識(Optical Character Recognition)のことで、画像などに記されている文字を読み取りテキストデータに変換することです。例えば以下のような画像に対してOCRを実行すると"あいうえお 12345"と認識されることを期待します。 ※各OCRの実行にはこちらの画像を使用します。 今回試すOCRエンジン一覧 OCRエンジン 日本語対応 クライアントライブラリ(go) Google Cloud Vision API ○ googleapis/google-cloud-go A

                              goによるOCRエンジン実行のまとめ - freee Developers Hub
                            • 機械学習と公平性

                              1 2 3 4 The field of study that gives computers the ability to learn without being explicitly programmed. — A. L. Samuel ※ Programming computers to learn from experience should eventually eliminate the need for much of this detailed programming effort. — A. L. Samuel [Samuel 59] The field of machine learning is concerned with the question of how to construct computer programs that automatically im

                              • コンピュータビジョン分野のトップカンファレンスであるECCV2022の論文紹介(後編) - NTT Communications Engineers' Blog

                                目次 目次 はじめに ECCV2022のトラッキング論文 ピックアップした論文 Towards Grand Unification of Object Tracking Tracking Objects As Pixel-Wise Distributions Particle Video Revisited: Tracking through Occlusions Using Point Trajectories XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model 最後に はじめに この記事は前回の記事の後編です。ECCV2022で紹介されたトラッキングに関する論文をいくつかご紹介します。 engineers.ntt.com ECCV2022のトラッキング論文 1645本の論文の中

                                  コンピュータビジョン分野のトップカンファレンスであるECCV2022の論文紹介(後編) - NTT Communications Engineers' Blog
                                • コンピュータビジョン分野における世界最高峰の国際会議CVPR2022の論文紹介(後編) - NTT Communications Engineers' Blog

                                  目次 目次 はじめに 論文紹介 The Norm Must Go On: Dynamic Unsupervised Domain Adaptation by Normalization OcclusionFusion: Occlusion-aware Motion Estimation for Real-time Dynamic 3D Reconstruction EPro-PnP: Generalized End-to-End Probabilistic Perspective-N-Points for Monocular Object Pose Estimation Cascade Transformers for End-to-End Person Search TrackFormer: Multi-Object Tracking With Transformers Global T

                                    コンピュータビジョン分野における世界最高峰の国際会議CVPR2022の論文紹介(後編) - NTT Communications Engineers' Blog
                                  • 最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you

                                    こんにちは。@shunk031 です。 普段は最先端の技術が大好きなパソコンのオタクですが、京都へ旅行して古き良き日本の文化に感化されました。 この記事は 法政大応情 Advent Calendar 2020 21 日目の記事です。 From http://codh.rois.ac.jp/ 今回は日本古典籍の分類タスクについて取り組んでみようと考え、近年の日本古典籍における「くずし字認識」に着目して調査をしました *1。 日本古典籍といった古文書に対して、OCR 等の文字認識技術によって文字情報をデジタル化し、それらの情報をもとに解析を行う流れは現代では自然だと考えています。 しかしながら、一般的に OCR は難しく、また古文書を機械に解析させることはさらなる困難があるのは容易に想像できます。 くずし字認識に対して、近年の取り組みでは ROIS-DS 人文学オープンデータ協働センターが K

                                      最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you
                                    • たった2行で画像認識モデルの精度向上!?新しいDataAugmentation自動最適化手法「RandAugment」解説!

                                      3つの要点 ✔️ ランダムにData Augmentationの手法を選択するRandAugmentを提案 ✔️ 従来のAutoAugmentと比べ探索空間を$10^{-30}$にも削減し計算量を激減させたことで実践で使えるようにしただけでなく、CIFAR-10/100やImageNet, COCOなどのデータセットにおいて有用性が確認できた ✔️ ImageNetのSoTAであるNoisyStudentにも使われており、関数は2行で実装できるため読者の方も容易に使うことができる。 RandAugment: Practical automated data augmentation with a reduced search space written by Ekin D. Cubuk, Barret Zoph, Jonathon Shlens, Quoc V. Le (Submitted

                                        たった2行で画像認識モデルの精度向上!?新しいDataAugmentation自動最適化手法「RandAugment」解説!
                                      • Yann LeCun’s Deep Learning Course at CDS is Now Fully Online & Accessible to All

                                        CDS is excited to announce the release of all materials for Yann LeCun’s Deep Learning, DS-GA 1008, co-taught in Spring 2020 with Alfredo Canziani. This unique course material consists of a mix of close captioned lecture videos, detailed written overviews, and executable Jupyter Notebooks with PyTorch implementations. The course covers the latest techniques in both deep learning and representation

                                          Yann LeCun’s Deep Learning Course at CDS is Now Fully Online & Accessible to All
                                        • Twitter、ツイートの画像に代替テキストを追加する機能

                                          米Twitterは4月7日(現地時間)、ツイートの画像に代替テキスト(altテキスト)を追加する機能を追加したとツイートで発表した。 altテキストは、画像など非テキストコンテンツがWebブラウザで表示できない場合に代わりに表示するためにパブリッシャーが入力しておくテキスト。音声読み上げツールが読み上げるため、アクセシビリティの向上にも役立つ。 ツイートの画像の左下に「ALT」(日本では「代替」)バッジが表示されている場合、これをタップすると画像の内容を説明するテキストが表示される。 「ALT」を追加するには、ツイートに画像を追加すると画像の下に表示される[説明を追加]ボタンをタップして説明を入力する。最長1000文字まで入力可能だ。[保存]をタップすると画像に「ALT」バッジが追加される。 1つのツイートに複数の画像を追加する場合も個別のALTを入力可能だ。詳細は日本語のヘルプページを参

                                            Twitter、ツイートの画像に代替テキストを追加する機能
                                          • GPT-4に無理やり画像を認識させてみるテスト - Qiita

                                            こんにちは!逆瀬川 ( https://twitter.com/gyakuse )です! 今日はGPT-4に強引に画像を読み込ませて行きたいと思います。 やりたいこと 言語モデルのIncontext Learning能力だけで画像を認識させる なにが面白いのか Computer Visionは非常におもしろい研究領域であり、畳み込みニューラルネットワーク(CNN)やTransformerを画像認識の領域に広げたVision Transformerは超おもろいです。 先日発表されたVirtual ChatGPTは既存研究を組み合わせ、VQA(画像をもちいた質問回答)や画像編集を行うことを可能にしています。 これらの研究はさらに進歩し、動画領域などに進んでいくことでしょう。 さて、今回はそれを忘れます。バイバーイ マタネー 今日やりたいのは、言語モデルのIncontext Learning

                                              GPT-4に無理やり画像を認識させてみるテスト - Qiita
                                            • WebAssembly: Docker without containers!

                                              This is a companion article to a talk about Docker+WebAssembly that we gave at "Docker Community All Hands 7, Winter Edition" on Dec 15th, 2022. Introduction Recently Docker announced support for WebAssembly in cooperation with WasmEdge. This article will explain what is WebAssembly, why it is relevant to the Docker ecosystem and provide some hands-on examples to try on. We assume you are familiar

                                                WebAssembly: Docker without containers!
                                              • ついに出た!本当にDETR! 物体検出の革新的なパラダイム

                                                3つの要点 ✔️ ついにTransformerを物体検出に応用 ✔️ End-to-endなモデルを実現し、人手による設計を削減 ✔️ 物体検出を直接的な集合予測問題として再定義 End-to-End Object Detection with Transformers written by Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko (Submitted on 26 May 2020 (v1), last revised 28 May 2020 (this version, v3)) Comments: Published by arXiv Subjects: Computer Vision and Pattern Reco

                                                  ついに出た!本当にDETR! 物体検出の革新的なパラダイム
                                                • 拡散モデルを用いた2Dバーチャル試着技術について - BASEプロダクトチームブログ

                                                  はじめに こんにちは。BASEのデータ分析チーム(Data Strategy Team)で不正対策を行ったり、機械学習モデルを触ったりしている竹内です。 先日チーム内の論文読み会でニューラルネットを用いた画像合成によるバーチャル試着技術というトピックに触れる機会があったので、その最近のトレンドについて改めてブログという形でまとめてみました。 バーチャル試着は画像生成モデルの実用的なユースケースの一つとして今現在データセットの拡充やアーキテクチャの検証が進んでいる分野の一つであり、個人的には非常にアツいトピックだと感じています。 バーチャル試着とは バーチャル試着(Virtual Try On)とは、ある人物がある衣服を着用した状態を画像や3Dモデルなどの情報をもとに仮想的に実現し、どのように見えるか可視化する技術のことです。 ネットショップの普及により、店頭に出向かずともPCやスマートフォ

                                                    拡散モデルを用いた2Dバーチャル試着技術について - BASEプロダクトチームブログ
                                                  • Interview with a Pornhub Web Developer

                                                    Regardless of your stance on pornography, it would be impossible to deny the massive impact the adult website industry has had on pushing the web forward. From pushing the browser's video limits to pushing ads through WebSocket so ad blockers don't detect them, you have to be clever to innovate at the bleeding edge of the web. I was recently lucky enough to interview a Web Developer at the web's l

                                                      Interview with a Pornhub Web Developer
                                                    • OpenVX API for Raspberry Pi - Raspberry Pi

                                                      Raspberry Pi is excited to bring the Khronos OpenVX 1.3 API to our line of single-board computers. Here’s Kiriti Nagesh Gowda, AMD‘s MTS Software Development Engineer, to tell you more. OpenVX for computer vision OpenVX™ is an open, royalty-free API standard for cross-platform acceleration of computer vision applications developed by The Khronos Group. The Khronos Group is an open industry consort

                                                        OpenVX API for Raspberry Pi - Raspberry Pi
                                                      • Machine Learning Trends You Need to Know - Gradient Flow

                                                        Insights and trends that will help you navigate the AI landscape. By Assaf Araki and Ben Lorica. Automation and democratization are on the rise AutoML tools are designed to automate the process of training and deploying machine learning. Such tools have progressed to the point where they can produce adequate models for many use cases. Moreover, in domains where model hubs and foundation models (e.

                                                          Machine Learning Trends You Need to Know - Gradient Flow
                                                        • ML and NLP Research Highlights of 2020

                                                          The selection of areas and methods is heavily influenced by my own interests; the selected topics are biased towards representation and transfer learning and towards natural language processing (NLP). I tried to cover the papers that I was aware of but likely missed many relevant ones—feel free to highlight them in the comments below. In all, I discuss the following highlights: Scaling up—and down

                                                            ML and NLP Research Highlights of 2020
                                                          • テスラの「完全自動運転をAIチームディレクターが解説」を翻訳とともに解説 - EVsmartブログ

                                                            『CVPR2021』というコンピュータービジョンのイベントで、テスラのAIチームシニアディレクターであるAndrej Karpathy氏が登壇。テスラが進める完全自動運転への取り組みを解説しました。はたして、テスラはどこまで進んでいるのか。テスラオーナーで翻訳家の池田篤史氏が翻訳しつつ解説します。かなり専門的ながら、興味深い内容です。 ※冒頭画像はCVPRウェブサイトより引用。 はじめに 2021年6月下旬に開催されたCVPR(Computer Vision and Pattern Recognition)に、昨年に続きテスラのAIチームシニアディレクター、アンドレイ・カーパシー氏が登壇し、カメラからの入力のみで自動運転機能を達成する取り組みについて解説しました。この記事ではそれに加え、テスラハッカーとして有名なGreentheonly氏にも取材をして、アンドレイ氏が表向き言えないようなこ

                                                              テスラの「完全自動運転をAIチームディレクターが解説」を翻訳とともに解説 - EVsmartブログ
                                                            • ついに誕生!期待の新しい活性化関数「Mish」解説

                                                              3つの要点 ✔️ ReLU、Swishに次ぐ新たな活性化関数Mishを提案 ✔️ MNISTやCIFAR-10/100などでReLUとSwishを圧倒 ✔️ 論文筆者実装のGitHubレポは早速600以上のスターを持ち、非常に簡単に使える Mish: A Self Regularized Non-Monotonic Neural Activation Function written by Diganta Misra (Submitted on 23 Aug 2019 (v1), last revised 2 Oct 2019 (this version, v2)) Subjects: Machine Learning (cs.LG); Computer Vision and Pattern Recognition (cs.CV); Neural and Evolutionary Comp

                                                                ついに誕生!期待の新しい活性化関数「Mish」解説
                                                              • TensorFlow 2 meets the Object Detection API

                                                                https://blog.tensorflow.org/2020/07/tensorflow-2-meets-object-detection-api.html https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhKis9ECId8eIwn_p0SVMBt3a1vfvKOcOZXy6zK0fWoyzXnzQTguKc2CV__6oI1Pwg22NjWsErpDKqjwQdzjilvmqwWkXPj2ncglphh6mAhpoZ_QXQiDwxnwo-GjKEP0fEOb3uBlNlh9sc/s1600/tensorflow2objectdetection.png July 10, 2020 — Posted by Vivek Rathod and Jonathan Huang, Google Research At the

                                                                  TensorFlow 2 meets the Object Detection API
                                                                • 100+ Best GitHub Repositories For Machine Learning

                                                                  There are millions of github repos and filtering them is an insane amount of work. It takes huge time, efforts and a lot more. We have done this for you. In this article we’ll share a curated list of 100+ widely-known, recommended and most popular repositories and open source github projects for Machine Learning and Deep Learning. So without further ado, Let’s see all the hubs created by experts a

                                                                    100+ Best GitHub Repositories For Machine Learning
                                                                  • Deep Learningの各種タスクにおけるベンチデータセットとデータ数をまとめた - Qiita

                                                                    ABEJAアドベントカレンダー2020の19日目の記事です。 この記事は何? 結局AIって何個データ必要なの?ってよく聞かれると思います。 そんなん知るか この記事では、ある程度精度が出ている既存のタスクにおいて、どんなデータを、どのくらいの量与えているかを調べた結果です。ちなみに、僕自身、すべてのタスクを扱ったことがあるわけでは無いので、ほぼ一部適当な部分もあるかと思いますが、ご容赦ください。あと、このデータが入ってないよ!ってツッコミも歓迎です。 あと、技術は常に進んでいるので、ちゃんと最新技術を追っておけば、より少ないデータで良い結果を出すことが出来ないこともない。が、最新技術とはいえ銀の弾丸ではないのが通常で、例えlightweightGANがでたからと言って、100枚で学習できます!とか勝手に広がると困っちゃう。色んなタスクにおいて、まぁ大体どんなタスクも一般的にはこんなもんよっ

                                                                      Deep Learningの各種タスクにおけるベンチデータセットとデータ数をまとめた - Qiita
                                                                    • TechCrunch | Startup and Technology News

                                                                      Welcome to Week in Review: TechCrunch’s newsletter recapping the week’s biggest news. This week Apple unveiled new iPad models at its Let Loose event, including a new 13-inch display for…

                                                                        TechCrunch | Startup and Technology News
                                                                      • Web Neural Network API

                                                                        Web Neural Network API W3C Candidate Recommendation Draft, 5 May 2024 More details about this document This version: https://www.w3.org/TR/2024/CRD-webnn-20240505/ Latest published version: https://www.w3.org/TR/webnn/ Editor's Draft: https://webmachinelearning.github.io/webnn/ Previous Versions: https://www.w3.org/TR/2024/CRD-webnn-20240503/ History: https://www.w3.org/standards/history/webnn/ Im

                                                                        • Spacelyの研究開発プロジェクト紹介 - spacelyのブログ

                                                                          はじめに スペースリーの研究開発チームでエンジニアをしている植木です。この記事ではスペースリーで行っている研究開発について紹介します。 弊社は空間データプラットフォームを提供しており、具体的なアプリケーションとしては、不動産領域でのVR/Web内覧サービスや、研修領域に向けたVR研修サービスなどがあります。 VRというと3DCGのゲームやエンタメのイメージが強いと思いますが、弊社では360°カメラで撮影した実写の画像や動画をコンテンツとするサービスを展開しています。 VRを扱う会社でありつつ実写画像をメインで扱うため、画像や空間を認識するComputer Visionと、その結果をユーザに提示するComputer Graphicsの両方の研究開発を行っている点がユニークで魅力的かなと思います。 この記事を通じて弊社の研究開発に少しでも興味を持ってもらえたら幸いです。 弊社のサービスについて

                                                                            Spacelyの研究開発プロジェクト紹介 - spacelyのブログ
                                                                          • 点群データにおける表現学習 - Ridge-institute R&D Blog

                                                                            こんにちは,株式会社Ridge-iの@obaradsです.本記事では点群処理における表現学習手法について紹介します.また,本記事は@machinery81にレビューしていただきました. TL;DR 表現学習とは 点群で表現学習を扱う理由 点群の特徴の生成 ラベル付きデータが制限されている状況下におけるモデルの性能向上 点群間の対応を見つけるための表現学習 表現学習方法について 再構築タスクによる学習 Contrastive Learning 点群の表現学習に関する文献紹介 点群処理への深層学習の適用以前の特徴量の算出 ~2017年:PointNetが提案される以前の表現学習手法 2017~2019年:PointNetが提案されて以降の生成モデルを用いた表現学習手法 2019~2020年:自己教師あり学習を利用した表現学習手法 2020年~:シーン点群に着目した表現学習手法 まとめと今後の傾

                                                                              点群データにおける表現学習 - Ridge-institute R&D Blog
                                                                            • OpenAI Sora に使われる技術

                                                                              TL; DR OpenAI が非常に高品質な動画生成モデル Sora を公開 画像生成モデル Diffusion-Transformer を利用 動画を3次元画像として扱うことで画像モデルを拡張 キャプションは DALL•E3 同様、キャプション生成モデルで作成 OpenAI Sora Sora は OpenAI が今年の2月に発表した、動画生成モデルです。まずはこのモデルの出力例を見てみましょう。 図1. Sora の生成例: https://cdn.openai.com/sora/videos/big-sur.mp4 各フレームの画像が非常に美しく生成されています。また、従来の動画生成では時間が経った際に写っているオブジェクトを保つことが難しく、消えたり現れたり、急に歪んだりするものが多かったのに対し、Sora では一度隠れてから再度現れる場合であっても、矛盾なく生成できています。 こ

                                                                                OpenAI Sora に使われる技術
                                                                              • “イルカ”から始まったマイクロソフトのAIサービスの現在地 学習済みAIを使える「Azure Cognitive Services」でできること

                                                                                “イルカ”から始まったマイクロソフトのAIサービスの現在地 学習済みAIを使える「Azure Cognitive Services」でできること Microsoft の AI 関連サービスと、コミュニケーション領域での活用事例の紹介 #1/2 2019年12月4日、DIGITAL Xが主催するイベント「DIGITAL X DAY 2019 コミュニケーションAIが実現する新しい接客のカタチ」が開催されました。インターネットの普及と発達により、顧客との対話方法が多様化している昨今。AIが顧客とのコミュニケーションにどのように生かされているのか、さまざまな企業が実際の活用事例を語ります。プレゼンテーション「Microsoft の AI 関連サービスと、コミュニケーション領域での活用事例の紹介」に登壇したのは、日本マイクロソフト株式会社 Azureビジネス本部 プロダクトマネージャーの竹

                                                                                  “イルカ”から始まったマイクロソフトのAIサービスの現在地 学習済みAIを使える「Azure Cognitive Services」でできること
                                                                                • コンピュータビジョン分野における世界最高峰の国際会議CVPR2022からワークショップの模様を紹介(前編) - NTT Communications Engineers' Blog

                                                                                  目次 目次 はじめに CVPR2022概要 Workshop on Image Matching: Local Features & Beyond SuperPoint and SuperGlue: Lessons Learned Large-scale 3D reconstruction Deployment - Successes, Challenges, Open Problems Unstructured Object Matching using Co-Salient Region Segmentation Nerfels: Renderable Neural Codes for Improved Camera Pose Estimation Feature Query Networks: Neural Surface Description for Camera Pose Re

                                                                                    コンピュータビジョン分野における世界最高峰の国際会議CVPR2022からワークショップの模様を紹介(前編) - NTT Communications Engineers' Blog