並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 664件

新着順 人気順

computer_visionの検索結果161 - 200 件 / 664件

  • The Deep Learning Revolution and Its Implications for Computer Architecture and Chip Design

    The past decade has seen a remarkable series of advances in machine learning, and in particular deep learning approaches based on artificial neural networks, to improve our abilities to build more accurate systems across a broad range of areas, including computer vision, speech recognition, language translation, and natural language understanding tasks. This paper is a companion paper to a keynote

    • Announcing the PyTorch Foundation: A new era for the cutting-edge AI framework

      Announcing the PyTorch Foundation: A new era for the cutting-edge AI framework To accelerate progress in AI, PyTorch is moving to a new, independent PyTorch Foundation, under the Linux Foundation umbrella. The project will join the Linux Foundation with a diverse governing board composed of representatives from AMD, Amazon Web Services, Google Cloud, Meta, Microsoft Azure, and Nvidia, with the int

        Announcing the PyTorch Foundation: A new era for the cutting-edge AI framework
      • スポーツ映像に対するシーンのアノテーション効率化 - Preferred Networks Research & Development

        本記事は、2019年インターンシップとして勤務した佐々木 克仁さんによる寄稿です。 はじめまして。PFNの2019年夏季インターンシップに参加させていただいた東京大学修士1年の佐々木克仁です。大学ではHCIの研究をしています。WEB開発が好きです。 テーマとその背景 今回のインターンシップで私が取り組んだ研究テーマは「スポーツ映像に対するシーンのアノテーション効率化」です。 PFNでは、スポーツ映像の中でチームが取っている戦術を推定し、スポーツの戦術解析に応用するシステムを開発しています。このような推定を実現する機械学習モデルを学習するためには、チームが取っている戦術とその時間範囲(以降シーンと呼びます)がスポーツ映像にアノテーションされた大量のデータセットが要求されます。しかし、スポーツ映像におけるシーンの戦術レベルでの詳細な区別を一般の人々が行うのは困難で、そのスポーツに精通した専門家

          スポーツ映像に対するシーンのアノテーション効率化 - Preferred Networks Research & Development
        • How Disney uses PyTorch for animated character recognition

          Authors: Miquel Àngel Farré, Anthony Accardo, Marc Junyent, Monica Alfaro, Cesc Guitart at Disney Disney’s Content GenomeThe long and incremental evolution of the media industry, from a traditional broadcast and home video model, to a more mixed model with increasingly digitally-accessible content, has accelerated the use of machine learning and artificial intelligence (AI). Advancing the implemen

            How Disney uses PyTorch for animated character recognition
          • Deep Learning From The First Principles | Bogdan Penkovsky, PhD

            Breaking news! Artificial intelligence is taking over the world. Or it is not? Here is what you need to know about a deeper concept of meta-learning. Meta-learning is learning about learning. Learning how to learn belongs here too. Ever wondered how machines defeated the best human Go player Lee Sedol in 2016? A historical moment for the game that was previously considered to be very tough. What i

            • 誕生 40 周年を迎えるパックマンを、NVIDIA の研究者たちが AI で再現 | NVIDIA

              パックマンの 5 万エピソードでトレーニングした敵対的生成ネットワークである GameGAN が、ドットを食べながら進む往年の名作をゲーム エンジンなしで、完全に再現 パックマンが日本のゲームセンターに初めて登場し、人気ゲームとして全世界を食べ尽くしてから 40 年が経った今、この名作レトロゲームが AI の力を借りて生まれ変わりました。 NVIDIA Research が作り上げ、5 万エピソードに基づいてトレーニングされた、パワフルな新しい AI モデルであるNVIDIA GameGANは、基本となるゲーム エンジンなしで、完全に機能するパックマンを生成することができます。つまり、ゲームの基本ルールを理解していなくても、AI がゲームを再作成して、満足のいく結果を出せるのです。 GameGAN は、敵対的生成ネットワーク (GAN) を活用してコンピューター ゲーム エンジンを模倣する

                誕生 40 周年を迎えるパックマンを、NVIDIA の研究者たちが AI で再現 | NVIDIA
              • Firecracker: Lightweight virtualization for serverless applications

                The Research Team at Amazon Robotics is seeking a passionate Applied Scientist, with a strong track record of industrial research, innovation leadership, and technology transfer, with a focus on ML Applications. At Amazon Robotics, we apply cutting edge advancements in robotics, software development, Big Data, ML and AI to solve real-world challenges that will transform our customers’ experiences

                  Firecracker: Lightweight virtualization for serverless applications
                • 【研究開発部の技術】第3回 名刺に特化した文字認識エンジン「NineOCR」 - Sansan Tech Blog

                  研究開発部Architectグループの堤と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 第三弾となる今回は、Sansanの名刺データ化フローの中で使われている弊社が独自開発した名刺に特化した文字認識エンジン「NineOCR」についてご紹介します。 Sansanの名刺データ化フロー NineOCRについては本日プレスリリースが出た通り、データ化範囲が名刺記載の「全項目」 1 となり、いずれの項目でも高い読み取り精度を実現しています。 独自開発の背景 名刺のデータ化では、Emailアドレスや電話番号などを1文字間違えただけでも大問題です。 Sansanでは従来より、オペレーションセンターでの人力処理とコンピュータによる処理をうまく組み合わせて、高精度を維持しつつ、コスト削減やスケーラビリティの両立を実現してきました。

                    【研究開発部の技術】第3回 名刺に特化した文字認識エンジン「NineOCR」 - Sansan Tech Blog
                  • GANとどう違う?君は画像生成モデルNeRFを知っているか。

                    3つの要点 ✔️ NeRFとは新規視点の画像生成ネットワークである。 ✔️ NeRFの入力は、5次元(空間座標のx,y,zと視点のθ,φ)で、出力は体積密度(≒透明感)と放射輝度(≒RGBカラー)である。 ✔️ NeRFによって従来よりも複雑な形状を持つ対象物の新規視点画像を得ることに成功した。 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis written by Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng (Submitted on 19 Mar 2020 (v1), last revised 3 Aug 2020 (this version,

                      GANとどう違う?君は画像生成モデルNeRFを知っているか。
                    • Computer Vision Explorer

                      The AI2 Computer Vision Explorer offers demos of a variety of popular models - try, compare, and evaluate with your own images!

                        Computer Vision Explorer
                      • The Decade of Deep Learning

                        As the 2010’s draw to a close, it’s worth taking a look back at the monumental progress that has been made in Deep Learning in this decade.[1] Driven by the development of ever-more powerful compute and the increased availability of big data, Deep Learning has successfully tackled many previously intractable problems, especially in Computer Vision and Natural Language Processing. Deep Learning has

                          The Decade of Deep Learning
                        • あなたの犬、違う犬種だったらこんな感じ。Nvidiaの新しいAI「GANimals」

                          あなたの犬、違う犬種だったらこんな感じ。Nvidiaの新しいAI「GANimals」2019.11.05 07:0028,731 Andrew Liszewski - Gizmodo US [原文] ( 中川真知子 ) え、ペットに失礼じゃない!? 愛犬が他の犬種だったら良いな、と思ったことはありませんか? 私はありません。 でも、Nvidiaの中の人はそう思ったのかも。そこで、愛犬の表情やポーズを他の犬種や動物に変換できるツール「GANimals」を開発したようです。えー、こんな機能、必要だったの? 今年初めにNvidiaは、Nvidia AI Researchプロジェクトのひとつとして、落書きから写真のようにリアルな画像を自動生成する「GauGAN」というツールをリリースして世間をあっと言わせました。GauGANは、何百万という画像をディープラーニングしたAIが、学んだ景色から質感や反

                            あなたの犬、違う犬種だったらこんな感じ。Nvidiaの新しいAI「GANimals」
                          • GitHub - amzn/computer-vision-basics-in-microsoft-excel: Computer Vision Basics in Microsoft Excel (using just formulas)

                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                              GitHub - amzn/computer-vision-basics-in-microsoft-excel: Computer Vision Basics in Microsoft Excel (using just formulas)
                            • Deploying Transformers on the Apple Neural Engine

                              An increasing number of the machine learning (ML) models we build at Apple each year are either partly or fully adopting the Transformer architecture. This architecture helps enable experiences such as , , , , and many others. This year at WWDC 2022, Apple is making available an open-source reference PyTorch implementation of the Transformer architecture, giving developers worldwide a way to seaml

                                Deploying Transformers on the Apple Neural Engine
                              • 文系学部卒でも無条件で不合格にならないアメリカのオンラインコンピューターサイエンス修士コースを調べ、出願校を決めた|Toshinori Sugita

                                出願校最初の出願校は、ジョージア工科大学のOMSCSになりそうだ。履修できる授業の種類、オンラインコースの懐の深さ(合格率の高さ)(、費用)が主な理由だ。 前回の記事を書いた時点では、ペンシルバニア大学のMCITがベストではないかと考えていた。 しかし、他の選択肢を十分検討していなかったので、候補になり得るコースをリストアップして比較した。特に気にしたのは、つぎの点だ。 ・文系学士が無条件でNGにならない ・CS推奨であっても、テストやMOOCs受講、業務経験などでなんとかなる ・アメリカ(最初の候補として。イギリスやオーストラリアがダメというわけでは全然ないが、英語で学ぶことを前提としたい) ・授業(基礎、分散システム、その他機械学習、データサイエンスなど共通理解になり得るものが選択できる) ・出願要件の具体的な数字(英語テスト、書類、出願期限) ・合格率(オンラインはオンキャンパスと比

                                  文系学部卒でも無条件で不合格にならないアメリカのオンラインコンピューターサイエンス修士コースを調べ、出願校を決めた|Toshinori Sugita
                                • 【Zoom or Die】第3回 torchvisionのI/O・前処理が新しくなった話 - Sansan Tech Blog

                                  こんにちは,DSOC研究開発部 Automation Groupの内田です. 普段オフィスではスタンディングデスクと曲面ディスプレイという環境で作業をしているのですが,秋は設備投資の季節ということで,一念発起して自宅にも曲面ディスプレイを導入しました.ディスプレイの広さは心の余裕ということで,QOLが爆上がりしています.皆さんも導入を検討してみてはいかがでしょうか? www.amazon.co.jp 宣伝はさておき,今回は PyTorch のエコシステムである torchvision が少し進化した話をしたいと思います. torchvision 近年の深層学習の隆盛は,簡単に深層モデルを実装できるフレームワークや周辺のエコシステムが整備されたことに起因していると言っても過言ではないでしょう.その中で,TensorFlowとPyTorchは深層学習フレームワークの二大巨塔と目されています.P

                                    【Zoom or Die】第3回 torchvisionのI/O・前処理が新しくなった話 - Sansan Tech Blog
                                  • 【基本編】画像認識に使用されるData Augmentationを一挙にまとめてみた!

                                    3つの要点 ✔️ 画像分類タスクに必要不可欠なData Augmentationの体系をまとめた ✔️ 基本的なData Augmentationについて手法と利点/欠点をまとめた ✔️ 基本的なDAは実装が簡単な上に絶大な効果を発揮する A survey on Image Data Augmentation for Deep Learning written by Connor Shorten, Taghi M. Khoshgoftaar (Submitted on  06 July 2019) Comments: Published by Journal of Big Data Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG); Image and Video Proc

                                      【基本編】画像認識に使用されるData Augmentationを一挙にまとめてみた!
                                    • My productivity app is a never-ending .txt file

                                      By Jeff Huang, updated on 2022-03-21 The biggest transition for me when I started college was learning to get organized. There was a point when I couldn't just remember everything in my head. And having to constantly keep track of things was distracting me from whatever task I was doing at the moment. So I tried various forms of todo lists, task trackers, and productivity apps. They were all disco

                                      • Computer Vision: Algorithms and Applications, 2nd ed.

                                        Computer Vision: Algorithms and Applications, 2nd ed. © 2022 Richard Szeliski, The University of Washington Welcome to the website (https://szeliski.org/Book) for the second edition of my computer vision textbook, which is now available for purchase at Amazon, Springer, and other booksellers. To download an electronic version of the book, please fill in your information on this page. You are welco

                                        • Computer Vision x Trasformerの最近の動向と見解|akiraTOSEI

                                          この記事についてこの記事では、Vision Transformer[1]登場以降のTransformer x Computer Visionの研究で、興味深い研究や洞察について述べていきます。この記事のテーマは以下の4つです。 • Transformerの急速な拡大と、その理由 • TransformerとCNNの視野や挙動の違い • TransformerにSelf-Attentionは必須なのか? • Vision Transformerの弱点と改善の方向性 また、この記事のまとめとしての私の見解は、以下の通りです。 1. Vison Transformer以来、Transformerはその適用範囲を急速に拡大した。その理由として、色々なデータに適用できること、異なるモーダル間で相関を取りやすいことがあると個人的に考えている。 2. TransformerとCNNの大きな違いとして視野

                                            Computer Vision x Trasformerの最近の動向と見解|akiraTOSEI
                                          • “あらゆるハードでチートを可能にする”というチートツールが生まれるも開発中止。『Call of Duty』のActivisionが動く - AUTOMATON

                                            USER101と名乗るチートツール開発者は7月13日、『Call of Duty』シリーズなどで知られるパブリッシャーActivisionからの要求を受けて、ツールの開発を終了すると発表した。そのチートツールは、PCからコンソールまで、あらゆるプラットフォームでのチートを可能にするとうたい注目を集めていた。 正式名称がなく仮に「CVCheat」と呼ばれていた問題のチートツールは、ゲームファイルやメモリの改ざんといった一般的な手法とは異なり、外部デバイスと画像分析技術を活用してチートを実現することが特徴だ。海外メディアArs Technicaが、開発者USER101氏への取材をもとに解説している。 Ladies and gentlemen, I present you the next generation of cheating now available on console, and

                                              “あらゆるハードでチートを可能にする”というチートツールが生まれるも開発中止。『Call of Duty』のActivisionが動く - AUTOMATON
                                            • 【応用編】深層学習を用いた画像Data Augmentationを一挙にまとめてみた!

                                              3つの要点 ✔️ 深層学習を用いたData AugmentationにはGANやスタイル変換などを用いたものがある ✔️ 深層学習を用いたDAの利点/欠点をまとめた ✔️ 基本的なDAと組み合わせることでさらに高い精度を達成できる A survey on Image Data Augmentation for Deep Learning written by Connor Shorten, Taghi M. Khoshgoftaar (Submitted on  06 July 2019) Comments: Published by Journal of Big Data Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG); Image and Video Processi

                                                【応用編】深層学習を用いた画像Data Augmentationを一挙にまとめてみた!
                                              • The Best GPUs for Deep Learning in 2023 — An In-depth Analysis

                                                OverviewThis blog post is structured in the following way. First, I will explain what makes a GPU fast. I will discuss CPUs vs GPUs, Tensor Cores, memory bandwidth, and the memory hierarchy of GPUs and how these relate to deep learning performance. These explanations might help you get a more intuitive sense of what to look for in a GPU. I discuss the unique features of the new NVIDIA RTX 40 Amper

                                                  The Best GPUs for Deep Learning in 2023 — An In-depth Analysis
                                                • 首里城の3D復元プロジェクトを生んだ小さな奇跡の連なり (1/2)

                                                  2019年10月31日、沖縄の歴史的シンボルとも言える首里城が火災によって焼失した。悲嘆にくれた多くの人を励ますために生まれたのが、最新のコンピュータービジョンの技術により、3Dの首里城を復元するという「みんなの首里城デジタル復元プロジェクト」だ。スピード感あふれたプロジェクトの裏側を発起人である東京大学の川上 玲さんと参加したメンバーに聞いた。 「自分はなにもしなくていいのか?」と自問自答した みんなの首里城デジタル復元プロジェクトでは、過去に首里城を訪れた観光客や地元の住民から写真やビデオを募り、首里城の3Dモデルを構築するという。異なる視点からの写真やビデオを用いて三次元形状を復元する「Structure from Motion(SfM)」の技術を活用しており、多くの写真やビデオが集まれば精度はより向上する。また、3DモデルをAR/VRなどで視聴すれば、在りし日の首里城の思い出をリア

                                                    首里城の3D復元プロジェクトを生んだ小さな奇跡の連なり (1/2)
                                                  • [1811.10154] Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead

                                                    Black box machine learning models are currently being used for high stakes decision-making throughout society, causing problems throughout healthcare, criminal justice, and in other domains. People have hoped that creating methods for explaining these black box models will alleviate some of these problems, but trying to \textit{explain} black box models, rather than creating models that are \texti

                                                    • Solving Quantitative Reasoning Problems With Language Models

                                                      Solving Quantitative Reasoning Problems with Language Models Aitor Lewkowycz∗, Anders Andreassen†, David Dohan†, Ethan Dyer†, Henryk Michalewski†, Vinay Ramasesh†, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo, Yuhuai Wu, Behnam Neyshabur∗, Guy Gur-Ari∗, and Vedant Misra∗ Google Research Abstract Language models have achieved remarkable performance on a wide range of tasks that require

                                                      • AzureとAWSの自動機械学習 - ecbeing labs(イーシービーイング・ラボ)

                                                        はじめに 初めまして。おとです。 ecbeingに入社して1年ちょっと、日々データサイエンスや機械学習について学びつつ業務に勤しんでおります。 機械学習について学び始めてから半年ほど経ちます。その中で、 ・Microsoftが提供するAzure Machine Learning ・AWSが提供するAmazon SageMaker 2つの機械学習サービスのチュートリアルを何度か行いました。 その中でも自動機械学習機能が機械学習初心者である私にとってとても便利だと感じたのでご紹介したいと思います。 はじめに 自動機械学習 Azure Machine Learning の自動機械学習 データの選択 ジョブの構成 タスクと設定の選択 検証とテスト 実験 モデルデプロイ エンドポイント Amazon SageMaker の自動機械学習 実験 モデル エンドポイント おわりに 自動機械学習 通常、機械

                                                          AzureとAWSの自動機械学習 - ecbeing labs(イーシービーイング・ラボ)
                                                        • データ拡張手法である左右反転に理解がいるかも知れない、Visual Chiralityとは

                                                          3つの要点 ✔️ Data augmentationによく用いられる反転に新しい概念を提唱 ✔️ 人間では気づかなかった左右反転を認識 ✔️ この性質を元にした拡張で、さらなる精度向上が期待できる Visual Chirality written by Zhiqiu Lin, Jin Sun, Abe Davis, Noah Snavely (Submitted on 16 Jun 2020) Comments: Published by CVPR2020 Subjects: Computer Vision and Pattern Recognition (cs.CV) はじめに 左右反転によるData augmentationは物凄く当たり前なデータ拡張手法であり、特に気にすることなく今まで使用してきた人もいるのではないでしょうか。私も今回の論文を読むまでは結構当たり前のように使っていま

                                                            データ拡張手法である左右反転に理解がいるかも知れない、Visual Chiralityとは
                                                          • 前処理の改良でここまで伸びる! 実世界での画像劣化とのギャップに注目した超解像モデル「Real-ESRGAN」紹介 - Qiita

                                                            前処理の改良でここまで伸びる! 実世界での画像劣化とのギャップに注目した超解像モデル「Real-ESRGAN」紹介機械学習DeepLearning論文読み超解像ICCV2021 2021年のディープラーニング論文を1人で読むAdvent Calendar24日目の記事です。今日読むのは「超解像技術」の論文です。 この論文はESRGANという、2018年の論文のリファインなのですが、訓練時の低解像度データの作成方法(訓練時の前処理)を大きく変えて、モデルはそれほど変わっていないという面白い改善です。通常この手のリファインはモデル構造側を工夫することが多いのですが、「前処理を実際の画像劣化に合わせることで、現場で通用するような超解像モデルを作りましょうね」というのがコンセプトです。前処理を変えるとこんなに変わるというのをぜひ体感してほしいです。 ICCV2021のWorkshopに採択されてい

                                                              前処理の改良でここまで伸びる! 実世界での画像劣化とのギャップに注目した超解像モデル「Real-ESRGAN」紹介 - Qiita
                                                            • 【初心者向け】PythonとOpenCVで画像処理を体験してみよう - RAKUS Developers Blog | ラクス エンジニアブログ

                                                              初めに 皆さん初めましてmosyoryです。 画像処理に興味はあるがどうやってやるのかわからない、そんな方もいるのではないでしょうか。 本記事ではWindows・Macの環境でPythonとOpenCVを使ってちょっとした画像処理の方法を紹介したいと思います。関数等の詳細な解説は行っていないので予めご了承ください。 初めに OpenCVとは OpenCVのインストール Windows Mac pipでインストールできない 基本操作 読み込み 表示 保存 画像処理 色空間の変換 二値化処理 輪郭検出 輪郭描画 終わりに 参考サイト OpenCVとは OpenCV(Open Source Computer Vision Library)とはオープンソースコンピュータ・ビジョン・ライブラリです。 画像処理や汎用的な数学処理、機械学習に関するアルゴリズムが多数含まれています。 C+、Python、

                                                                【初心者向け】PythonとOpenCVで画像処理を体験してみよう - RAKUS Developers Blog | ラクス エンジニアブログ
                                                              • The Illustrated Stable Diffusion

                                                                Translations: Chinese, Vietnamese. (V2 Nov 2022: Updated images for more precise description of forward diffusion. A few more images in this version) AI image generation is the most recent AI capability blowing people’s minds (mine included). The ability to create striking visuals from text descriptions has a magical quality to it and points clearly to a shift in how humans create art. The release

                                                                • ジェスチャーを読み取ってダンスでキー入力ができる「全身キーボード」が登場

                                                                  カメラの前でポーズを取り、それに応じたキー入力をすることで、あたかもダンスをしているように連続でジェスチャーをして文章をタイピングできる「full-body keyboard(全身キーボード)」を、YouTuberのFletcher Heisler氏が公開しました。 I made a FULL-BODY keyboard! - YouTube Heisler氏が手旗信号のように腕を振ると、大文字の「H」の文字が入力されました。 さらに、リズミカルに「e」キーを入力。手のひらを開いているときは大文字に、閉じているときは小文字になります。 「l」 1つ前と同じ入力をする時は、ぴょんとジャンプします。 こうして「Hello world!」と入力できました。これが、Heisler氏が開発した全身キーボードです。 全身キーボードは、2022年に開発した「face-controlled keyboar

                                                                    ジェスチャーを読み取ってダンスでキー入力ができる「全身キーボード」が登場
                                                                  • 画像に写りこんだ水滴を除去できる「RainGAN」 シンガポールの研究チームが開発

                                                                    Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 シンガポールのNanyang Technological Universityの研究チームが開発した「RainGAN: Unsupervised Raindrop Removal via Decomposition and Composition」は、画像に写り込んだ水滴を除去する深層学習を用いた技術だ。雨などによってカメラレンズの表面に直接付着した水滴を撮影後の画像から除去する。 雨粒などでカメラのレンズに付着した水滴は、シーンの一部をゆがませたり、覆い隠したりするため、自動運転車や屋外監視カメラなど、コンピュータビジョンアプリケーションの性能を低下させる。そのため、水滴を除去してシーン

                                                                      画像に写りこんだ水滴を除去できる「RainGAN」 シンガポールの研究チームが開発
                                                                    • 日照条件に左右されない街の「真の色」推定技術 NTT、メタバースなどに応用へ

                                                                      NTTは6月15日、撮影された画像から、照明条件によらない「真の色」(物体固有の反射率・アルベド)を推定する新たな手法を開発したと発表した。画像から影などを取り除き、任意の照明条件を再現できるという。実在の街を再現した“超リアルメタバース”構築などに応用する。 街の写真など実世界データをデジタル化する際、撮影時の照明条件が影響する。 例えば物体認識では、撮影時の照明条件が推定精度に影響するため、様々な照明条件下で撮影した画像を集めて検証する必要がある。また、さまざまな照明条件下で街の写真を複数つなぎ合わせてメタバース空間に再現する際、影が残ってしまう問題があった。 こうした問題を解決するため、1枚の画像を、物体表面の照明条件に依存しない反射率(アルベド)画像と、照明条件に依存する陰影画像に分解する「固有画像分解」技術が開発されてきた。 NTTの新技術では、レーザーを照射し、その反射光を計測

                                                                        日照条件に左右されない街の「真の色」推定技術 NTT、メタバースなどに応用へ
                                                                      • 2020’s Top AI & Machine Learning Research Papers

                                                                        TOPBOTS The Best of Applied Artificial Intelligence, Machine Learning, Automation, Bots, Chatbots Despite the challenges of 2020, the AI research community produced a number of meaningful technical breakthroughs. GPT-3 by OpenAI may be the most famous, but there are definitely many other research papers worth your attention. For example, teams from Google introduced a revolutionary chatbot, Meena,

                                                                          2020’s Top AI & Machine Learning Research Papers
                                                                        • Docker+Wasm Technical PreviewからWASMに入門する

                                                                          少し前ですが、Docker の Technical preview として WASM (WebAssembly) のサポートが発表されました。 普段から Docker を利用していますが、そもそも WASM が何なのか? WASM をサポートしたことによって何ができるようになるのか? がわかっていなかったので、一通り調べてみました。 WASMとは まずは、WASM 自体の理解を深めるために、下記のドキュメントにざっと目を通します。 WebAssembly MDN's WebAssembly pages WASM とはバイナリコードの仕様で、そのフォーマットに対応したバイナリを実行する Stack-based な仮想マシンのことを指します。 開発初期は、ブラウザ(JS)の高速化が目的で、それを念頭に置いたような記載もドキュメントにあります。 WebAssembly is a new type

                                                                            Docker+Wasm Technical PreviewからWASMに入門する
                                                                          • All 84 startups from Y Combinator's S19 Demo Day 1 | TechCrunch

                                                                            It’s that time of year, Silicon Valley’s investor technocrati and advice-giving Twitter celebrities descended upon Pier 48 in San Francisco to judge the latest summer batch of Y Combinator startups. TechCrunch was there, as well, and we were tapping away feverishly as co-founders pitched to woo investors. There are 197 companies in total in the summer YC batch, we heard from 84 of them today — in

                                                                              All 84 startups from Y Combinator's S19 Demo Day 1 | TechCrunch
                                                                            • 世界のAI学会「NeurIPS」のコンペが激戦に、競り勝って入賞した日本勢とは

                                                                              2019年12月にカナダのバンクーバーで開催された、世界的に有力なAI(人工知能)の国際学会「NeurIPS」には、一線級のAI研究者やエンジニア、ユーザー企業の担当者などが集まった。会期後半にはAIによるタスクの解決を競うコンペティションが2日間にわたって繰り広げられた。日本勢では東京大学や金沢大学の研究者が入賞した。 コンペのプログラムは16種類あり、2018年の8種類から倍増した。全体で約4000チームが参加し、1万5000回の投稿をしたという。プログラムには与えられた課題をバーチャル空間上で解くものから、実際にサーキットで模型を走らせて競うライブ型などがある。 プログラムを目的別に大別すると、クルマやロボット、ドローンなどの操縦を自動化するものと、マラリアの撲滅や気象予測などビッグデータをAIで分析することによって社会課題を解決するもの2つがある。前者はゲームの形態をとるものが多い

                                                                                世界のAI学会「NeurIPS」のコンペが激戦に、競り勝って入賞した日本勢とは
                                                                              • How to Train a TensorFlow 2 Object Detection Model

                                                                                With the recent release of the TensorFlow 2 Object Detection API, it has never been easier to train and deploy custom state of the art object detection models with TensorFlow. To build a custom model you can leverage your own custom dataset to detect your own custom objects: foods, pets, mechanical parts, and more. In this blog and TensorFlow 2 Object Detection Colab Notebook, we walk through how

                                                                                  How to Train a TensorFlow 2 Object Detection Model
                                                                                • GitHub - Skyvern-AI/skyvern: Automate browser-based workflows with LLMs and Computer Vision

                                                                                  🐉 Automate Browser-based workflows using LLMs and Computer Vision 🐉 Skyvern automates browser-based workflows using LLMs and computer vision. It provides a simple API endpoint to fully automate manual workflows on a large number of websites, replacing brittle or unreliable automation solutions. Traditional approaches to browser automations required writing custom scripts for websites, often rely

                                                                                    GitHub - Skyvern-AI/skyvern: Automate browser-based workflows with LLMs and Computer Vision