並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 2232件

新着順 人気順

computer_visionの検索結果121 - 160 件 / 2232件

  • 研究室でコンピュータビジョン論文読み会をやってみた|Toru Tamaki

    【cvpaper.challenge2022: 4日目】 名古屋工業大学の玉木です.2020年10月に研究室を立ち上げたので,ゼミの一環としてコンピュータビジョン論文読み会をやっています.これはその試行錯誤の紹介です. そもそも関連研究が研究室の先輩の卒論や修論が1つか2つだけ,という修論や卒論を見かけることがあります.たしかに研究室で長年取り組んでいる研究をさらにすすめるために,後輩が先輩の先行研究を引き継いでさらに発展させるということは重要ですので,その場合には先輩の修論を参考文献にすることもあるかもしれません. しかしそれは他の研究を全く知らないということを意味しています(すくなくとも修士論文という体裁においては).自分の関連する研究分野の近年の動向を知らないということは大学院生にとっては問題ですし,最新の研究をキャッチアップし続けるということはAI時代のエンジニアにとっても重要なス

      研究室でコンピュータビジョン論文読み会をやってみた|Toru Tamaki
    • 【CVPR'19 / ICCV'19】3D Human Pose Estimationの最新研究動向まとめ|Hiromi Nakagawa

      はじめにPose Estimationとは、画像や動画から人物の姿勢(関節位置)を推定するタスクのことです。特殊なマーカーを身に着けたりせずに、一般的な動画像のみから人物の姿勢を推定できるため、例えば ・スポーツにおける選手のフォーム分析 ・映画やアニメの制作におけるモーションキャプチャ ・店舗の監視カメラ映像を元にした人物の行動解析 など、様々なアプリケーションが考えられます。 従来は画像上の関節位置のXY座標のみを推定する2D Pose Estimationの研究や応用が主流でしたが、近年のDeep Learningを中心とした画像認識技術の発展により、奥行方向も含めて3次元的に人物の姿勢を推定する3D Pose Estimationの研究が活発化しており、現実世界のヒトの動き・行動をよりリアルに認識することが可能になってきています。 本記事では特に2019年のCVPRやICCVなど画

        【CVPR'19 / ICCV'19】3D Human Pose Estimationの最新研究動向まとめ|Hiromi Nakagawa
      • 10億枚以上のInstagramに投稿された写真を用いて学習した画像認識モデル「SEER」をFacebookが発表

        Facebookが、Instagramに投稿された10億枚以上の画像を用いて学習した画像認識モデル「SEER」を、2021年3月2日に発表しました。また、SEERの開発に用いられた「自己教師あり学習」を可能にするライブラリ「VISSL」も同時に公開されています。 [2103.01988] Self-supervised Pretraining of Visual Features in the Wild https://arxiv.org/abs/2103.01988 VISSL · A library for state-of-the-art self-supervised learning https://vissl.ai/ SEER: The start of a more powerful, flexible, and accessible era for computer vis

          10億枚以上のInstagramに投稿された写真を用いて学習した画像認識モデル「SEER」をFacebookが発表
        • Segment Anything

          Meta AI Computer Vision Research

          • 画像認識モデルの「盲点」を克服するための奇妙な画像ばかり集めたデータセット「ObjectNet」をMITとIBMの研究チームが公開

            人工知能(AI)を用いた画像認識モデルは、写真や映像の中に映り込む物体を正確に識別することを目的としたもので、自動運転車の外界認識機能などさまざまなものに応用されています。例えば自動運転車の場合、画像認識モデルの物体認識精度は自動運転車の安全性に直結してくるため、モデルの学習に使用するデータセットは非常に重要な役割を担うこととなります。そこで、マサチューセッツ工科大学(MIT)とIBMの研究者チームは、多種多様な物体を含んだ画像認識モデル向けのデータセット「ObjectNet」を作成しています。 This object-recognition dataset stumped the world’s best computer vision models | MIT News https://news.mit.edu/2019/object-recognition-dataset-stump

              画像認識モデルの「盲点」を克服するための奇妙な画像ばかり集めたデータセット「ObjectNet」をMITとIBMの研究チームが公開
            • Deep Metric Learningによる、ホテルや飲食店などの拠点検索改善

              1.2 なぜDeep Metric Learningにしたか 改善前のモデルでも特徴量を頑張って作れば解決できないことはないとは思います。「地名、ジャンル等に引っ張られて、拠点名指定を無視してしまう」パターンでは、クエリを解釈するロジックを入れ、地名だということを理解して地名部分のみを拠点の住所とマッチングさせて、それ以外を拠点名にマッチングさせて、という具合で特徴量を作れば正解できる可能性があると思います。しかし、これは一例で全体的に精度を上げるにはさまざまなケースを人が考慮して特徴量を作っていく必要があるので大変です。 そこで、学習データ(クエリと正解拠点のペア)が大量にあることを生かして、DNN(Deep Neural Network)がよしなに学習してくれるのに期待しました。また、プロダクト化することを考えると遅くとも数百ミリ秒以内で応答する必要があるので、クエリと拠点側をそれぞれ

                Deep Metric Learningによる、ホテルや飲食店などの拠点検索改善
              • A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks

                Transformer is a deep neural network that employs a self-attention mechanism to comprehend the contextual relationships within sequential data. Unlike conventional neural networks or updated versions of Recurrent Neural Networks (RNNs) such as Long Short-Term Memory (LSTM), transformer models excel in handling long dependencies between input sequence elements and enable parallel processing. As a r

                • Open source and open data

                  There’s currently an ongoing debate about the value of data and whether internet companies should do more to share their data with others. At Google we’ve long believed that open data and open source are good not only for us and our industry, but also benefit the world at large. Our commitment to open source and open data has led us to share datasets, services and software with everyone. For examp

                    Open source and open data
                  • MLOps guide

                    A collection of materials from introductory to advanced. This is roughly the path I’d follow if I were to start my MLOps journey again. Table of contents ML + engineering fundamentals MLOps …. Overview …. Intermediate …. Advanced Career Case studies Bonus ML + engineering fundamentals While it’s tempting to want to get straight to ChatGPT, it’s important to have a good grasp of machine learning, d

                    • Kazumichi Komatsu

                      導入: 本テキストは2021年10月に京都市立芸術大学に提出された小松千倫の博士論文「表れる他者 − グラフィティおよびインターネットにおける諸操作の記述、あるいは遠さをつくるための研究」より第2章の一部を抜粋、修正しつつ掲載するものです。このテキストより前の部分(未掲載)では、InstagramやTinderを分析対象とし、それらのアプリケーションUI上に表示された単一のポストだけではなく、複数のポストのまとまりやそれらの順序に対して行われるユーザーの諸操作の傾向とその流通について記述していました。「編集操作」や「シークエンス」という語はそのような文脈で使用されています。以下第2章第8節から続く本文です。 8. TikTokとポップソングの信号化 私たちはTinderとInstagramの分析を通して複数のデータのシークエンスを対象にしたユーザーの編集操作の例を追ってきた。このようなシー

                      • [レポート] AWS の AI・機械学習系サービスは Game 開発でどう活用されるか聞いてきた – Amazon Game Tech Night #15 #AmazonGametech | DevelopersIO

                        Game Tech Night #15 8/21(水)、「ゲーム業界向け AWSで実現する機械学習」とのサブタイトルで Amazon Game Tech Night #15 が開催されました。 Amazon Game Tech Night #15 〜ゲーム業界向け AWSで実現する機械学習〜 - connpass このブログではそのうちの後半のセッション、「Game 開発で活用するAWS の AI/ML サービスのご紹介」についてレポートします。AWS が提供している AI・機械学習系のサービスを、デモや事例を交えて丁寧に紹介して頂きました! なお前半のセッション「ゲーム業界における機械学習の活用事例」については、別記事があがっていますので、そちらもぜひご参照ください! [レポート]ゲームに活用されるAIの多様性〜Amazon Game Tech Night #15 #AmazonGame

                          [レポート] AWS の AI・機械学習系サービスは Game 開発でどう活用されるか聞いてきた – Amazon Game Tech Night #15 #AmazonGametech | DevelopersIO
                        • MobileNet(v1,v2,v3)を簡単に解説してみた - Qiita

                          スマホなどの小型端末にも乗せられる高性能CNNを作りたいというモチベーションから生まれた軽量かつ(ある程度)高性能なCNN。MobileNetにはv1,v2,v3があり、それぞれの要所を調べたのでこの記事でまとめる。 原論文は Howard, Andrew G., et al. "Mobilenets: Efficient convolutional neural networks for mobile vision applications." arXiv preprint arXiv:1704.04861 (2017). Sandler, Mark, et al. "Mobilenetv2: Inverted residuals and linear bottlenecks." Proceedings of the IEEE Conference on Computer Vision

                            MobileNet(v1,v2,v3)を簡単に解説してみた - Qiita
                          • MN-Coreコンパイラを用いた深層学習ワークロードの高速化 - Preferred Networks Research & Development

                            はじめに 深層学習を軸とした研究開発には大きな計算資源が必要です。 PFNでは深層学習ワークロードに特化した計算機資源として深層学習用アクセラレータであるMN-Coreを開発し、実際に弊社のスーパーコンピュータであるMN-3に搭載し運用を行っています。本記事では、MN-Coreを利用した深層学習ワークロード高速化のためのコンパイラの概要及び、ワークロード高速化の実例について紹介します。 MN-Coreの概要とコンパイラの必要性 MN-Core(https://www.preferred.jp/ja/projects/mn-core/)とは深層学習ワークロードに特化したアクセラレータです。深層学習において頻出する畳み込み演算を高速化するために、多数の高効率な行列演算器ユニットを階層的に束ねた構造を持っています。各階層間においては縮約/放送など深層学習ワークロードでよく用いられる集団通信を行う

                              MN-Coreコンパイラを用いた深層学習ワークロードの高速化 - Preferred Networks Research & Development
                            • Object Detection State of the Art 2022

                              Object detection has been a hot topic ever since the boom of Deep Learning techniques. This article goes over the most recent state of the art object detectors. First we will start with an introduction to the topic of object detection itself and it’s key metrics. The evolution of object detectors began with Viola Jones detector which was used for detection in real-time. Traditionally, object detec

                                Object Detection State of the Art 2022
                              • 歴史・年表でみるAWS全サービス一覧(参考資料編) -アナウンス日、General Availability(GA)の参考URL- - NRIネットコムBlog

                                小西秀和です。 歴史・年表でみるAWS全サービス一覧 -アナウンス日、General Availability(GA)、AWSサービス概要のまとめの記事で参考にしたURLが多すぎるため、こちらに別記事としてまとめました。 AWSサービスの概要など「歴史・年表でみるAWS全サービス一覧」のメインコンテンツは本編を御覧ください。 ただ、見方によってはこの記事の方が面白いかもしれません。 [English Edition] AWS History and Timeline - Almost All AWS Services List, Announcements, General Availability(GA) AWS全サービスの歴史年表に記載したアナウンス日・GA日(一般提供開始日)の参考URL 「What's New」のURL(例:https://aws.amazon.com/about-

                                  歴史・年表でみるAWS全サービス一覧(参考資料編) -アナウンス日、General Availability(GA)の参考URL- - NRIネットコムBlog
                                • PyTorch discloses malicious dependency chain compromise over holidays

                                  HomeNewsSecurityPyTorch discloses malicious dependency chain compromise over holidays PyTorch has identified a malicious dependency with the same name as the framework's 'torchtriton' library. This has led to a successful compromise via the dependency confusion attack vector. PyTorch admins are warning users who installed PyTorch-nightly over the holidays to uninstall the framework and the counter

                                    PyTorch discloses malicious dependency chain compromise over holidays
                                  • 高校物理がつまらない主因は微積が使えないから?ならば微積を高1までに教えようとならないのはなぜか?

                                    ozean-schloss @ozeanschloss 雑学好きの元Wikipedia執筆者(≠管理人)。不定期に学術的な問題についてエゴサしたり発信したりしています。裏でニコニコ動画もしています。科学哲学・教育論を中心に、文理を問わず「知」の探究にいそしんでいます。 ここ数年、教科教育系の問題への言及が増えました。 ozean-schloss.hatenadiary.org Ken-ichi MAEDA @ken1maeda Computer Scientist; Pattern Recognition, Computer Vision, Neural Network, Machine Learning, Computer Architecture and OS \Multician; LinkedIn Multicians Group

                                      高校物理がつまらない主因は微積が使えないから?ならば微積を高1までに教えようとならないのはなぜか?
                                    • Unity、合成データセットの提供開始でAIトレーニングの時間と予算を大幅に削減

                                      Unity、合成データセットの提供開始でAIトレーニングの時間と予算を大幅に削減カスタマイズ可能なコンピュータビジョンの提供により、プライバシーを損なうことなくデータへのアクセスを拡大 マルチプラットフォーム向け統合開発環境「Unity」を提供するユニティ・テクノロジーズ・ジャパン株式会社(本社:東京都中央区、代表取締役:豊田 信夫、以下 当社)は、親会社であるUnityがコンピュータビジョンアプリケーションの開発コストを削減し、製造業、小売業、セキュリティ業界向けのAIをより迅速にトレーニングすることを目的とした「Unity Computer Vision Datasets」を発表しました。コンピュータビジョンのソリューション提供者は、厳格なプライバシーおよび規制基準を維持しながら、AIトレーニングの要求に合わせてオーダーメイドのデータセットを購入することができます。 合成データが重要な

                                        Unity、合成データセットの提供開始でAIトレーニングの時間と予算を大幅に削減
                                      • Evidently AI - ML system design: 300 case studies

                                        How do companies like Netflix, Airbnb, and Doordash apply machine learning to improve their products and processes? We put together a database of 300 case studies from 80+ companies that share practical ML use cases and learnings from designing ML systems. Navigation tips. You can play around with the database by filtering case studies by industry or ML use case. We added tags based on recurring t

                                          Evidently AI - ML system design: 300 case studies
                                        • 【開催報告】ML@Loft #4 (Edge) | Amazon Web Services

                                          AWS Startup ブログ 【開催報告】ML@Loft #4 (Edge) こんにちは、スタートアップソリューションアーキテクトの針原 (Twitter: @_hariby) です。7月19日に AWS Loft Tokyo で開催された機械学習のコミュニティイベント ML@Loft の第4回では Edge Deep Learning をはじめとした技術についての話が盛り上がりました。興味はあったけど予定が合わなかった、という方のために内容をまとめたいと思います。 ML@Loft は機械学習のお悩み相談イベントで、目黒の AWS Loft Tokyo で2019年4月より毎月開催されています。もともとは AWS をお使いのお客さまが、サービスの中に機械学習を取り入れて開発・運用していく際のお悩を気軽に相談できる場が欲しい、ということで始まったイベントです。登壇者 (相談役) が自己紹介

                                            【開催報告】ML@Loft #4 (Edge) | Amazon Web Services
                                          • MIT「AIが人の仕事をすぐに奪うことはない」、80年代のPC革命との違い | Forbes JAPAN 公式サイト(フォーブス ジャパン)

                                            人工知能(AI)が人々の仕事に与える将来的な影響について、私たちはあまり多くを理解できていない。しかし、1950年代初頭にコンピュータがビジネスに導入され「オートメーション」という言葉が一般化して以来、AIが仕事に与える影響に関しては多くのことが語られており、最近では、AIが人々の仕事を奪う可能性について、さまざまなことが議論されている。 MITコンピュータ科学・人工知能研究所が先日発表した論文の「Beyond AI Exposure: Which Tasks are Cost-Effective to Automate with Computer Vision?(AIエクスポージャーの先にあるもの:どのようなタスクがコンピュータビジョンを用いてコスト効率良く自動化できるか?)」は、AIと仕事の未来の関係について非常に率直な予測を立てている。ここで喜ぶべきニュースは「コンピュータビジョンを

                                              MIT「AIが人の仕事をすぐに奪うことはない」、80年代のPC革命との違い | Forbes JAPAN 公式サイト(フォーブス ジャパン)
                                            • GPS不要の屋内ナビゲーション手法をR&Dした話

                                              ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog はじめまして。CTO室R&D部の鈴木と西と申します。よろしくお願い致します。 R&DとはResearch & Developmentの略で、Wikipediaによると "研究開発(けんきゅうかいはつ、英語: Research and development、R&D)とは、特定の対象を調査して、基礎学問の研究や、目的に応じた応用研究の模索、将来的に発展する技術などの試験を行い、技術的な優位を得るための活動である。" という意味だそうです。 私たちが所属する部はヤフーのさまざまなサービスが抱える課題や業界が注目する領域に対し、各メンバーの専門的見地から研究と開発を行い得られた手法や知見をサービスに還元することを目指しています。 今回わ

                                                GPS不要の屋内ナビゲーション手法をR&Dした話
                                              • ICLR 2022 — A Selection of 10 Papers You Shouldn’t Miss

                                                Image by Zeta Alpha.The International Conference in Learning Representations (ICLR) will be held online (for the third year in a row!) from Monday, April 25th through Friday, April 29th. It’s one of the biggest and most beloved conferences in the world of Machine Learning Research, and this year is no exception: it comes packed with more than a thousand papers on topics ranging from ML theory, Rei

                                                  ICLR 2022 — A Selection of 10 Papers You Shouldn’t Miss
                                                • EMNLP2019の気になった論文を紹介 - 株式会社ホクソエムのブログ

                                                  ホクソエムサポーターの白井です。 EMNLP-IJCNLP 2019 (以降 EMNLP) が先日、香港で開催されました。 EMNLPは Empirical Methods in Natural Language Processing の略称で、ACLやNAACLと並ぶ、計算機科学のTop conferenceと言われてます*1。 今年採択されたEMNLPの論文は682本 (+システム/デモ論文45本) です。 (年々増えています。) 今回は、EMNLP2019の論文から、いくつか気になったものを紹介します。 前回に引き続き、検証系の論文とデータ構築についての論文をメインに扱います。 以降、記載する図表は、明記しない限り、論文から引用しています。 1. ner and pos when nothing is capitalized 2. A Little Annotation does a

                                                    EMNLP2019の気になった論文を紹介 - 株式会社ホクソエムのブログ
                                                  • Unlock a new era of innovation with Windows Copilot Runtime and Copilot+ PCs

                                                    I am excited to be back at Build with the developer community this year. Over the last year, we have worked on reimagining  Windows PCs and yesterday, we introduced the world to a new category of Windows PCs called Copilot+ PCs. Copilot+ PCs are the fastest, most intelligent Windows PCs ever with AI infused at every layer, starting with the world’s most powerful PC Neural Processing Units (NPUs) c

                                                      Unlock a new era of innovation with Windows Copilot Runtime and Copilot+ PCs
                                                    • Open Source Data Labeling | Label Studio

                                                      The most flexible data labeling platform to fine-tune LLMs, prepare training data or validate AI models. # Install the package # into python virtual environment pip install -U label-studio# Launch it!label-studio # Install the caskbrew install humansignal/tap/label-studio# Launch it!label-studio # clone repo git clone https://github.com/HumanSignal/label-studio.git # install dependencies cd label-

                                                        Open Source Data Labeling | Label Studio
                                                      • Deep learning and Physics

                                                        「ディープラーニングと物理学 オンライン」とはオンラインWeb会議システムを利用したセミナーです。2023年10月より、学習物理領域セミナーと合同で開催されています。 登録する際のメールアドレスは、できるだけ大学もしくは研究機関のものをご使用ください。 ZoomのミーティングURLおよびパスワードは、先着順300名様に限り、登録されたメールアドレスに送信されます。転載・転送は控えてください。 URLが掲載されたメールは当日の朝までに送られます。 参加したい方は下記よりお申し込みください。毎回開催時に参加URLのついたアナウンスのメールを送信します。 登録フォーム (締切は前日の夜11時までとします) 解約フォームは下記でございます。 解約フォーム 参加時の表示名は「登録時の名前@登録した機関名」に設定してください。 ノイズを防ぐためのミュートへご協力ください。 DLAP世話人: 橋本幸士(

                                                        • 新時代の pix2pix? ControlNet 解説

                                                          入力に対して画像で条件づけする Diffusion モデルである ControlNet の解説をします。 paper: https://t.co/hIkh8qgjcL github: https://github.com/lllyasviel/ControlNet ([1] の Fig1 より引用) 本論文は Style2Paints 開発者の lllyasviel(@lvminzhang) が出されていることから、高精度に入力線画に着彩する Styl2Paints V5 (のDorothyモデル?)に使用されているモデルである可能性が高いです。 Diffusion Model (特に Latent Diffusion)では入力の条件付けを忠実には考慮できていないモデルが多いため、本論文の結果はなかなかにインパクトがあります。個人的には GAN 時代の pix2pix がそのまま Diff

                                                            新時代の pix2pix? ControlNet 解説
                                                          • 生成AIを使えるかどうかはイシューではない - ニューロサイエンスとマーケティングの間 - Between Neuroscience and Marketing

                                                            Summilux 1.4/50 ASPH, Leica M10P @Chinkokuji Temple, Munakata, Japan 昨日のLLM(large language model 大規模言語モデル)議論の続きをもう少し書いてみようと思う。 kaz-ataka.hatenablog.com DS協会のスキル定義委員会ではIPAと協働し、2年に一度、データサイエンティストのスキル標準を見直し、改訂版を発表している*1。今年は奇しくも改訂年だったのだが、この春、わずか数ヶ月前に華々しく登場したChatGPTを目の前にしつつ、生成AI領域においてデータ×AIプロフェッショナル(データサイエンティスト DS)の場合、求められるスキルはどうかわるのか、という議論を随分とした。 データサイエンティスト協会 10thシンポジウム スキル定義委員会発表資料(2023年10月20日) 生成AIは

                                                              生成AIを使えるかどうかはイシューではない - ニューロサイエンスとマーケティングの間 - Between Neuroscience and Marketing
                                                            • GitHub - suhara/cis6930-fall2021: Course materials for Fall 2021 "CIS6930 Topics in Computing for Data Science" at New College of Florida

                                                              This course covers a line of Deep Learning techniques that have been applied to a variety of computer science problems, especially in Computer Vision and Natural Language Processing. The course will start from Deep Learning fundamentals such as basic model architecture and optimization techniques before moving onto more sophisticated techniques. This course covers commonly used techniques for Comp

                                                                GitHub - suhara/cis6930-fall2021: Course materials for Fall 2021 "CIS6930 Topics in Computing for Data Science" at New College of Florida
                                                              • Why I Switch From Keras to PyTorch

                                                                Image edited by Author for the icon taken from the official site of PyTorch and KerasThe war between Deep Learning Frameworks is still on fire, which one that will gain more masses, it will be the next game-changer for the deep learning community in future. The loser one will fade in if they can’t survive by giving the best solution for the deep learning community and the world. The first framewor

                                                                  Why I Switch From Keras to PyTorch
                                                                • GANの発展の歴史を振り返る!GANの包括的なサーベイ論文の紹介(アルゴリズム編)

                                                                  3つの要点 ✔️様々な分野で使用されている 「GAN」の包括的なサーベイ論文の紹介 ✔️アルゴリズム編では、「GAN」のアルゴリズムに焦点を絞って様々なアプローチを紹介 ✔️ この記事で「GAN」の最新動向までをキャッチアップ可能 A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications written by Jie Gui, Zhenan Sun, Yonggang Wen, Dacheng Tao, Jieping Ye (Submitted on 20 Jan 2020) subjects : Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG) はじめに 2014年に画像生成のためのア

                                                                    GANの発展の歴史を振り返る!GANの包括的なサーベイ論文の紹介(アルゴリズム編)
                                                                  • 第9回:Kaggleの「画像コンペ」とは--取り組み方と面白さを読み解く

                                                                    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 今回は「Kaggle」の画像コンペに取り組む方法を紹介したいと思います。筆者は、2017年9月ごろにKaggleを始め、最初はECサイト向けの画像分類に挑戦しました。それ以降、画像コンペを中心に取り組んでいます。大学の専攻はオペレーションズリサーチで画像認識とは無縁でしたが、コンペを通じて知識や知見を得ながら、念願のKaggle Masterになることができました。本稿ではその取り組みを紹介し、少しでもイメージを持ってもらえればと思います。 Kaggleにおける画像コンペとは Kaggleで行われる画像コンペでは、画像認識の分野においてオーソドックスな分類や検出、セグメンテーションといったタスクが多いです。例えば、「Human Prot

                                                                      第9回:Kaggleの「画像コンペ」とは--取り組み方と面白さを読み解く
                                                                    • CLIP: Connecting text and images

                                                                      We’re introducing a neural network called CLIP which efficiently learns visual concepts from natural language supervision. CLIP can be applied to any visual classification benchmark by simply providing the names of the visual categories to be recognized, similar to the “zero-shot” capabilities of GPT-2 and GPT-3. Although deep learning has revolutionized computer vision, current approaches have se

                                                                        CLIP: Connecting text and images
                                                                      • Best of arXiv.org for AI, Machine Learning, and Deep Learning – July 2020 - insideBIGDATA

                                                                        Best of arXiv.org for AI, Machine Learning, and Deep Learning – July 2020 In this recurring monthly feature, we filter recent research papers appearing on the arXiv.org preprint server for compelling subjects relating to AI, machine learning and deep learning – from disciplines including statistics, mathematics and computer science – and provide you with a useful “best of” list for the past month.

                                                                          Best of arXiv.org for AI, Machine Learning, and Deep Learning – July 2020 - insideBIGDATA
                                                                        • Building Meta’s GenAI Infrastructure

                                                                          Marking a major investment in Meta’s AI future, we are announcing two 24k GPU clusters. We are sharing details on the hardware, network, storage, design, performance, and software that help us extract high throughput and reliability for various AI workloads. We use this cluster design for Llama 3 training. We are strongly committed to open compute and open source. We built these clusters on top of

                                                                            Building Meta’s GenAI Infrastructure
                                                                          • MinD-Vis

                                                                            Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding CVPR2023 1National University of Singapore, Center for Sleep and Cognition, Centre for Translational Magnetic Resonance Research 2The Chinese University of Hong Kong, Department of Information Engineering 3Standford University, Vision and Learning Lab *Equal Contribution Motivation Decoding visual

                                                                            • Azure Cognitive Search にベクトル検索機能が搭載されプライベートプレビューが開始 - Qiita

                                                                              はじめに ついにこの時が来ましたね。 Azure Cognitive Search にベクトル検索機能が実装され、近似最近傍探索(ANN)が可能になります。これによって、Azure OpenAI Serivce の Embeddings API で生成したベクトルの永続的なフルマネージドベクトルデータベースとして利用できるだけでなく、既存の BM25 ベースの全文検索とのハイブリッド検索が可能になります。 2023/11/15 GA どなたでもお使いいただけます。 ポイント ベクトルデータベース Azure OpenAI の Embeddings モデル text-embedding-ada-002(1,536 次元) や Computer Vision (Vectorize Image API) で生成した画像ベクトルなどの保管先にできる ハイブリッド検索 キーワード検索とベクトル検索を

                                                                                Azure Cognitive Search にベクトル検索機能が搭載されプライベートプレビューが開始 - Qiita
                                                                              • Self-supervised learning: The dark matter of intelligence

                                                                                In recent years, the AI field has made tremendous progress in developing AI systems that can learn from massive amounts of carefully labeled data. This paradigm of supervised learning has a proven track record for training specialist models that perform extremely well on the task they were trained to do. Unfortunately, there’s a limit to how far the field of AI can go with supervised learning alon

                                                                                  Self-supervised learning: The dark matter of intelligence
                                                                                • 1st place Solution for the SpaceNet5 | ho.lc

                                                                                  SpaceNet Challenge Round5 で優勝したのでコンテストで用いた解法について紹介します。 要約¶ 単純な Semantic segmentation タスクではなく、道路ネットワークをグラフ構造として抽出して、ルーティングへの応用を想定したグラフ構造に対する評価指標が用いられた。 未知の都市に対してもロバストな推定ができるように、取得できるすべての都市で検証セットを作成した。 既存の手法 CRESIv2 のエラー分析を行い、道路ネットワーク抽出に特化した後処理を開発した。 コンテストの背景と課題¶ SpaceNet Challenge は CosmiQ Works, MAXAR, Intel, AWS, Capella Space, TopCoder, IEEE GRSS が協賛および主催するコンテストのシリーズです。第五回目となる SpaceNet Challenge

                                                                                    1st place Solution for the SpaceNet5 | ho.lc