You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
Segment Anything’s promptable design enables flexible integration with other systems. SAM could receive input prompts, such as a user’s gaze from an AR/VR headset, like Project Aria. SAM: A generalized approach to segmentation Previously, to solve any kind of segmentation problem, there were two classes of approaches. The first, interactive segmentation, allowed for segmenting any class of object
Graph Neural Networks Foundations, Frontiers, and Applications Lingfei Wu, Pinterest Peng Cui, Tsinghua University Jian Pei, Duke University Liang Zhao, Emory University The field of graph neural networks (GNNs) has seen rapid and incredible strides over the recent years. Graph neural networks, also known as deep learning on graphs, graph representation learning, or geometric deep learning have be
A course by Andrej Karpathy on building neural networks, from scratch, in code. We start with the basics of backpropagation and build up to modern deep neural networks, like GPT. In my opinion language models are an excellent place to learn deep learning, even if your intention is to eventually go to other areas like computer vision because most of what you learn will be immediately transferable.
東京工業大学 科学技術創成研究院の劉載勲氏(准教授)と本村真人氏(教授)らは、隠れニューラルネットワーク(Hidden Neural Network、以下HNN)と呼ばれる新たなDNN(Deep Neural Network)技術をベースにした推論アクセラレーター(処理回路)を世界で初めて開発。それをICにした成果を半導体の国際学会「ISSCC(International Solid-State Circuits Conference) 2022」で発表した ニュースリリース 。この推論アクセラレーターを利用することで、既存の推論アクセラレーターと同等の処理精度を維持しつつ、消費電力増大の元凶である外部メモリー(一般にDRAM)のアクセスを大幅に削減できる。今回のICを使った場合の推論の電力効率は34.8TOPS/Wと高い。本村氏は、開発した技術が自動運転車や自律航行ドローンの低電力化、人
カメラによる動画解析やセンサーを用いた3次元画像処理など、コンピューターにデジタルな画像や動画を理解させてさまざまな処理を行わせる研究分野を「コンピュータービジョン」といいます。このコンピュータービジョンを取り入れたシステムを開発する企業・Voxel51が、コンピュータービジョンが製造業で応用されるケースについて語っています。 How Computer Vision Is Changing Manufacturing in 2023 - Voxel51 https://voxel51.com/blog/how-computer-vision-is-changing-manufacturing-in-2023/ 産業用ロボットでコンピュータービジョンが応用される作業の1つが、ビン(部品置き場)からオブジェクトを選択して持ち上げて別の場所に配置する「ビンピッキング」です。ビンピッキングを行うた
機械学習セキュリティのベストプラクティス – Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning – 論文紹介 概要 「Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning」は、米国のNIST(National Institute of Standards and Technology)が策定を進めている機械学習セキュリティに関するベストプラクティスのドラフトであり、機械学習システムの安全確保を目的として、機械学習にまつわるセキュリティを「攻撃」「防御」「影響」の3つの視点で分類している。 NISTIR8269はブログ執筆時点(2020年7月9日)でドラフト版であるが、「NIST SP8
Andrew Ng has serious street cred in artificial intelligence. He pioneered the use of graphics processing units (GPUs) to train deep learning models in the late 2000s with his students at Stanford University, cofounded Google Brain in 2011, and then served for three years as chief scientist for Baidu, where he helped build the Chinese tech giant’s AI group. So when he says he has identified the ne
モータースポーツを統括する国際自動車連盟(FIA)が、2023年11月24日から26日にかけて開催されるF1第23戦アブダビGPで、コンピュータービジョンとAIを走路外走行(トラックリミット)の検出に導入する方針を明らかにしました。 FIA Insights - Computer Vision | Federation Internationale de l'Automobile https://www.fia.com/news/fia-insights-computer-vision Formula 1 hopes AI will help it figure out if a car breaks track limits https://www.engadget.com/formula-1-hopes-ai-will-help-it-figure-out-if-a-car-break
3つの要点 ✔️ ViTは、すべての層でより均一な表現(特徴量)を持っている。つまり各層での表現が似ている。 ✔️ ViTは、自己注意(self-attention)により早期にグローバルな情報を集約できる。 ✔️ ViTは、表現を下位層から上位層へ強く伝搬させる。 Do Vision Transformers See Like Convolutional Neural Networks? written by Maithra Raghu, Thomas Unterthiner, Simon Kornblith, Chiyuan Zhang, Alexey Dosovitskiy (Submitted on 19 Aug 2021 (v1), last revised 3 Mar 2022 (this version, v2)) Comments: Published on arxiv.
3つの要点 ✔️ 多層パーセプトロン(MLP)だけのシンプルなアーキテクチャでSoTAに匹敵する画像分類性能を達成 ✔️ 位置ごとの特徴と空間的な情報を繰り返しMixする ✔️ 計算コストを抑えつつ、同時に高い精度を達成 MLP-Mixer: An all-MLP Architecture for Vision written by Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, Alexey Dosovitskiy (Submitted on 4 May 2021 (v1), last
👋 Hi folks, thanks for reading my newsletter! My name is Diogo Santos, and I write about data product principles, the evolution of the modern data stack, and the journey to data mesh (the future of data architecture). In today’s article, I’ll discuss the biggest challenges in the modern data stack. How do we got here, what are the main problems, and how to address them. Please consider subscribin
🐉 Automate Browser-based workflows using LLMs and Computer Vision 🐉 Skyvern automates browser-based workflows using LLMs and computer vision. It provides a simple API endpoint to fully automate manual workflows, replacing brittle or unreliable automation solutions. Traditional approaches to browser automations required writing custom scripts for websites, often relying on DOM parsing and XPath-b
Transformer, an attention-based encoder-decoder model, has already revolutionized the field of natural language processing (NLP). Inspired by such significant achievements, some pioneering works have recently been done on employing Transformer-liked architectures in the computer vision (CV) field, which have demonstrated their effectiveness on three fundamental CV tasks (classification, detection,
CVPR 2021, Tutorial on Normalization Techniques in Deep Learning: Methods, Analyses, and Applications Saturday morning (10:00 AM - 13:30 PM EDT), June 19, 2021 Slides and videos are available on this website. Normalization methods can improve the training stability, optimization efficiency and generalization ability of deep neural networks (DNNs), and have become basic components in most state-of-
Google Cloud unveils Vertex AI, one platform, every ML tool you need Today at Google I/O, we announced the general availability of Vertex AI, a managed machine learning (ML) platform that allows companies to accelerate the deployment and maintenance of artificial intelligence (AI) models. Vertex AI requires nearly 80% fewer lines of code to train a model versus competitive platforms1, enabling dat
3つの要点 ✔️ 新しいadaptive gradient clipping法を用いたバッチ正規化の代替 ✔️ 正規化なしアーキテクチャNFNetsがSOTAを達成 ✔️ バッチ正規化を用いたモデルよりも、優れた学習速度と伝達学習能力を持つ High-Performance Large-Scale Image Recognition Without Normalization written by Andrew Brock, Soham De, Samuel L. Smith, Karen Simonyan (Submitted on 11 Feb 2021) Comments: Accepted to arXiv. Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG); Ma
Visiteurs depuis le 27/01/2019 : 5131 Connectés : 1 Record de connectés : 15 Download rage comics for mac. But it would not finish right here! Give it a check out, you are going to notice this is absolutely the finest way to go through about FFFFFFUUUUUUUUUUU, Cereal Person and Me Gusta. Working with highly developed laptop or computer vision strategies, Rage Comics identifies each individual pane
Stable Diffusionの新しいバージョン、SDXLが出ています。 ただ、SDXLは大きい画像で学習しているためか、ちゃんとした画像を生成するにはそれなりの解像度を設定する必要があります。 ということで、Stable Diffusion Web UIの解像度設定をスライダーからドロップダウンにしてよさげな値を指定しやすくしてみました。 SDXLでは512x512で画像を生成すると、こういうパターンが生成されることが多くなります。 まともなものが生成されても、ちょっと画力低くないですかと言いたくなるものになってしまいます。 ということで、SDXLを使うときのオススメ解像度がいくつか出てきていますね。 https://www.reddit.com/r/StableDiffusion/comments/15c3rf6/sdxl_resolution_cheat_sheet/ アニメ画風の
In recent years, we've see an extra-ordinary growth in Computer Vision, with applications in face recognition, image understanding, search, drones, mapping, semi-autonomous and autonomous vehicles. A key part to many of these applications are visual recognition tasks such as image classification, object detection and image similarity. This repository provides examples and best practice guidelines
追記 2022 年版を書きました。 本文 2 年くらいまえにこんな記事を書きました。 ハッカソンで使い勝手の良さそうな Microsoft のサービス 2 年もたつと今のご時世色々変わりますよね。ということで 2020 年 9 月時点の自分の知ってる範囲でまとめてみようと思います。 QnA Maker トップバッターは QnA Maker ですね! 質問と回答のペアを登録してトレーニングすると質問に対して一番それっぽい答えを返してくれる API が出来ます。 特徴としては、QA サイトとかみたいに質問と回答が書いてあるホームページとかを食わせてもいいです。 単純な REST API が出来上がるので直接 URL を叩いてもいいし C#、Go、JavaScript、Python、Ruby 向けの SDK が提供されている(これを書くために調べてみて Java 版がないのにびっくりした!)ので
For a while, DanNet enjoyed a monopoly. From 2011 to 2012 it won every contest it entered, winning four of them in a row (15 May 2011, 6 Aug 2011, 1 Mar 2012, 10 Sep 2012).[GPUCNN5] In particular, at IJCNN 2011 in Silicon Valley, DanNet blew away the competition and achieved the first superhuman visual pattern recognition[DAN1] in an international contest. DanNet was also the first deep CNN to win
We summarise the state of the competitive landscape and analyse the 200+ competitions that took place in 2022. Plus a deep dive analysis of 67 winning solutions to figure out the best strategies to win at competitive ML. 2022 was a big year for competitive machine learning, with a total prize pool of more than $5m across all platforms. This report reviews all the interesting things that happened i
IntroductionWhile I do not like getting pulled over by cops any more than you do, I can't deny that having cameras that can track and count the vehicles passing by attached to traffic lights might just do some good for society. Computers are getting better everyday at thinking, analyzing situations and making decisions like humans do. Understanding vision is an integral part of this progress in th
表示:著作権者の表示義務有り 営利目的(非営利):利用は非営利に限る 改変(改変禁止):一切の編集を禁じる 継承:頒布をする場合は、元のライセンスを受け継ぐ必要あり 人の行動のデータセット Google DeepMind Youtubeから収集した人間の行動に関するデータセット https://deepmind.com 利用条件:表示 人の行動のデータセット University of Central Florida サーフィン、メイク、髭剃り、などの認識用のデータセット http://crcv.ucf.edu/ 利用条件:特記無し。ページ中央部に連絡先が載っています。 動きのデータセット MIT-IBM Watson AI Lab モーションに関するデータセット。 人間以外にも、犬、パンダ、流れる水、アニメーションも含まれて居ます。 http://moments.csail.mit.ed
超解像とは、元々の画像の解像度を擬似的に上げる技術のことです。機械学習分野における超解像は注目分野のうちの一つですが、衛星画像に超解像を適用するとどうなるのか、その技術や将来性について、シャープ株式会社研究開発事業本部 通信・映像技術研究所 第三研究室 課長・猪飼知宏さん、研究員・佐々木瑛一さんに伺ってきました。 xData Allianceに参画し、さくらインターネットとともに衛星データ利活用を進めるシャープ株式会社。本記事では、アライアンスの枠組みの中で取り組んでいる、機械学習による衛星画像の超解像についてご紹介します。 超解像とは、元々の画像の解像度を擬似的に上げる技術のことです。 超解像の一例。左端が元画像、左から二番目が粗くしたインプット画像、右5つは様々な手法で超解像を行った例。 Credit : FSRNet: End-to-End Learning Face Super-R
ライブラリが豊富でさまざまな開発が行えるPythonでは、画像処理も簡単に実現できます。近年、AI(人工知能)の発達によってPythonの人気も高まっていますが、AIの画像処理で利用されることの多い「OpenCV」はご存知でしょうか。OpenCVを利用すれば、顔認識や追跡などの画像処理を非常に簡潔なコードで記述できます。 この記事では、OpenCVの概要からインストール手順、基本的な操作方法と併せて、顔認識を実現するための方法を解説します。 OpenCVとは? OpenCVはインテル社が開発・公開しているオープンソースのライブラリです。もともとはOpen Source Computer Vision Libraryという名称でしたが、2006年にOpenCVとして生まれ変わりました。OpenCVは商用利用であっても無料で利用でき、画像処理や画像解析、機械学習向けの機能が集約されています。例
Amazon has announced its “first fully autonomous mobile robot,” meant to move large carts throughout its warehouses. The robot is called Proteus, and Amazon says it can safely navigate around human employees, unlike some of its past robots that it kept separated in a caged area. Amazon says Proteus robots have “advanced safety, perception, and navigation technology,” and a (strangely silent) video
Credit for the title image: Liu et al. (2021) 2021 saw many exciting advances in machine learning (ML) and natural language processing (NLP). In this post, I will cover the papers and research areas that I found most inspiring. I tried to cover the papers that I was aware of but likely missed many relevant ones. Feel free to highlight them as well as ones that you found inspiring in the comments.
今月4日、AnthropicがClaude 3を発表しました。Anthropicの発表している評価結果では、OpenAI GPT-4やGoogleのGemini 1.0 Ultraを上回る高い性能を示しています。私もClaude 3 Sonnetを使って、翻訳やテストケース作成などの作業をいくつかやってもらいましたが、私の体感でもGPT-4と同等かそれを上回る高い性能だと感じました。 最近の生成AIは画像認識系機能を組み込んでおり、Claude 3もVision機能が提供されています。具体的には写真やグラフ、図などを読み込んで処理する用途が想定されているそうです。 私は以前から、「Azure Computer Vision APIの日本語OCR機能を使ってみる」、「Google Cloud Vision APIの日本語OCR機能を使ってみる」、「OpenAIのGPT-4 Turbo wit
みつばたんが最近 ASP.NET Core MVC 周りで死ぬほどはまっていたみたいですが、ポートフォリオサイトを作っていたようです。自分は死ぬほどはまっていた時には全くアドバイスしなかったのに、大体動くようになってからアドバイスをするという徳の低いことをした気がします。 その時のアドバイスは雑に Twitter で空リプで行いましたが、残しておいた方が良いかなと思ったので雑に Twitter を引用しつつまとめました。 認証は AAD + Easy Auth で 数えきれないぐらい言ってきていますが、サクッとサイトをログイン必須にして保護したい場合には AAD と Easy Auth を使うのが手っ取り早いです。 B2C は要らんやろ。Easy Auth で AAD を設定すれば Azure Portal にログイン出来る人間だけログイン出来るようになる— Tatsuro Shibamu
Rist Kaggle チームの藤本(@fam_taro)です。 今回は Rist Kaggle合宿2023夏の時間を使って、最近の OpenMMLab の始め方をまとめてみました。本記事内ではその中の mmdetection を使って説明していきますが、他の OpenMMLab の使い方もカバーする内容となってます。 また記事の後半では Kaggle のコードコンペなどに参加したいときの使い方も記載します。 1. OpenMMLabとは 下図と紹介文は 公式サイト より引用 OpenMMLab builds the most influential open-source computer vision algorithm system in the deep learning era. It aims to provide high-quality libraries to reduc
マルチコアCPU/GPU/FPGAを用いた高速化技術のグローバルリーダーである株式会社フィックスターズ(東証1部: 3687、代表取締役社長 CEO: 三木 聡)は、同社が開発した視差計算のオープンソースソフトウェア(OSS)「libSGM」が、コンピュータビジョン向けOSSライブラリ「OpenCV」に正式実装されたことをお知らせします。ステレオカメラの画像から視差計算をするlibSGMは、複雑化・高度化する自動運転システムの前方注視能力の向上など様々な用途に活用が期待されています。推定1800万ダウンロードを超えるOpenCVに採用されたことで、コミュニティを通じて世界中のデベロッパーにlibSGMを活用いただきやすくなりました。 OpenCV(https://opencv.org/)にフィックスターズのlibSGMが実装された libSGMとOpenCV libSGMは、Semi-Gl
Machines or computers only understand numbers. And these numbers need to be represented and processed in a way that lets machines solve problems by learning from the data instead of learning from predefined instructions (as in the case of programming). All types of programming use mathematics at some level. Machine learning involves programming data to learn the function that best describes the da
PyTorch 確率的プログラミング GPyTorch Pyro BoTorch Ax Training Wrapper pytorch lightning ignite Catalyst skorch Computer Vision kaolin pytorch3d kornia PyTorch pytorch.org いわずとしれたディープラーニングフレームワークです。最近、国産のフレームワークであるChainerの開発元であるPFNが、PyTorchへの移行を示したこともあり、一層認知度が高まったように思います。すでに研究分野ではTensorFlowよりも高いシェアを誇っている状態であり、今後、プロダクション方向にも整備が行くようで更に注目しておくべきでしょう。 ディープラーニングフレームワークと言いつつ、多次元配列の計算を自在に行うことが可能な自動微分ライブラリとして活用することも
Image recognition (i.e. classifying what object is shown in an image) is a core task in computer vision, as it enables various downstream applications (automatically tagging photos, assisting visually impaired people, etc.), and has become a standard task on which to benchmark machine learning (ML) algorithms. Deep learning (DL) algorithms have, over the past decade, emerged as the most competitiv
Deep learning is a group of exciting new technologies for neural networks. Through a combination of advanced training techniques and neural network architectural components, it is now possible to create neural networks that can handle tabular data, images, text, and audio as both input and output. Deep learning allows a neural network to learn hierarchies of information in a way that is like the f
OCR provides us with different ways to see an image, find and recognize the text in it. When we think about OCR, we inevitably think of lots of paperwork - bank cheques and legal documents, ID cards and street signs. In this blog post, we will try to predict the text present in number plate images. What we are dealing with is an optical character recognition library that leverages machine learning
Deep learning has seen tremendous success over the past decade in computer vision, machine translation, and gameplay. This success rests in crucial ways on gradient-descent optimization and the ability to learn parameters of a neural network by backpropagating observed errors. However, neural network architectures are growing increasingly sophisticated and diverse, which motivates an emerging ques
by Hugo Barra (former Head of Oculus at Meta) Friends and colleagues have been asking me to share my perspective on the Apple Vision Pro as a product. Inspired by my dear friend Matt Mullenweg’s 40th post, I decided to put pen to paper. This started as a blog post and became an essay before too long, so I’ve structured my writing in multiple sections each with a clear lead to make it a bit easier
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く