  • 世界のAI学会「NeurIPS」のコンペが激戦に、競り勝って入賞した日本勢とは

    2019年12月にカナダのバンクーバーで開催された、世界的に有力なAI(人工知能)の国際学会「NeurIPS」には、一線級のAI研究者やエンジニア、ユーザー企業の担当者などが集まった。会期後半にはAIによるタスクの解決を競うコンペティションが2日間にわたって繰り広げられた。日本勢では東京大学や金沢大学の研究者が入賞した。 コンペのプログラムは16種類あり、2018年の8種類から倍増した。全体で約4000チームが参加し、1万5000回の投稿をしたという。プログラムには与えられた課題をバーチャル空間上で解くものから、実際にサーキットで模型を走らせて競うライブ型などがある。 プログラムを目的別に大別すると、クルマやロボット、ドローンなどの操縦を自動化するものと、マラリアの撲滅や気象予測などビッグデータをAIで分析することによって社会課題を解決するもの2つがある。前者はゲームの形態をとるものが多い

    • How to Train a TensorFlow 2 Object Detection Model

      With the recent release of the TensorFlow 2 Object Detection API, it has never been easier to train and deploy custom state of the art object detection models with TensorFlow. To build a custom model you can leverage your own custom dataset to detect your own custom objects: foods, pets, mechanical parts, and more. In this blog and TensorFlow 2 Object Detection Colab Notebook, we walk through how

      • 40 Years on, PAC-MAN Recreated with AI by NVIDIA Researchers

        40 Years on, PAC-MAN Recreated with AI by NVIDIA Researchers GameGAN, a generative adversarial network trained on 50,000 PAC-MAN episodes, produces a fully functional version of the dot-munching classic without an underlying game engine. Forty years to the day since PAC-MAN first hit arcades in Japan, and went on to munch a path to global stardom, the retro classic has been reborn, delivered court

        • チーズをAIが自動判別してオススメのワインまで教えてくれる「Cheezam !」を使ってみた

          チーズ好きな人の中には、SNSの投稿などでおいしそうなチーズを見かけて、「チーズの名前は分からないけど食べてみたいな」と思った経験がある人は少なくないはず。しかし、チーズの種類は実に1000種類以上もあると言われているので、外見だけでどんなチーズなのか知るのは容易なことではありません。そんな時に、AIがチーズの種類を自動で判別してくれる「Cheezam !」を使うと、画像や写真に映っているチーズが一発で分かるとのことなので、実際に使ってみました。 Cheezam ! By Prevision.IO - Computer Vision with AI for cheese https://cheezam.fr/ 上記のURLにアクセスするとこんな感じ。使い方は簡単で、まず赤枠のボタンをクリックします。 次に、調べたいチーズの画像を選択して「開く」をクリックします。 すると、「モルビエ」との判

          • Trends in Natural Language Processing: ACL 2019 In Review - Mihail Eric

            This week I had the great fortune to attend the Annual Meeting of the Association for Computational Linguistics (ACL) 2019 held in wonderful Florence in an old Medici family fortress. Conferences are some of my favorite events to attend because in a very short amount of time you are able to tap into the stream-of-consciousness of a community, to learn what people are thinking and where the field i

            • 2つのTransformerが協力して1つの強いGANを作ることが可能!

              3つの要点 ✔️ 世界初の純粋なトランスフォーマーベースのGAN ✔️ 変形GANを学習するためのメモリフレンドリーな生成器と新しい学習技術のセット ✔️ STL-10ベンチマークにおいて、CNNベースのGANや新しいSOTAと競合する結果を獲得 TransGAN: Two Transformers Can Make One Strong GAN written by Yifan Jiang, Shiyu Chang, Zhangyang Wang (Submitted on 14 Feb 2021 (v1), last revised 16 Feb 2021 (this version, v2)) Comments: Accepted to arXiv. Subjects: Computer Vision and Pattern Recognition (cs.CV) code: はじめ

              • Stable Diffusion - Wikipedia

                Stable Diffusion(ステイブル・ディフュージョン)は、2022年に公開されたディープラーニング(深層学習)のtext-to-imageモデル(英語版)である。主にテキスト入力に基づく画像生成(text-to-image)に使用されるが、他にもインペインティング(英語版)(英: inpainting)、アウトペインティング(英: outpainting)、テキストプロンプトによって誘導される画像に基づく画像生成(image-to-image)にも使用される[3]。 Stable Diffusionは、ミュンヘン大学のCompVisグループが開発した潜在拡散モデル(英: latent diffusion model)であり、深層生成ニューラルネットワーク(英: deep generative neural network)の一種である[4]。このモデルは、EleutherAIとL

                • ‎Scaniverse - 3D Scanner

                  NEW! Introducing Splats: Create photorealistic 3D scenes with this new scanning mode. From small objects to large areas, 3D gaussian splatting delivers an unprecedented level of detail with accurate lighting and reflections. Scaniverse lets you capture, edit, and share 3D content directly from your phone. Using LiDAR and computer vision, it builds 3D models with high fidelity and stunning detail.

                  • AI Canon | Andreessen Horowitz

                    Research in artificial intelligence is increasing at an exponential rate. It’s difficult for AI experts to keep up with everything new being published, and even harder for beginners to know where to start. So, in this post, we’re sharing a curated list of resources we’ve relied on to get smarter about modern AI. We call it the “AI Canon” because these papers, blog posts, courses, and guides have h

                    • GET3D: A Generative Model of High Quality 3D Textured Shapes Learned from Images

                      We generate a 3D SDF and a texture field via two latent codes. We utilize DMTet to extract a 3D surface mesh from the SDF, and query the texture field at surface points to get colors. We train with adversarial losses defined on 2D images. In particular, we use a rasterization-based differentiable renderer to obtain RGB images and silhouettes. We utilize two 2D discriminators, each on RGB image, an

                      • 🤗 Transformers

                        🤗 Transformers State-of-the-art Machine Learning for PyTorch, TensorFlow, and JAX. 🤗 Transformers provides APIs and tools to easily download and train state-of-the-art pretrained models. Using pretrained models can reduce your compute costs, carbon footprint, and save you the time and resources required to train a model from scratch. These models support common tasks in different modalities, suc

                        • Azure OpenAI Service で GPT-4 Turbo with Vision を使う

                          Microsoft Ignite 2023 にて、これらのモデルが近いうちに Azure OpenAI Service でも利用可能になることが発表されていましたが、このたびマルチモーダル入力対応の GPT-4 Turbo with Vision のプレビューが開始しました。(テキスト入力のみを受け付ける無印 GPT-4 Turbo は一足先にプレビュー開始していました。) 参考 New models and developer products announced at DevDay (本家 OpenAI) Azure OpenAI Service Launches GPT-4 Turbo and GPT-3.5-Turbo-1106 Models GPT-4 および GPT-4 Turbo プレビュー モデル 利用可能なリージョン 執筆時点で GPT-4 Turbo with Visi

                          • 10 ML & NLP Research Highlights of 2019

                            This post gathers ten ML and NLP research directions that I found exciting and impactful in 2019. For each highlight, I summarise the main advances that took place this year, briefly state why I think it is important, and provide a short outlook to the future. The full list of highlights is here: Universal unsupervised pretrainingLottery ticketsThe Neural Tangent KernelUnsupervised multilingual le

                            • 深層学習モデルの推論ランタイムを0から作った話

                              はじめに 深層学習モデルを動作させるためのソフトウェアは数多くあります。 PyTorch や TensorFlow などのフレームワークはそれ自身がモデルを実行する機能を持っていますし、ONNX Runtime のようにモデルを動作させることに特化したソフトウェアも存在します。 これらのソフトウェアは大抵、Python などから簡単に扱うことができます。 しかしながら、それらがどのように動作しているのか疑問に思うことはないでしょうか。 この記事では、0 から深層学習モデルの推論ランタイム(長いので以下「深層学習ランタイム」)を作った過程で学んだことを、とりとめもなく紹介していきます。ほとんど、自分用のメモのようになってしまうかもしれません。 作ったものは以下のリポジトリにあります。 (技術的にはかなり適当なことを書いてしまうかもしれません。) 深層学習ランタイムは何をするのか 深層学習ラン

                              • Transformerの成長は止まらない!Transformerの改善に関する研究のまとめ Part1

                                3つの要点 ✔️ Transformerの改良版"Efficient Transformer"について ✔️ Efficient Transformerの大まかな区分について ✔️ Efficient Transformerの関連情報について Efficient Transformers: A Survey written by Yi Tay, Mostafa Dehghani, Dara Bahri, Donald Metzler (Submitted on 14 Sep 2020 (v1), last revised 16 Sep 2020 (this version, v2)) Comments: Accepted at arXiv Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computa

                                • 「差別をAIに植え付ける」としてMIT研究者らが大規模なデータセットをネットから完全削除

                                  近年は人工知能(AI)が差別や偏見を行う可能性が危険視されており、「人工知能アルゴリズムを用いた画像生成が差別を行っている」とFacebookの人工知能部門におけるチーフ研究者が多くの非難や攻撃を受け、Twitterアカウントを停止する事態にもなっています。ニューラルネットワークを訓練する過程ではデータセットが用いられますが、このデータセットが差別の原因となっているとして、10年以上使われてきた大規模なデータセットが研究者自身の手によって削除されました。 80 Million Tiny Images https://groups.csail.mit.edu/vision/TinyImages/ MIT apologizes, permanently pulls offline huge dataset that taught AI systems to use racist, misogy

                                  • AIアノテーションツール20選を比較!タグ付け自動化ツールの選び方

                                    近年、AI・人工知能の技術は急速に進歩しており、さまざまな業界でAIを導入するケースが見受けられます。実際、AIを活用したサービスを利用する方や、実際に業務でAIを活用する方も増えてきていることでしょう。 そんなAI領域ですが、専門用語も数多く存在しているため、正しく理解した上でAIを使いこなしていくには専門用語の理解が欠かせません。そこで今回は、AIを理解する上で重要な「アノテーション」について詳しく解説するとともに、アノテーションを行うツールをご紹介していきますので、ぜひ参考にしてみてください。 アノテーションについて詳しく知りたい方は以下の記事もご覧ください。 アノテーションとは?AI機械学習に欠かせない作業の種類を解説 アノテーションのサービス比較と企業一覧を見る アノテーションとはどんな意味? アノテーションとは、音声や画像、テキストといったさまざまな形態のデータに対し、関連する

                                    • AWS DeepComposer – Compose Music with Generative Machine Learning Models | Amazon Web Services

                                      AWS News Blog AWS DeepComposer – Compose Music with Generative Machine Learning Models Today, we’re extremely happy to announce AWS DeepComposer, the world’s first musical keyboard combined with a generative AI service. Yes, you read that right. Machine learning (ML) requires quite a bit of math, computer science, code, and infrastructure. These topics are exceedingly important but to a lot of asp

                                      • Underspecification Presents Challenges for Credibility in Modern Machine Learning

                                        ML models often exhibit unexpectedly poor behavior when they are deployed in real-world domains. We identify underspecification as a key reason for these failures. An ML pipeline is underspecified when it can return many predictors with equivalently strong held-out performance in the training domain. Underspecification is common in modern ML pipelines, such as those based on deep learning. Predict

                                        • Download Pmp-1.7.8.dmg Free Trial

                                          Achilles: Small chip, big peril. - Check Point Software

                                            Achilles: Small chip, big peril. - Check Point Software

                                            • DensePose From WiFi

                                              Advances in computer vision and machine learning techniques have led to significant development in 2D and 3D human pose estimation from RGB cameras, LiDAR, and radars. However, human pose estimation from images is adversely affected by occlusion and lighting, which are common in many scenarios of interest. Radar and LiDAR technologies, on the other hand, need specialized hardware that is expensive

                                              • 【イベントレポート】3DV 2024に参加しました - ZOZO TECH BLOG

                                                はじめに こんにちは。計測システム部、研究開発ブロックの皆川です。普段はコンピュータービジョンに関わる研究開発を担当しています。 2024年の3月に3次元コンピュータービジョンの国際学会である3DV 2024がスイスのダボスで開催され、幸運にも参加できたので、発表の内容や参加した感想をご紹介いたします。 目次 はじめに 目次 3DV 2024とは なぜ参加したのか 開催地のダボスと、会場のダボスコングレスセンターについて 学会のスケジュール 印象に残った発表 全体的な感想 3D Computer Vision for Dynamic Scene Understanding by Daniel Cremers ドライバーアシスト ドローンを使った研究 バンドル調整 初期のSLAM 直接的なSLAM ニューラルネットワークとSLAM さいごに おまけ 3DV 2024とは 先述の通り、3DVは

                                                • SearchSage: Learning Search Query Representations at Pinterest

                                                  Nikil Pancha | Software Engineer; Andrew Zhai | Software Engineer; Chuck Rosenberg | Head of Advanced Technologies Group; and Jure Leskovec | Chief Scientist, Advanced Technologies Group Pinterest surfaces billions of ideas to people every day, and the neural modeling of embeddings for content, users, and search queries are key in the constant improvement of these machine learning-powered recommen

                                                  • YOLOv8でナンバープレートを検出してAI-OCRで読み取ってみました。 〜ファインチューニングに使用したデータは、撮影した写真ではなく、Pythonで生成した画像(30,000枚・192,000アノテーション)です〜 | DevelopersIO

                                                    5 AI-OCR AI-OCRとしては、MicrosoftのComputer Visionで提供されている、Read APIを使用させて頂きました。 参考: Computer Vision 3.2 GA Read API を呼び出す 最初は、ナンバープレート画像を、そのままOCRにかけてみたのですが、下段左の平仮名1文字のところの認識が難しいようでした。これは、このように「ひらがな」1文字だけが配置されることに、モデルが対応しきれていないような気がしました。 対策として、画像を3つの部分に分割し、それぞれでOCRにかけるようにしてみました。また、認識精度が上がるように、業務用(緑バックの白文字、及び、黒バックの黄色文字)は、ネガポジ反転し、最終的にグレースケール変換することにしました。 AI-OCRで処理しているコードと、それを使っている、全体のコードです。 ocr.py import t

                                                    • Detecting COVID-19 in X-ray images with Keras, TensorFlow, and Deep Learning - PyImageSearch

                                                      Deep Learning Keras and TensorFlow Medical Computer Vision Tutorials by Adrian Rosebrock on March 16, 2020 In this tutorial, you will learn how to automatically detect COVID-19 in a hand-created X-ray image dataset using Keras, TensorFlow, and Deep Learning. Like most people in the world right now, I’m genuinely concerned about COVID-19. I find myself constantly analyzing my personal health and wo

                                                      • 画像に対する自己教師あり表現学習手法について②

                                                        はじめに 機械学習エンジニアの荒居秀尚です。2021年新卒入社で、機械学習モデリングや機械学習を用いたデータ施策におけるMLOps推進などに携わっています。 最近、担当案件で画像を扱っていたのもあり、画像を対象とした自己教師あり表現学習について調査していました。今回はその調査内容について紹介したいと思います。なお、この調査は文献調査と、実際に使ってみて案件への適用可能性を評価した実験とに分かれていますので、ブログの方も両方について触れようと思います。 分量が多いため、自己教師あり学習の基礎の部分の紹介、具体的な手法の紹介、そして応用例の紹介の三部立ての構成になっています。 前回の記事 では、自己教師あり学習が近年大きく発展している背景と、画像を対象とした自己教師あり学習の部品となる技術の紹介を行いました。それを踏まえ、今回は具体的な手法について紹介を行います。 おさらい 代表的手法の紹介に

                                                        • Automate Data Cleaning with Unsupervised Learning

                                                          I like working with textual data. As for Computer Vision, in NLP nowadays there are a lot of ready accessible resources and opensource projects, which we can directly download or consume. Some of them are cool and permit us to speed up and bring to another level our…

                                                          • CompVis/stable-diffusion-v-1-4-original · Hugging Face

                                                            Stable Diffusion is a latent text-to-image diffusion model capable of generating photo-realistic images given any text input. The Stable-Diffusion-v-1-4 checkpoint was initialized with the weights of the Stable-Diffusion-v-1-2 checkpoint and subsequently fine-tuned on 225k steps at resolution 512x512 on "laion-aesthetics v2 5+" and 10% dropping of the text-conditioning to improve classifier-free g

                                                            • Apple machine learning in 2020: What’s new?

                                                              2020 is the year where machine learning on mobile is no longer the hot new thing. Adding some kind of intelligence to apps has become standard practice. Fortunately, that doesn’t mean Apple has stopped innovating. 😅 In this blog post, I’ll summarize what’s new in Core ML and the other AI and ML technologies from the Apple ecosystem. Core ML Last year was a big update for Core ML, but this year th

                                                              • Don’t Build AI Products The Way Everyone Else Is Doing It

                                                                If you want to build AI products that are unique, valuable, and fast, don't do what everybody else is doing. I'll show you what to do instead. What not to doThe vast majority of AI products being built right now are just wrappers over other models, such as those that essentially involve calling ChatGPT over an API. While that's incredibly easy — you send natural language in and get natural languag

                                                                • Kaggle Days Tokyo Report #1 | Wantedly Engineer Blog

                                                                  2019年12月11,12日 の2日間にわたって開催された Kaggle Days Tokyo に参加してきました。 非常に楽しく、学びのある時間を過ごせたので、その記録を残したいと思います。 Kaggle Days とは?Kaggle Daysは、世界最大のデータ分析コンペプラットフォーム Kaggle が開催している世界的なイベントです。プレゼンテーション・ワークショップ・オフラインコンペなどが行われ、データ分析について学んだり、ビジネス課題に対するアイディアを得たり、新しい仲間と交流できる場となっています。 2018年のワルシャワから始まり、今回で6回目の開催になるのですが、なんとその地に東京が選ばれました! Kaggle Days Tokyo December 11-12, 2019 Roppongi Hills, Tokyo Registration is closed Expe

                                                                  • Awesome - Most Cited Deep Learning Papers | Curated list of awesome lists | Project-Awesome.org

                                                                    [Notice] This list is not being maintained anymore because of the overwhelming amount of deep learning papers published every day since 2017. A curated list of the most cited deep learning papers (2012-2016) We believe that there exist classic deep learning papers which are worth reading regardless of their application domain. Rather than providing overwhelming amount of papers, We would like to p

                                                                    • Deno 1.8 Release Notes

                                                                      Today we are releasing Deno 1.8.0. This release contains a massive amount of new features and stabilizations: Experimental support for WebGPU API: paving a path towards out-of-the-box GPU accelerated machine learning in Deno Built-in internationalization APIs enabled: all JS Intl APIs are available out of the box Revamped coverage tooling: coverage now supports outputting lcov reports Import maps

                                                                      • Efficient Deep Learning: A Survey on Making Deep Learning Models Smaller, Faster, and Better

                                                                        Deep Learning has revolutionized the fields of computer vision, natural language understanding, speech recognition, information retrieval and more. However, with the progressive improvements in deep learning models, their number of parameters, latency, resources required to train, etc. have all have increased significantly. Consequently, it has become important to pay attention to these footprint

                                                                        • Coursera の AWS Machine Learning での機械学習スキルの習得 | Amazon Web Services

                                                                          Amazon Web Services ブログ Coursera の AWS Machine Learning での機械学習スキルの習得 機械学習 (ML) は、テクノロジーで最も急速に成長している分野のひとつで、今日の求人市場において極めて高い人気があります。今日は、Coursera と共同で構築された、ML スキルを習得するために役立つ新しい教育コース、Getting started with AWS Machine Learning をご紹介したいと思います。このコースの内容は、Coursera ウェブサイトで、今すぐ無料でアクセスできます。 世界経済フォーラム [1] は、人工知能 (AI) の発達は今後数年間で 5,800 万のまったく新しい仕事を生み出す可能性があるとしていますが、何百万人もの AI エンジニアが必要であることに反して、AI エンジニアは現在世界中で 30 万人

                                                                          • Universal and Transferable Attacks on Aligned Language Models

                                                                            Universal and Transferable Adversarial Attacks on Aligned Language Models Andy Zou1, Zifan Wang2, Nicholas Carlini3, Milad Nasr3, J. Zico Kolter1,4, Matt Fredrikson1 1Carnegie Mellon University, 2Center for AI Safety, 3 Google DeepMind, 4Bosch Center for AI Overview of Research : Large language models (LLMs) like ChatGPT, Bard, or Claude undergo extensive fine-tuning to not produce harmful content

                                                                            • 10 Things Serverless Architects Should Know | Amazon Web Services

                                                                              AWS Architecture Blog 10 Things Serverless Architects Should Know Building on the first three parts of the AWS Lambda scaling and best practices series where you learned how to design serverless apps for massive scale, AWS Lambda’s different invocation models, and best practices for developing with AWS Lambda, we now invite you to take your serverless knowledge to the next level by reviewing the f

                                                                              • How Transformers work in deep learning and NLP: an intuitive introduction | AI Summer

                                                                                The famous paper “Attention is all you need” in 2017 changed the way we were thinking about attention. With enough data, matrix multiplications, linear layers, and layer normalization we can perform state-of-the-art-machine-translation. Nonetheless, 2020 was definitely the year of transformers! From natural language now they are into computer vision tasks. How did we go from attention to self-atte

                                                                                • Microsoft Academic Search APIで自分専用の論文検索エンジンを作る - 終末 A.I.

                                                                                  サーベイなどで論文検索をする時によく困るのが、キーワードをこねくり回さないと以外と読むべき論文に出会えないという点です。 特に「Dialogue System」や「Image Captioning」などのように、母数が少ないニッチな分野になると、学術用検索エンジンにキーワードを入力するだけでは、キーワードにマッチするものがトップに上がってくるだけで、必ずしもその分野を代表するような論文がヒットしてくれるわけではありません。 ホットな分野であれば、サーベイ論文、学会のチュートリアル資料など、人工知能学会の「私のブックマーク」を漁ると良さそうな情報が見つかることもありますが、なかなか新しい情報がまとまっていないということも多くあります。 その点で検索しやすいなと思っているのが、Microsoft Academicです。 下記の記事にもまとまっていますように、文献に紐付けられたトピックで論文を絞

