日本ロボット学会 ロボット工学セミナー 第126回 ロボットのための画像処理技術 講演資料 https://www.rsj.or.jp/event/seminar/news/2020/s126.html 2012年の画像認識コンペティションILSVRCにおけるAlexNetの登場以降,画像認識においては深層学習,その中でも特に畳み込みニューラルネットワーク (CNN) を用いることがデファクトスタンダードとなった.CNNはクラス分類をはじめとして,物体検出やセグメンテーションなど様々なタスクを解くためのベースネットワークとして広く利用されてきている.本講演では,CNNの発展を振り返るとともに,エッジデバイスで動作させる際に重要となる高速化等,関連する深層学習技術の解説を行う. 1. クラス分類向けモデルについて 1.1. ILSVRCで振り返る進化の歴史 1.2. その他重要なモデル 1
こんにちは! 画像システムグループで機械学習エンジニアをやっている小島です。 この記事では、今ホットな「Zero-shot Learning」と「Vision & Language」に関する最新情報を、CLIPという研究を起点として網羅的にサーベイをしていきます。このために論文1000本に目を通し、70本程度を記事にしました。 Zero-shotやVision & Languageは、Stable Diffusionに代表される画像生成AIとも密接に関連している技術です。この記事を通して、Vision & Languageの奥深い世界を体感できるでしょう。 注意事項 この記事は非常に長いため、全部読むのに1時間以上かかる可能性があるので、休憩を取りながら、または必要な部分だけ読んでください。各セクションを個別に読んでも問題ありません。 また、文章中の画像は、特別な記載がない限り、引用元の論
超お手軽エッジAIデバイス「M5StickV」 ファブコア・カフェでお話しした「AIエッジデバイス入門」(詳細は以下記事参照下さい)。 主に、Jetson Nanoについてお話ししたのですが、小ネタとして使えないかなと、最近私のTL周りで話題の「M5StickV」も買っていました。初めて触ったのがプレゼン当日ということもあり、プレゼン自体には直接活かすことは無かったのですが(プレゼン後の質疑応答で少し話題に出しました)、なかなか予想外に面白いデバイスでした。 M5Stack UnitV Kendryte K210デュアルコア64ビットRISC-V CPUのAIカメラ最先端のニューラルネットワークプロセッサ (Stick V) メディア: エレクトロニクス 外観 ケースに描いてあるこの可愛い図が回路図(!?)らしい。まあソフト開発にはたしかにこれで良いですね このサイズで、カメラの写真をリア
CIFAR-10 (Canadian Institute for Advanced Research, 10 classes) The CIFAR-10 dataset (Canadian Institute for Advanced Research, 10 classes) is a subset of the Tiny Images dataset and consists of 60000 32x32 color images. The images are labelled with one of 10 mutually exclusive classes: airplane, automobile (but not truck or pickup truck), bird, cat, deer, dog, frog, horse, ship, and truck (but no
今回紹介するのは、画像生成AI、GAN(敵対的生成ネットワーク)の中身を詳しく調査したという研究です。最近のGANは人でも本物の写真かどうか見間違うほどの性能を発揮しますが、GANがどのように『描いている』かを可視化した結果、簡単には説明できないような描画スキルを獲得していることがわかってきました。(※1) 論文 https://openreview.net/forum?id=Hyg_X2C5FX (1) AIの中身 先週、日本政府がまとめた人工知能(AI)に関する原則が明らかになったと日経新聞が報じました(※2)。AIの社会浸透は急激に進んでいますが、その判断過程がブラックボックスのまま使われることを国、あるいは国際的な枠組みである程度規制するとともに、AIの中身を専門家でなくても理解しやすくするための研究開発が進められています。 今回扱うのはGANを使った画像生成AIです。以前AI-S
NVIDIAが開発・提供するGPU向けの汎用並列コンピューティングプラットフォームである「CUDA」を超える生産性と高速コード記述が可能になるようなオープンソースのニューラルネットワーク向けプログラミング言語「Triton」が公開されました。非常に効率的なカスタムディープラーニングプリミティブを作成するための言語コンパイラとなっており、GitHub上で開発リポジトリが公開されています。 Introducing Triton: Open-Source GPU Programming for Neural Networks https://www.openai.com/blog/triton/ OpenAI debuts Python-based Triton for GPU-powered machine learning | InfoWorld https://www.infoworld.
1. はじめに PyTorchの使い方にも少し慣れてきたので、arXivに公開されているディープラーニング関連の論文の実装にチャレンジをはじめました。まず今回はVisualizing and understanding convolutional networksを実装してみました。本論文はディープラーニングの可視化の文献としてよく参照されているので1、以前から興味がありました。 本論文の流れは、前半でCNNの可視化手法を中心に取り扱い、後半では構築したモデルのパフォーマンスを取り扱います。有名な論文ということもあり、Web上で日本語の解説もこちらに公開されています。 本論文の概要に関しては上記リンクの解説の通りなので、本記事では上記解説であまり触れられていない提案された可視化手法の実装に重点を置いて解説してみようと思います。 2. 本論文の概要 CNNは画像分類において高い精度を実現する
.app 1 .dev 1 #11WeeksOfAndroid 13 #11WeeksOfAndroid Android TV 1 #Android11 3 #DevFest16 1 #DevFest17 1 #DevFest18 1 #DevFest19 1 #DevFest20 1 #DevFest21 1 #DevFest22 1 #DevFest23 1 #hack4jp 3 11 weeks of Android 2 A MESSAGE FROM OUR CEO 1 A/B Testing 1 A4A 4 Accelerator 6 Accessibility 1 accuracy 1 Actions on Google 16 Activation Atlas 1 address validation API 1 Addy Osmani 1 ADK 2 AdMob 32 Ads
tensorflow.js は処理の重さ的に worker で動かしたいのだがまだ WebWorker で動かすと cpu backend に fallback してしまうので、この issue ずっとみてる https://t.co/KYGEQSFwq5— 無糖派層 (@mizchi) July 30, 2019 僕も以前にWebWorker上でTensorFlow.jsを使おうとして WebGL backendで動かないことに気付いて諦めていたのだった。 memo.sugyan.com …と思っていたのだけど、どうも先月くらいの @tensorflow/tfjs@1.2.2 あたりから ChromeではOffscreenCanvasというのを使ってWebWorker上でもWebGL backendで動くようになったようだ。 試してみたところでは 動くのはChromeのみで、Safari
以前よりGoogleではCloud AutoMLという"Learning to learn"フレームワークによる「人手完全不要の全自動機械学習モデリング&API作成」サービスを展開してきていましたが、それらは画像認識や商品推薦はたまた自然言語処理がメインで、最もオーソドックスな構造化データに対する多変量モデリングは提供されていませんでした。 が、今年のCloud Nextにおいてついに多変量モデリング版であるAutoML Tablesのベータ版が公開されたということで、既に色々な方が「試してみた」系の記事を書かれているようです。 https://medium.com/@matsuda.minori/google-cloud-next-sf-19%E3%81%A7%E7%99%BA%E8%A1%A8%E3%81%95%E3%82%8C%E3%81%9Fauto-ml-tables%E3%82
対象者 深層学習について勉強始めたいな〜って考えている人向け。 いきなりライブラリを利用して何か作るのも手ですが、やっぱりちゃんと理解するには「車輪の再発明」しないといけませんね〜 本記事は深層学習の基礎理論メインですが、できるだけ数式を少なくして図メインでざっくり説明します。 実装などは次回以降順番にやっていこうと思います。 次回の記事はこちらです。 目次 深層学習とは ニューロンモデル レイヤーモデルとニューラルネットワークモデル 活性化関数 シグモイド関数(sigmoid) tanh関数 ReLU関数 ソフトマックス関数(softmax) 計算グラフ 足し算の計算グラフ 掛け算の計算グラフ 割り算の計算グラフ 指数関数の計算グラフ 底がネイピア数の指数関数の計算グラフ 対数関数の計算グラフ 底がネイピア数の対数関数の計算グラフ sigmoid関数の計算グラフ sigmoid関数の順伝
はじめに 学習済みBERTを試しに触ってみたいんだけど、日本語使えるBERTの環境整えるの面倒!っていう人向けに、お試しでBERTを使える Docker Image 作ってみました。 BERT はTransformers(旧pytorch-transformers、旧pytorch-pretrained-bert) を使用。 黒橋・河原研究室のWEBサイトに掲載されている、日本語pretrainedモデルのWhole Word Masking版を使ってます。 Transformers — transformers 2.2.0 documentation BERT日本語Pretrainedモデル - KUROHASHI-KAWAHARA LAB Docker Image ここに置いてあります。 https://hub.docker.com/r/ishizakiyuko/japanese_be
ごちきか# NTTコミュニケーションズ イノベーションセンターでは、社会・産業DXのためのSmart World の一貫として、時系列データ分析手法の研究開発、お客さまのデータ分析支援や社内データ分析人材育成を行っています。 ごちきか(gochikika) は、これら研究開発成果やデータ分析人材育成コンテンツをまとめたナレッジベースです。大別してメインコンテンツは以下の通りです。 分析: 主に製造業の時系列データを対象として、前処理からモデリングまで一連の基本的な分析手法をPythonコード付きで解説しています。 特集記事: 比較的新しめであったり難易度の高い手法や、私たちの取り組みを知ってもらうための学会発表資料が掲載されます。また一部未分類なコンテンツが格納されています。 私たちの研究開発成果は、同じくイノベーションセンターで開発しているノーコードAI開発ツールNode-AI に搭載さ
ほとんどの人が何らかのアルゴリズムに日々接している一方、人工知能(AI)がどのように機能するのか、実際に理解していると自信を持って言える人はそれほど多くない。しかし、Googleが英国で現地時間11月20日から開催している「Google Cloud Next '19 UK」で発表した新たなツールは、一般の人々が機械学習(ML)の難解さをひもとくうえで力となるはずだ。 「Explainable AI」(説明可能なAI)と呼ばれるこのツールは、MLモデルが思考を重ねる手法と、結論に至った理由をユーザーに説明するという、その名が示す通りの機能を有している。 Explainable AIは、そういった機能を実現するために、データセット内の各特徴がアルゴリズムの導き出した結果にどの程度の影響を与えたのかを定量化する。つまり、それぞれのデータ係数には、MLモデルにどの程度影響を与えたのかを示すスコアが
NECは、従来の半分程度の学習データ量でも高い識別精度を維持できるディープラーニング技術を新たに開発しました。 識別精度の向上には、識別が難しい学習データをより多く学習することが有効ですが、学習に適した質の良いデータを十分に確保することが重要です。本技術は、ニューラルネットワーク(注1)の中間層で得られる特徴量を意図的に変化させることで、識別が難しい学習データを集中的に人工生成します。これにより、少ない学習データ量でも識別精度を大きく向上させ、ディープラーニングを適用したシステムの開発期間短縮に貢献します。 具体的には、ディープラーニング技術の適用に必要な学習データ量を半分程度に削減します。また本技術は、データの種類を問わず汎用的に適用可能であることから、専門家による調整が不要になります。これにより従来、学習データ収集時間やコストの高さが阻害要因となっていた製品の外観検査やインフラ保全など
はじめまして,インターン生の三澤遼です。本記事では,BERT以降の事前学習済みモデルを体系化し,主要なモデルについて解説します。TransformerやBERTについて事前知識があると理解しやすいと思います。 BERT以降のNLP分野の発展 学習方法の改良について 事前学習 Masked Language Modeling 改良版Masked Language Modeling RoBERTa (2019-07) Translation Language Modeling XLM (2019-01) Sequence-to-Sequence Masked Language Modeling T5 (2020-07) Permuted Language Modeling XLNet (2020-01) Denoising Auto Encoder BART (2019-10) Contras
「AIプログラミング」という言葉を聞くと、どうしても難しいイメージがつきまといますが、Processingとモデルを使うと、簡単に実現できます。ここではその方法とそれによって広がる世界について紹介します。 「AIを使うプログラミング=難しい」は過去のもの ロボット、ゲーム、アプリなど、プログラミングを学ぶ目的は人それぞれですが、学びたいけれどちょっとハードルが高そうと感じてしまう方も少なくないでしょう。本連載では、そのような方へのひとつのきっかけとして、「プログラムで絵を描く」という話題を取り上げてきました。絵、すなわち視覚的な表現は単純に見えて、数式や手続きなど他のプログラミングでも有用なプログラミング的思考を必要とする要素がたくさん含まれているからです。 プログラミングで絵を描く? 飽きずに長続きする秘訣は「遊び」にあり!【やらずに死ねないプログラミング】 – バレッドプレス(VALE
Image Credit : Neural Magic HP ピックアップ:Neural Magic gets $15M seed to run machine learning models on commodity CPUs ニュースサマリ:“No-Hardware AI” 企業を謳う「Neural Magic」は、11月6日、シードラウンドにて1,500万ドルの資金調達を実施したと発表した。出資者にはComcast Ventures NEA、Andreessen Horowitz、Pillar VC、Amdocsが名を連ねる。 同社は、MITでマルチコア処理と機械学習を長年研究してきた2人の研究者によって2018年に設立された。ディープラーニングモデルを処理する高コストなGPUやTPUなどの専用AIハードウェアを使うことなく、汎用CPUでより大きなモデルをより速く、より高い精度で処理
はじめに 国立研究開発法人 産業技術総合研究所の人工知能研究センターに所属している、片岡裕雄と申します。研究者としてコンピュータビジョン(CV)やパターン認識に関する研究を行う一方で、研究コミュニティcvpaper.challengeを主宰して「CV分野の今を映し、トレンドを創り出す」ことにも挑戦しています。cvpaper.challengeには最新動向の日本語サーベイ資料や研究メンバーによる研究成果も載せています。今回の記事に書ききれない、より詳細な情報はぜひそちらをご覧ください。 今回の記事については、出身大学の大先輩・皆川卓也氏から話を受けて実現しました。皆川氏は2010年にコンピュータビジョンの業界動向を寄稿されているのですが、今回恐れ多くもその企画を受け継ぐことになりました。 それから11年、深層学習の隆盛とともに発展してきたCV分野の動向を述べるにはあまりにも紙面が限られていま
本記事は、画像生成AI Advent Calendar 2022 15日目を埋める記事です。 はじめに 画像生成AIは、学習した画像をコラージュした画像を出力しているのではないか、という議論があります。多くのモデルは勝手に収集した画像で学習(訓練)されているため、そのようなコラ画像が生成されていたら大問題です。 上の図を見てください。この図は、今月投稿された論文 [1] Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models [Gowthami Somepalli+, arXiv 2022] の図です。上段がStable Diffusionの生成画像、下段が訓練データのサブセット(LAION Aesthetics v2 6+)中で一番似た画像です。生成画像の一部またはほぼ全部が
概要 自然言語処理における単語や文章のEmbeddingの方法を勉強したので概要を記載しました。 また、学習済みモデルからEmbeddingベクトルを取得するサンプルソースコードも一部記載しました。 概要 Word2vec fastText GloVe Skip-thought SCDV USE ELMo BERT おわり 宣伝 Word2vec 似た意味の単語の周りには同じような単語が出現するとして、ある単語の周辺に出現する単語を予測するNNの隠れ層の重みを、ある単語のベクトルとしたもの。Doc2vecはWord2vecを文章に拡張したもの。 NNには以下のようなSkip-Gramのモデルが使われる。 Word2vecの元論文 : [1310.4546] Distributed Representations of Words and Phrases and their Composit
AI/機械学習、ディープラーニングを学び始めると、どこかで数式を読むことになる。それも偏微分や線形代数など大学レベルの数学である。この壁にぶつかって、数式を理解できないままスルーしたり、学ぶこと自体を諦めてしまったりする人も少なくないのではないだろうか? 本書は、主にAI/機械学習の教材などに書かれている数式でつまずいたことがある初学者に向けた、「AIに最低限必要な数学を基礎の基礎からしっかりと、しかも効率的に学ぶ」ための電子書籍の第1部である。具体的には連載『AI・機械学習の数学入門 ― 中学・高校数学のキホンから学べる』を構成する、 という全4部の中の「第1部 中学数学からのおさらい編」を電子書籍(PDF)化したものである。 数学を学んでから10年以上のブランクがある場合は、本人が考えている以上に数学を忘れているものだ。偏微分や線形代数などのAI(特にディープラーニングのニューラルネッ
前モデル買った人のことを思うと切なすぎる:Nvidia RTX 2060/2070 Super レビュー2019.07.08 19:00108,292 Alex Cranz - Gizmodo US [原文] ( そうこ ) ほんのちょっとの差なのに…。 今年1月にでた同シリーズのNvidia GPUを買った人が涙目必至という新商品Nvidia RTX 2060 Super GPU、米Gizmodo編集部がさっそくレビューしてきました。 今年の1月、Nvidia RTX 2060 GPUが発売された時、前モデルから価格が2倍近い、パフォーマンスは悪くないけど驚くこともないとレビューしていました。が、それでも買った人はいるでしょう。買っちゃった人には本当悪いけど、Nvidia RTX 2060 Super GPUがでました。 2060に350ドル使っちゃった人はもちろん、もっと高い2070や
本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 発展を続ける「自然言語処理」技術。その中でも幅広く使用される深層学習モデルTransformerは、自然言語処理以外の音楽生成や物体検出などの領域でも適用できます。本ブログでは、 Transformerを時系列データに適用する方法をご紹介します。 こんにちは、AIソリューションサービス部の井出と申します。 この記事では、特に自然言語処理分野で幅広く使用される深層学習モデルTransformerを時系列データへ適用する方法に関してご紹介します。 以前の記事では、Transformerの構造や特徴などについて、自然言語処理分野の機械翻訳を例としてご紹介しております。はじめに、こちらの記事をご一読していただくことで、より本記事でご紹介する内容に対する理解が深まるかと思います。 Transform
本記事は Towards Complex Text-to-SQL in Cross-Domain Database with Intermediate Representation(論文, リポジトリ)のサーベイ記事です。 日鉄ソリューションズ(NSSOL)様での研究開発インターンの一環として執筆しました。 今回紹介するのは、ざっくり言えば、自然言語で記述された質問からSQLクエリを生成するタスク(Text-to-SQL)において、文脈自由な中間表現を導入して性能を上げた研究で、提案モデルはIRNetと呼ばれています。 この研究ではSpider (論文, サイト) というデータセットを用いています。Spiderは従来のText-to-SQLデータセットよりも複雑な事例を多く含んでいます。 Spiderの公式サイトで挙げられている難易度が中くらい(Meidum)の例がこちらです: 複数テーブ
はじめに 以下の Tweet で言っている"長い旅路"の詳細です。完全にポエムかつ長文*1、しかも自己陶酔を多分に含んだ自分語りです。 暇かつ心に余裕があって何でも寛大に許せそうな場合にお読みください。 奇跡の solo gold を獲得し、遂に Kaggle Master になりました! Kaggle と出会ってから4年半、一念発起して分析コンペに本気で取り組み始めてから1年半、長い旅路でした。 今までチームを組んだり議論したりして下さった皆さん、本当にありがとうございました!これからもよろしくお願い致します! pic.twitter.com/IzWin2rioa— 俵 (@tawatawara) 2020年3月18日 話をしよう。あれは2年... いや5年くらい前の話だったか... といった感じの、むかーしむかしからの話*2。Kaggle と出会ってからの人生(の一部)の紹介みたいなも
共和党大統領予備候補のドナルド・トランプ氏が、中国系ソーシャルメディアアプリのTikTokをアメリカで全面的に禁止しようとする動きについて懸念を表明しました。これは、議会が可決すれば禁止法案に署名すると述べたジョー・バイデン大統領の見解とは対照的です。 Trump says TikTok ban would empower Meta, slams Facebook https://www.cnbc.com/2024/03/11/trump-says-a-tiktok-ban-would-empower-meta-slams-facebook-as-enemy-of-the-people.html TikTok ban: House vote set for Wednesday morning https://www.axios.com/2024/03/11/tiktok-ban-congr
Pythonコードで理解するニューラルネットワーク入門 ニューラルネットワークの仕組みや挙動を、数学理論からではなく、Pythonコードから理解しよう。フルスクラッチでニューラルネットワーク(DNN:Deep Neural Network)を実装していく。 第1回 Pythonでニューラルネットワークを書いてみよう(2022/02/09) 本連載(基礎編)の目的 ・本連載(基礎編)の特徴 ニューラルネットワークの図 訓練(学習)処理全体の実装 モデルの定義と、仮の訓練データ ステップ1. 順伝播の実装 ・1つのノードにおける順伝播の処理 ・重み付き線形和 ・活性化関数:シグモイド関数 ・活性化関数:恒等関数 ・順伝播の処理全体の実装 ・順伝播による予測の実行例 ・今後のステップの準備:関数への仮引数の追加 第2回 図とコードで必ず分かるニューラルネットワークの逆伝播(2022/02/16)
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く