並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 320件

新着順 人気順

画像特徴量の検索結果161 - 200 件 / 320件

  • 田辺三菱製薬、15分以上かかっていた薬物探索をAIで約16秒に「56倍以上の効率化の成果が得られた」 | Ledge.ai

    TOP > Article Theme > AI(人工知能)ニュース > 田辺三菱製薬、15分以上かかっていた薬物探索をAIで約16秒に「56倍以上の効率化の成果が得られた」 田辺三菱製薬株式会社と株式会社HACARUSは5月25日、新たな薬物スクリーニング用AI(人工知能)技術を構築したと発表。一薬物あたり15~40分かかっていた薬物探索の時間を約16秒まで短縮可能になった。 田辺三菱製薬は以前から、大阪大学大学院基礎工学研究科・機能創成専攻 三宅淳教授らの研究グループと共同で、ディープラーニング(深層学習)による薬物スクリーニング用AI技術開発について研究してきた。すでに本AI技術により、高い知識・技術を持った研究者による事前のデータ検討なしに、大規模な画像を用いた薬物評価が可能になった。 ところが、ディープラーニングは薬物ごとに異なる判別モデルを1つずつ作成するため、薬物の影響の評価

      田辺三菱製薬、15分以上かかっていた薬物探索をAIで約16秒に「56倍以上の効率化の成果が得られた」 | Ledge.ai
    • GANの発展の歴史を振り返る!GANの包括的なサーベイ論文の紹介(アルゴリズム編)

      3つの要点 ✔️様々な分野で使用されている 「GAN」の包括的なサーベイ論文の紹介 ✔️アルゴリズム編では、「GAN」のアルゴリズムに焦点を絞って様々なアプローチを紹介 ✔️ この記事で「GAN」の最新動向までをキャッチアップ可能 A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications written by Jie Gui, Zhenan Sun, Yonggang Wen, Dacheng Tao, Jieping Ye (Submitted on 20 Jan 2020) subjects : Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG) はじめに 2014年に画像生成のためのア

        GANの発展の歴史を振り返る!GANの包括的なサーベイ論文の紹介(アルゴリズム編)
      • nlpaper.challenge NLP/CV交流勉強会 画像認識 7章

        nlpaper.challenge NLP/CV交流勉強会 画像認識 7章 1. Copyright © TIS Inc. All rights reserved. 「画像認識」7章解説 戦略技術センター 久保隆宏 Object Detection 2. Copyright © TIS Inc. All rights reserved. 2 ◼ 画像認識: 7章の概要 ◼ 物体検出のアーキテクチャ ◼ 物体検出の評価 ◼ 領域提案の手法 ◼ 領域統合: 選択的検索法(Selective Search) ◼ 領域選択: 分枝限定法(Branch and Bound) ◼ 物体認識の手法 ◼ 画像特徴量ベース ◼ HOG, DPM, 矩形特徴 ◼ 学習機 ◼ 学習・推論のTrick ◼ CNNベース ◼ R-CNN/Fast R-CNN, Faster R-CNN, YOLO/SSD, その後

          nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
        • 最近の画像生成AIの急激な進化は、シンギュラリティ実現の可能性を示しているのか|IT navi

          近年、プロの囲碁棋士に勝利したAlphaGo、タンパク質の構造を予測するAlphaFold、人間が書いたような自然な文章を生成するGPT-3などディープラーニング技術による目覚ましい成果が次々と生み出されています。 特に最近は、MidjourneyやStable Diffusionなどのディープラーニング技術を利用した高性能な画像生成AIが公開され、簡単な言葉で指示するだけで、プロが描いたようなイラストや実際に撮影された写真のような高精度な画像を作成できるようになりました。 日本でも多くの人がMidjourneyやStable Diffusionのオンラインサービスを利用して、その面白さにはまり、現在は、画像生成AIブームとでもいうべき状況になっています。 では、このような急激な進化は、果たしてシンギュラリティ実現の可能性を示しているのでしょうか。 1.画像生成AIの仕組み Midjour

            最近の画像生成AIの急激な進化は、シンギュラリティ実現の可能性を示しているのか|IT navi
          • 動画生成AIの現状と仕組み|IT navi

            現在、文章から画像を生成するDALL-E2、Midjourney、Stable Diffusionなどの画像生成AIがブームになっています。 次の段階として、文章から動画を生成する動画生成AIが考えられますが、AIの開発スピードは予想以上で、早くもこうした動画生成AIが次々と誕生しています。 今回は、この動画生成AIの現状と仕組みについて解説します。 1.Make-A-Video 先月(2022年9月)29日、Meta(旧Facebook)が文章から動画を生成する動画生成AIのMake-A-Videoを発表しました。 動画生成AIを開発する場合の問題は、文章と画像のペアデータと比べて、文章と動画のペアデータが少ないため、画像生成AIほど大量のデータによる学習ができないことです。 Make-A-Videoは、学習済みの画像生成AIモデルを活用することにより、この問題を解決しています。 具体的

              動画生成AIの現状と仕組み|IT navi
            • 約2.5億画像の類似特許・意匠図面検索を開発しました - CreateField Blog

              特許検索・分析サービス Patentfieldでは、これまで文書で特許を類似検索できる機能を提供してきましたが、今回、新たに日本、アメリカ、ヨーロッパ、台湾の特許・意匠の全図面、約2.5億枚の画像に対しても類似検索が可能になりました。 この機能により、例えば自動運転技術の特許図面を検索して、類似する技術の特許を図面から簡単に見つけ出すことができます。 https://prtimes.jp/main/html/rd/p/000000043.000025380.html 類似画像検索に用いた技術 類似画像検索を作るには、画像データを特徴量に変換する必要があります。 今回利用したものは、Swin Transformer v2という技術を用いました。 https://arxiv.org/abs/2111.09883 Swin Transformerは昨今、大規模言語モデル等自然言語処理分野で大きな

                約2.5億画像の類似特許・意匠図面検索を開発しました - CreateField Blog
              • Transmedia - Knowledge Media Laboratory

                概要 トランスメディアシステムとは、様々な紙媒体の文書をイメージスキャナなどの光学機器によって取り込み、それをOCRとは異なった手法により電子的に利用可能とするための手法です。本研究では、重要な伝達の手段である紙媒体による情報を統一的な手法で電子的に扱うことを目的としています。 詳細 トランスメディアシステムにおいては文字を文字としての認識は行わずに1つの図形として扱います。各文字の画像よりその文字の図形的な特徴をいくつかの尺度ついて数値として抽出し、この特徴量をもとにして図形的な特徴の反映されたコードを生成します。これらのコードを各文字の画像に対応づけることによって、コードを利用した検索を可能としています。 一般的に紙媒体の電子化の手法として用いられるOCRにおいては、文字の形状などの特徴や、テンプレートと呼ばれる見本となる画像と比較することによって文字の認識を行い、各文字をコンピュ

                • 物体検出の飛躍になるか!? 物体中心表現を獲得するGoogle Brainの”Slot-Attention”を徹底解説!

                  物体検出の飛躍になるか!? 物体中心表現を獲得するGoogle Brainの”Slot-Attention”を徹底解説! 2020.07.20 AI論文 画像処理 はじめに 近年、画像認識の世界は目覚ましい進歩を遂げています。先日、Transformer(Attentionを利用した構造が特徴)を利用したDETRがFacebookのリサーチチームから発表され、大きな話題となりました。(参考としてこちらを紹介した記事も下記でご紹介しています。)今回、取り上げるのは同じくAttentionを構造に取り入れた「Object-Centric Learning with Slot Attention」という論文です。しかし、このSlot-Attentionを支えている概念はDETRなどとは異なる「物体中心表現(Obejct-Centric representations)」というものです。「物体中心

                    物体検出の飛躍になるか!? 物体中心表現を獲得するGoogle Brainの”Slot-Attention”を徹底解説!
                  • 物体追跡(MOT)技術の研究動向

                    株式会社 Elith で インターン をしている松山です。普段は大学で大規模言語モデルの信頼性について研究しています。 今は大生成AI時代ですが、未だに物体検出や物体追跡は大活躍してます。今回は業務の中で関わりのあった物体追跡(以下 MOT )の技術について、サーベイを行いました。本記事では著名な MOT 手法や MOT の今後の展望について紹介します。本記事内で使用する図は参考文献から引用しています。 Tracking-by-Detection MOT には大きく分けて2種類のアプローチがあります。1つ目は Tracking-by-Detection と言われるアプローチです。これはMOTのタスクを 「物体を検出するフェーズ 」と 「検出された物体を追跡するフェーズ」 に分けるアプローチです。1つの大きなタスクを複数の小さな独立したタスクに分割することで、物体検出には物体検出に特化した、

                      物体追跡(MOT)技術の研究動向
                    • 階層的分類を用いた視覚感性のモデル化と類似画像検索への応用 多田 昌裕† 加藤 俊一‡ 本稿ではデータベース内画像データの階層的分類と判別分析を組み合わせた視覚感性のモデル化 �

                      階層的分類を用いた視覚感性のモデル化と類似画像検索への応用 多田 昌裕† 加藤 俊一‡ 本稿ではデータベース内画像データの階層的分類と判別分析を組み合わせた視覚感性のモデル化 手法と類似画像検索への応用について論じる. 我々は視覚の生理的レベルの特徴抽出機構をまねた 3 点間コントラストを定義し,これと人間の直感的な画像の分類過程とマッチした階層的なデータベ ースの分類法を組み合わせた類似画像検索手法を開発した. 階層的に分類されたデータベース内の どの画像群が例示画像と最も類似しているかを判定し,その群のみを検索対象として類似画像検索 を行うことで,高い検索精度と計算時間の低減を実現した. Similarity Image Retrieval System Using Step-by-Step Hierarchical Classification MASAHIRO TADA an

                      • 【チュートリアル資料】動的な人物・物体認識技術 -Dense Trajectories- | DERiVE コンピュータビジョン ブログ

                        Tweet 私の博士課程中のラボでの同期でもあり、最近では論文の共著も始めている、片岡裕雄さんが先日アップロードした、以下の動画ベースの行動認識技術の一つ、「Dense Trajectories」のチュートリアル資料を紹介します。 【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories- 片岡さんの博士課程時からの得意技術として、行動認識(Activity Recognition)があるのですが、そのうち近年の動画ベースの行動認識でよく応用されているDense Trajectoriesの周辺論文についてまとめたのが、このチュートリアル資料です。 ( ※ 2015/02/11追記:片岡さん本人からもこのスライドの紹介記事が投稿されました。追加のコメントや概要解説もあります。) 彼は行動認識や行動予測に興味が高く、加えて画像特徴量のマイニングや設計に強い人で、Fin

                        • 東京工業大学 長谷川研究室 (Hasegawa Lab.)

                          このページでは,環境変化に対してロバストな画像特徴量であるPIRF (Position-Invariant Robust Features)についてご紹介します.この技術は当研究室で開発されました. PIRFとは? PIRFとは画像から抽出される局所特徴量であり,照明変化や移動物体などの環境変化に対してロバストであるという特徴があります. 現在,画像から抽出する局所特徴としてはSIFTやSURFなどが最も多く用いられていますが,環境変化に対するロバスト性の低さが問題となっていました. そこでPIRFは,複数枚の連続画像からSIFT(SURF)を抽出して連続的にマッチングを取り,すべての連続画像間でマッチングが取れた特徴点のみを抽出するという手法をとります. このような手法をとることにより,照明変化・移動物体などの環境変化に影響されない特徴点のみを抽出することができ,環境変化に対してロバスト

                          • 東芝、ADAS向け単眼カメラに適した画像認識用プロセッサを発売 | レスポンス(Response.jp)

                            東芝は、画像認識用プロセッサ「Visconti 4」シリーズの新製品として、先進運転支援システム(ADAS)向け単眼カメラに適した「TMPV7602XBG」を開発し、3月からサンプル出荷を、2018年1月から量産を開始すると発表した。 新製品は、車載単眼カメラからの入力映像を高速かつ低消費電力で認識処理し、車周辺の歩行者・車両・車線・標識・道路標示・交通信号機の認識を行う画像認識用プロセッサ。Visconti 4シリーズの優れた夜間物体認識性能を継承し、カラー特徴量パターン認識処理装置「Enhanced CoHOGアクセラレータ」を搭載。画像特徴量CoHOGや色情報を用いた特徴量Color-CoHOGなど4種類の特徴量を複合特徴量として処理することで、夜間や背景と対象物の輝度差が少ないシーンで高精度な画像認識を実現する。 また、ADAS向け単眼カメラモジュールを小型化するために、ビデオ入力

                              東芝、ADAS向け単眼カメラに適した画像認識用プロセッサを発売 | レスポンス(Response.jp)
                            • SakanaAI EvoLLM-JP-v1-7Bを試した。これからのマルチモーダルAIに必要なデータについて|shi3z

                              SakanaAI EvoLLM-JP-v1-7Bを試した。これからのマルチモーダルAIに必要なデータについて 話題のSakanaAIが発表した進化学習型LLMを試しました。 >>> from transformers import AutoTokenizer, AutoModelForCausalLM >>> tokenizer = AutoTokenizer.from_pretrained("SakanaAI/EvoLLM-JP-v1-7B") >>> model = AutoModelForCausalLM.from_pretrained("SakanaAI/EvoLLM-JP-v1-7B") Loading checkpoint shards: 100%|█████████████████████████████████████████| 3/3 [00:02<00:00, 1.11

                                SakanaAI EvoLLM-JP-v1-7Bを試した。これからのマルチモーダルAIに必要なデータについて|shi3z
                              • 日立システムと日立INS、「ハイブリッド検索ソリューション」を販売開始

                                印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 日立システムアンドサービス(日立システム)と、日立アイ・エヌ・エス・ソフトウェア(日立INS)は6月29日、「ハイブリッド検索ソリューション」を7月1日から販売開始することを発表した。 同ソリューションは、日立INSの大規模音声検索ソリューション「Voice Searcher」と、日立システムの「画像検索ソリューション」および全文検索ソリューション「InWeave Search」の各々の機能の特長を生かし、連携することで、「音声」「画像」「テキスト」からなるマルチメディア情報を、ハイブリッド型で高速かつ高精度に検索するという。 特長としては、音声、画像、動画コンテンツの特徴量を自動生成し、生成されたテキストまたは画像を検索キーとして用い

                                  日立システムと日立INS、「ハイブリッド検索ソリューション」を販売開始
                                • 人間主体の知的情報技術IV

                                  3.3 感性とIT ― 情報技術の感性化、感性技術の情報化 ― 3.3.1 はじめに 本章では、マーケティング分析や官能検査などのユーザ評価テストで行われてきた従来の感性工学的な手法を、情報学・情報処理の観点から再構築し、人間の感性を工学的にモデル化する方法論について論じる。具体的には、人間が画像などのマルチメディア情報を受容し、解釈し、生成し、外界に働きかける過程を、物理・生理・心理・認知的な知覚の階層における情報処理として工学的にモデル化する方法論を紹介する。このモデル化により、利用者一人一人によって異なる感性、すなわち、情報 の主観的な判断規準(=情報を分類し取捨選択して判断する際の評価基準)に適応できる感性的な情報システムを構築することができる。 これらのモデル化の枠組みにより、対象を特定のカテゴリのコンテンツに限定すれば、かなりの精度で、主観的な基準を統計的にモデル化できるもの

                                    人間主体の知的情報技術IV
                                  • Unityで実はモデルデータを出力できる話~アセットまみれのLT大会~

                                    今回は、撮影状況が異なる2枚の画像を合成することにより、背景画像に前景画像の物体を自然に合成する技術について紹介します。最近ではオンラインMTGなどで仮想背景を利用される方もいらっしゃるかもしれませんが、そのような状況でこの技術を活用することができます。 単純にはコピー & ペーストすれば合成結果を得ることができますが、人間の目には不自然に見える画像に仕上がってしまいます。これは 1. 合成画像の境界部分での不連続性 2. 背景画像と前景画像の合成対象領域とにおける画像特徴量の違い などに原因があります。また、これら以外にも人間の感覚からすると不自然に感じられる場合もあります。これらのミスマッチを解消することによって違和感のない画像を生成することが可能になります。本稿では古典的な手法から最近提案された手法まで幅広く紹介していきます。 ------------------ Morpho, I

                                      Unityで実はモデルデータを出力できる話~アセットまみれのLT大会~
                                    • kaggleでの画家分類について(Painter by Numbers Competition)

                                      本記事はDeepLearning Advent Calendar 12月19日の記事です。 Kaggleにて画家分類が行われていましたので、 本記事では、その手法について、第1位を獲得した人を例に、見ていきたいと思います。 概要 このCompetitionについて Painter by Numbers Competition このコンペは、Kagglerであるsmallyellowduckさんが、自分自身でKaggleコンテストをデザインし、開いたというコンテストです。(そのため、賞金なしのplayground competitionとなっています。) 開催期間は、2016/4/29(金) - 2016/10/31(月)で、参加チームは41Teamと、賞金ありのコンペに比べれば規模は小さいです。 ただ、「画家分類」というテーマは面白いと思いまして、手法もDeepLearningと関連があり

                                        kaggleでの画家分類について(Painter by Numbers Competition)
                                      • より高品質な画像特徴量を獲得する方法:Supervised Contrastive Learning

                                        3つの要点 ✔️ 画像特徴量を学習する手法としてSupervised Contrastive Lossを定義した ✔️ Supervised Contrastive Lossを用いて学習した特徴量は、Cross Entropy Lossを用いて学習した特徴量よりも画像分類精度を向上させることができた ✔️ Supervised Contrastive Lossを用いた特徴量学習はハイパーパラメータの影響を受けづらく、さらに獲得した特徴量は画像の品質に対してロバストであった Supervised Contrastive Learning written by Prannay Khosla, Piotr Teterwak, Chen Wang, Aaron Sarna, Yonglong Tian, Phillip Isola, Aaron Maschinot, Ce Liu, Dilip K

                                          より高品質な画像特徴量を獲得する方法:Supervised Contrastive Learning
                                        • Chainerで転移学習とファインチューニング(VGG16、ResNet、GoogLeNet) - Qiita

                                          画像系の深層学習では、学習済みモデルの重みを利用する「転移学習」や「ファインチューニング」と呼ばれる手法がよく利用されます。 転移学習: 学習済みのモデルから特徴量を抽出すること ファインチューニング: 学習済みモデルの重みを使って再学習させること どちらも基本的には、ILSVRCなどの画像認識コンペで優秀な成績を収めたモデルのネットワークアーキテクチャを深層学習のライブラリで構築し、公開されている学習済みの重みファイルを読み込ませて利用するという流れで実装します。 Chainerでは、以下の画像認識モデルが、すでに内部で実装されています。 VGG16 ResNet50, ResNet101, ResNet152 GoogLeNet また、これらのモデルに学習済みの重みファイルを読み込ませるための便利な関数が一通り揃っていますので、それらの使い方についてまとめます。 Chainerのバージ

                                            Chainerで転移学習とファインチューニング(VGG16、ResNet、GoogLeNet) - Qiita
                                          • 類似画像検索サービスGazoPaが革新をもたらすネット検索の世界(1/4):uVALUE:日立

                                            株式会社 日立製作所 情報・通信システム社 経営戦略室 事業戦略本部 事業開発部 部長代理 小林 秀幹 株式会社 日立製作所 中央研究所 知能システム研究部 主任研究員 廣池 敦 PDF版、756kバイト インターネット上に存在する無数の画像を従来のような言葉によるキーワードではなく、似たイメージを持つ画像や手描きのイラストを使って検索することはできないだろうか。そんな構想から生まれたのが「GazoPa」である。いま、このサービスは検索サイト(GazoPa.com)として一般公開される一方、eコマースや動画広告、社内での情報活用といった多様な分野への応用が始まっている。本稿では、GazoPaのコアエンジンである類似画像検索技術「EnraEnra」の研究開発を先導してきた日立製作所 中央研究所の廣池敦、そしてGazoPaをグローバル規模でのビジネスへ発展させるべく旗振り役を担っている同情

                                            • 情報処理学会論文誌 Vol.58 No.14 1–14 (Mar. 2013) デフォルメ地図検索のための 地理特徴と画像特徴の依存関係抽出とその応用 松尾 純輝1,a) 北山 大輔2,b) 角谷 和俊1,c) 受付日 2012年12月20日, 採録�

                                              情報処理学会論文誌 Vol.58 No.14 1–14 (Mar. 2013) デフォルメ地図検索のための 地理特徴と画像特徴の依存関係抽出とその応用 松尾 純輝1,a) 北山 大輔2,b) 角谷 和俊1,c) 受付日 2012年12月20日, 採録日 2013年6月15日 概要:近年の Web においては,様々なデジタル地図を利用することができる.しかしながら,一般的なオ ンライン地図はユーザの目的や読解能力を考慮しないため,検索要求を必ずしも満足させられない.一方 で,観光ガイドマップやアクセスマップなどのデフォルメ地図は,特定の地域や目的に特化しているため, 検索要求に合致する際に有用である.そこで,デフォルメ地図を地理特徴と画像特徴の二種類の特徴を用 いて処理し,適合性フィードバックを用いて検索する手法を提案する.検索において要求に合致する地図 を得るためには,地図の指定を繰り返

                                              • Vision and Language(特にImage to Text)に関する事前学習モデルの最近の研究(2021.6~2023.1)をいくつかまとめてみた - Qiita

                                                Vision and Language(特にImage to Text)に関する事前学習モデルの最近の研究(2021.6~2023.1)をいくつかまとめてみた画像処理自然言語処理マルチモーダル文章生成ImageToText はじめに 最近Vision and Language、とくにImage to Textに興味がでてきたので、いくつか重要そうな研究の情報収集をしました。 本記事で紹介する内容はあくまでImage to Textに関する事前学習モデルやそれに関連する研究のアーキテクチャー中心であり、その研究における評価(精度とか応用)とかの話には全然触れることができていませんし、数式的なものも何もでてきません。なんかもう雰囲気だけです。 紹介する研究の全てではないですが、できるだけhuggingfaceのmodel hub(以降、model hub)にパラメータが公開されているものを中心

                                                  Vision and Language(特にImage to Text)に関する事前学習モデルの最近の研究(2021.6~2023.1)をいくつかまとめてみた - Qiita
                                                • 画像振り分けソフトを語ろう | ログ速@2ちゃんねる(net)

                                                  1 : 名無しさん@お腹いっぱい。[sage] 投稿日:03/05/16 02:40 ID:nk6I7l/4 [1/4回] 半年も整理せずにフォルダに溜まりに溜まったエロ画像を整理するには 画像閲覧ソフトでは効率が悪いですね。 移動先のフォルダを設定しておいてワンアクションでパッパッパと分類していきたいものです。 そんな仕事に最適な画像振り分けソフト及び画像整理のノウハウを語りましょう。 関連スレ 画像落として抜くのに欠かせないソフトを語ろう http://pc2.2ch.net/test/read.cgi/software/997261790/l50 お勧めの重複画像処理ソフト http://pc2.2ch.net/test/read.cgi/software/997665607/l50 画像振り分けソフト >>2 2 : 名無しさん@お腹いっぱい。[sage] 投稿日:03/05/16

                                                  • 研究会 - 映像検索のための画像及び音響信号によるシーン間の相違度定義に関する検討

                                                    2008-02-18 13:45 映像検索のための画像及び音響信号によるシーン間の相違度定義に関する検討 ○道山大悟・長谷山美紀(北大) ITS2007-45 IE2007-228 本稿では,映像検索のための画像及び音響信号に基づくシーン間の相違度定義を行う手法を提案する.提案手法では,シーン間の任意の2ショットにおいて,画像特徴量,音響特徴量,及びそれらを統合して得られた特徴量を比較し,最も類似した特徴量に対しDynamic Time Warpingを施すことによりシーン間の相違度を算出する.この際,正準相関分析を用いて得られる写像により画像特徴量と音響特徴量を同一の特徴空間にて表し,この特徴空間にて特徴量の比較を行う.新たな特徴空間は,映像から得られる画像特徴量と音響特徴量の相関が最大となるような写像を用いて定義されるため,画像信号と音響信号に含まれる共通の特徴に着目した比較が可能とな

                                                    • Pattern Recognition Class Materials

                                                      LSA (Latent Semantic Analysis) and NMF (Non-negative Matrix Factorization) S. Deerwester, S.T. Dumais and R. Harshmani: Indexing by Latent Semantic Analysis, Jour. Amereican Society for Information Science, Vol.41, pp.391-407,1990. [PDF] D. D. Lee and H. S. Seung: Learning the Parts of Objects by Non-negative Matrix Factorization, Nature, Vol.401, No.21, pp.788-791 (1999.10) [PDF] Support Vector M

                                                      • NVIDIAが発表した最高性能の画像生成AI「eDiffi」の仕組みと機能|IT navi

                                                        今月(2022年11月)2日、大手半導体メーカーのNVIDIAがDALL-E2やStable Diffusionを超える最高性能の画像生成AIだというeDiffiを発表しました。 eDiffiによって生成された画像サンプル eDiffiは、上記の画像サンプルのように、長い文章による指示にも忠実な高画質の画像を生成することができます。また、画像サンプルの下段の例のように、入力した画像を参照して新しい画像を生成することも可能です。 今回は、このeDiffiの仕組みや機能について説明します。 【参考論文】eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers (以前、その他の画像生成AIの仕組みについても解説しましたので、ご興味のある方は以下の記事をどうぞ) 1.eDiffiの仕組みeDiffiも、

                                                          NVIDIAが発表した最高性能の画像生成AI「eDiffi」の仕組みと機能|IT navi
                                                        • 今さらNetVLADの日本語解説 - takminの書きっぱなし備忘録 @はてなブログ

                                                          NetVLADは結構メジャーな手法だと思ってたんだけど、案外日本語解説はネットに落ちてないんだね。昨今、有名な手法は誰かしらブログ書いてるイメージだったので意外。— Minagawa Takuya (@takmin) 2024年3月22日 というわけで、自分が解説記事を書こうかと思い立ちました。 NetVLADが発表されたのは2016年のCVPRなので[1]、進化の早いAI分野では古めの技術となってしまいますが、画像検索(Image Retrieval)や、撮影場所の推定(Visual Place Recognition)などの論文に未だに現役で出てくる手法なので、この日本語記事が色んな人の役に立ったら良いなと期待してます。 NetVLADは1枚の画像全体を1つの特徴ベクトル(Global Feature)に変換するためのもので、例えば画像検索タスクであれば、クエリー画像から抽出した特徴ベ

                                                            今さらNetVLADの日本語解説 - takminの書きっぱなし備忘録 @はてなブログ
                                                          • 【論文まとめ】MobileNet V1, V2, V3の構造 - Qiita

                                                            単に精度だけを追求した重いモデルではなく、今後の深層学習のmobile化を目指し、オフラインでもエッジ端末で動くような「軽い」モデルの研究が盛んなよう。 製作中のRaspberry pi 戦車でも利用しているMobileNetがどんなものか気になったので、特に構造に関して、論文の記述をざっくりとまとめておきます。 MobileNet V1の原著論文 Depthwise & Pointwise Convolution 通常の畳み込み層演算処理を空間方向とチャンネル方向の2段階に分けて行う まず各チャンネル毎に独立して空間方向(Depthwise, 3x3)にのみ畳み込み演算 次に1x1フィルターの畳み込みによりチャンネル方向(Pointwise, 1x1)にのみ畳み込み演算 1/8〜1/9に総演算量を削減 様々な高速モデルの仕組みをまとめているこちらの記事の通り、精度を保ちつつ高速演算できる

                                                              【論文まとめ】MobileNet V1, V2, V3の構造 - Qiita
                                                            • 産業/【キー・テク】日立製作所「次世代ネットワーク型大規模監視システム」 - FujiSankei Business i./Bloomberg GLOBAL FINANCE

                                                              ■世界の類似画像を瞬時に検索 テレビで見かけた気になるタレント。名前や所属は分からないけど、その人の情報を知りたい。芸能界に詳しい知人がいる場合は、「ちょっと教えて」と相談したり、場合によってはネットの掲示板で情報を求めたり…と時間と手間をかければ手がかりはつかめる。だが、その人の顔の部分を指定してクリックするだけで、関連する映像や情報が瞬時に分かれば、ずいぶん便利になるに違いない。 ≪構図や色調数値化≫ 高速画像検索システムを開発した廣池敦主任研究員 数百万件、数千万件の世界中の画像、映像データの中から「見た目」だけを頼りに、1秒足らずで類似するものを選び出す。日立製作所中央研究所が開発した「EnraEnra(エンラ・エンラ)」といわれる類似画像検索技術が、ネットワーク時代の新たな監視技術として実用化を目前にしている。 数百台の監視カメラが撮影した膨大な映像の中から、監視

                                                              • 東京大学 情報理工学系研究科 創造情報学専攻 博士論文 ソーシャルタギングからの ことばが指し示す実世界対象の表現獲得 Acquiring Word Denotations as Real-World Data from Social Tagging 馬場 雪乃 Yukino

                                                                東京大学 情報理工学系研究科 創造情報学専攻 博士論文 ソーシャルタギングからの ことばが指し示す実世界対象の表現獲得 Acquiring Word Denotations as Real-World Data from Social Tagging 馬場 雪乃 Yukino Baba 指導教員 本位田 真一 教授 2012 年 6 月 i 概要 本論文では,ことばが指し示す現実世界の対象物(実世界対象)を,実世界データを用いて 表現するという問題に取り組んだ.ここでは,カメラやセンサーなどのデバイスを通じて現実 世界から直接取得できるデータのことを実世界データと呼ぶ.特に本論文では,実世界データ のうち写真(視覚データ)と場所(地理データ)をその代表例として取り上げ,「ことばが指 し示す写真」,すなわちあることばの指示対象(例.「犬」)が写っている写真を獲得するとい う課題と,「ことば

                                                                • ソフトフロント:NEWS -最新のニュース

                                                                  本リリースは報道機関向けに発表した資料です。掲載されている情報は、発表日時点のものであり、その後予告なしに変更される場合がございますので、あらかじめご了承ください。 なお、最新の製品&サービスにつきましては、各サイトをご覧ください。 次世代画像検索・解析技術が、 経済産業省の平成20年度 情報大航海プロジェクトに採択 〜「Viewサーチ北海道」の開発成果が、「サービス共通技術の改良」事業に選定〜 株式会社ソフトフロント(東京本社:東京都港区、代表取締役社長:阪口 克彦 以下、ソフトフロント)が、株式会社データクラフト(本社:札幌市北区、代表取締役:高橋 昭憲氏)と共同で提案した次世代画像検索・解析技術が、経済産業省の平成20年度 情報大航海プロジェクト(*)「サービス共通技術の改良」事業に採択されました。 平成20年度 情報大航海プロジェクトは、Web情報に留まらず実世界情報も含めて、

                                                                  • 【論文読解】PP-YOLO: An Effective and Efficient Implementation of Object Detector - Qiita

                                                                    【論文読解】PP-YOLO: An Effective and Efficient Implementation of Object DetectorDeepLearningObjectDetection はじめに 最近、シングルステージの物体検出であるYOLOの名を冠する手法が、立て続けに公開されました。 まず、YOLOv4が2020年4月公開されました。v3までの著者であるJoseph Redmon氏のDarknetリポジトリに組み込まれていることからわかるように、「公式の最新バージョンのYOLO」といえます。 次に、YOLOv5がわずか2ヶ月後の2020年6月に公開されました。v4に比べると論文も公開されておらず、新規性が薄いことや、お墨付きのない状態でv5を名乗っていることについては否定的な意見もあるようです。しかし、公式リポジトリにあるように、現実のデータセットにYOLOv3を適

                                                                      【論文読解】PP-YOLO: An Effective and Efficient Implementation of Object Detector - Qiita
                                                                    • 電通大がヒトは最も複雑な特徴のある場所をより速く高頻度に見ることを発見

                                                                      電気通信大学(電通大)は7月3日、AI技術のひとつである深層ニューラルネットワーク(DNN)モデルを用いて実験を行った結果、ヒトは複雑な特徴を持つ場所をより速く、より高頻度に見る傾向にあることを明らかにした。 同成果は、電通大 情報理工学研究科の赤松和昌研究支援員、同・西野智博学部生(研究当時)、同・宮脇陽一教授らの研究チームによるもの。詳細は、英オンライン総合学術誌「Scientific Reports」に掲載された。 ヒトの目の解像度は視野の中心が最も高いことが知られており、視線を向けるということはその場所を視野の中心で捉えるということになる。つまり、視線を向ける場所は、ヒトが視覚的に情報を取得する上で重要な場所であると考えられるという。 これまで多くの先行研究において、ヒトが視線を向ける場所を予測するコンピュータ用のプログラムが開発されてきた。しかし、こうしたプログラムは明るさや色な

                                                                        電通大がヒトは最も複雑な特徴のある場所をより速く高頻度に見ることを発見
                                                                      • 2019年版(Vol.16) |テクノロジーレポート|コニカミノルタ

                                                                        巻頭言 SHINKA 2019を実現する新しいビジネスプラットフォーム「Workplace Hub」始動!(0.6MB) コニカミノルタ株式会社 常務執行役 仲川幾夫 特集:AIを活用した課題提起型ソリューションへの取り組み コニカミノルタのエッジIoTを支えるCPSプラットフォーム(1.1MB) 竹田健太郎・小熊久美子・田尾祥一 Pose Proposal Networks*(4.5MB) 関井大気 データサイエンス技術を用いた予兆保全の実現(1.4MB) 東 立・酒向峰行・板垣整子・坂本和洋・横堀 潤・吉田英一・河野好博 Offline ICR with Deep Learning(1.4MB) Ting XU・Wei MING・Masahiro OZAWA Multi-atlas Approaches for Image Segmentation across Modality, S

                                                                          2019年版(Vol.16) |テクノロジーレポート|コニカミノルタ
                                                                        • JXUGC #13 東京 Xamarinのすべて! - ぴよぴよエンジニアの日記

                                                                          2016 - 05 - 08 JXUGC #13 東京 Xamarinのすべて! Xamarin 「JXUGC #13 東京 Xamarinのすべて!」に行ってきました! 「JXUGC #11 Xamarin ハンズオン大会」に続いての2回目のJXUGCです. santea.hateblo.jp 冒頭に田淵さんもおっしゃっていましたが、大変濃ゆい内容のカンファレンスでした. jxug.connpass.com 会場 日本 マイクロソフト 品川本社が会場でした. MSのオフィスは初訪問だったのですが、綺麗で大きかったですねぇ. ドリンクの無料提供もしていただき、至れり尽くせりといった感じでした(*゚´∀`゚)゚ セッション 今回のセッションは最長でも25分だったのでLT形式と言っても差し支えないと思いますが、全部合わせると4時間半という大ボリュームでしたね! 内容はXamarin.Na

                                                                            JXUGC #13 東京 Xamarinのすべて! - ぴよぴよエンジニアの日記
                                                                          • Stacked Autoencoder による特徴抽出と可視化 - Qiita

                                                                            Stacked Convolution Autoencoderを使って画像からの特徴抽出を行う話です。 最後に学習におけるTipsをいくつか載せますので、やってみたい方は参考にしていただければと思います。(責任は負わないので、ご了承ください) Mission 今回はアニメ画像から特徴抽出します。MNISTはありきたりだよねーとか思って別の題材を探していたのですが、アニメ画像もありきたりな感じしますね。 徹夜でアニメ画像を集める根性がなかったので、以下のサイトからデータセットを手に入れてきました。 泉こなたとかシャナとかフェイトとか平沢唯とか、有名なキャラクターの画像が多数あります。可愛いです。 Autoncoder とは 深層学習の一種です。入力として、例えば画像を入れると、同じ画像が出力されるように学習させるネットワークになっています。ただし、入力-出力間で様々な演算処理が行われ、次元の

                                                                              Stacked Autoencoder による特徴抽出と可視化 - Qiita
                                                                            • Person Re-Identificationの全体像を把握してみた - yuichinagapan’s diary

                                                                              今回、エンジニアアルバイトとして携わっている会社株式会社HULIX | 人流解析でPerson Re-Identificationに関する技術調査を行ったので、その内容を記事にまとめてみました。 この記事では具体的な研究の内容、例えばどのような手法が使われているかなどには深入りせずに、Person Re-Identification(以降Person Re-Id)は何を行っているかと、Person Re-Idを取り入れたシステムは現実的に実装可能なのかという視点で、記事を書いていこうと思います。 Person Re-Idとは Person Re-Id(日本語では人物再同定)とは、簡単にいうと、とあるカメラに映った人物が、別のカメラに映った場合に、その人物同士を同一人物として結びつけるようなタスクのことです。Person Re-Idの実システムへの導入が可能になれば、例えば大型商業施設などの

                                                                                Person Re-Identificationの全体像を把握してみた - yuichinagapan’s diary
                                                                              • トップ学会採択論文にみる、超解像ディープラーニング技術のまとめ - Qiita

                                                                                2014年から2018年までのCVPR, ECCV, ICCV などのトップ画像処理学会に採択された、ディープラーニング(DL)を用いた超解像モデルのまとめです。 TensorFlow アドベントカレンダー 8日目の記事です。 本来はtensorflowのコードも合わせて紹介したかったのですが、論文の数が増えてしまったのでそれはまた別の記事で書きます。 単画像超解像は各学会でも毎年沢山の論文が採択される主要分野ですが、2014年に初めてDLを使ったモデルが発表されたのを皮切りにその性能や適用分野を大きく広げています。この記事では主要な17の論文をざっくりと系統立ててまとめ、それぞれの論文でどのような問題にどんなテクニックでアプローチしているかを確認していきます。 パフォーマンスの大まかな推移が下記のグラフです。論文リストは記事の最後に! 数式なしで主要アーキテクチャを説明してみる DL業界

                                                                                  トップ学会採択論文にみる、超解像ディープラーニング技術のまとめ - Qiita
                                                                                • PowerPoint プレゼンテーション

                                                                                  Deloitte Analytics PLSA(確率的潜在意味解析法) 行と列を同時にクラスタリングする新たな知識発見手法 複雑なビッグデータをシンプルに解釈可能にする、新しいクラスタリング技術を紹介する。 PLSAとは ビッグデータから有用な知識を抽出する技術として、人工知能の分野でPLSAという手法が注目を集めている。PLSAとは Probabilistic Latent Semantic Analysisの略で、確率的潜在意味解析法と呼ばれている。Hofmanが1999年に発表した次 元圧縮の手法であり、クラスタリングの手法としても使用される。次元圧縮とは、高次元のデータ(列の多いデータ)を低次 元データに変換すること、つまりできるだけシンプルに表現しようとすることである。一方クラスタリングとは、類似するデータ をまとめていくつかのグループに分類することである。 元々PLSAは、情報