並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 31 件 / 31件

新着順 人気順

画像特徴量の検索結果1 - 31 件 / 31件

  • ZOZOの新卒1年目MLエンジニアが行くCVPR 2024 参加レポート - ZOZO TECH BLOG

    はじめに こんにちは、推薦基盤ブロック、新卒1年目の住安宏介です。普段は推薦システムの開発・運用を担当しています。 2024年6月に開催されたコンピュータビジョン・パターン認識分野において世界最高峰の国際会議の1つであるCVPR(Conference on Computer Vision and Pattern Recognition)2024に参加しました。参加レポートとして発表内容や参加した感想を紹介いたします。また、最後にZOZO NEXTが行っているワークショップのスポンサー活動についてZOZO Researchの清水から紹介いたします。 目次 はじめに 目次 CVPR とは 開催地のシアトルについて 学会のスケジュール 企業展示ブースの様子 ポスターセッションの雰囲気 採択数増加に伴うポスターセッションの懸念とその実際 特に、印象に残った研究発表 SLICE: Stabilize

      ZOZOの新卒1年目MLエンジニアが行くCVPR 2024 参加レポート - ZOZO TECH BLOG
    • Pythonデータサイエンスハンドブック 第2版

      Pythonのデータサイエンス用のツールを使いこなすための実用的な情報が詰め込まれたリファレンスの待望の改訂版です。IPythonとJupyter、NumPy、pandas、Matplotlib、scikit-learnを利用し、データの操作、可視化、行列計算、時系列解析、統計分析、機械学習、データモデルの構築、複雑な科学計算まで、幅広いトピックをカバー。それぞれのトピックについて、押さえておくべき基本、tips、便利なコマンドなどを紹介します。Pythonでデータ処理を行う人にとってはいつも手元に置いておきたい「使える」一冊です。 『Python Data Science Handbook, Second Edition』への称賛 訳者まえがき はじめに Ⅰ部 Jupyter:Pythonより優れたPython 1章 IPython、Jupyter入門 1.1 IPythonシェルの起動

        Pythonデータサイエンスハンドブック 第2版
      • Stable Diffusionの画像条件付けまとめ|gcem156

        Stable Diffusionの画像生成を画像によって条件づける方法をまとめていきます。といっても実装とかを全部見たわけではないので、多少間違っている部分もあるかもしれませんが、まあイメージはあってるっしょ。 手法の分類 画像の情報をUNetのどこに与えるかによって手法を分類します。とりあえず5つに分けてみました Cross Attentionに与える:Prompt Free Diffusion, PFG, IP-Adapter Self Attentionに与える:Reference only, FABRIC Time embeddingに与える:UnCLIP, Revision その他の場所に与える:ControlNet, GLIGEN, T2I-Adapter LoRAの重みを学習する:HyperDreambooth あれ・・?もしかしてこの時点でたいていの人は脱落ですか。この辺の

          Stable Diffusionの画像条件付けまとめ|gcem156
        • DALL-Eアーキテクチャは何故描写の崩壊が抑えられているのか?|とーふのかけら

          はじめに 今、巷で高精細で描写の崩壊がしにくいと言われる、OpenAI社のDALL-E 3が話題ですね! DALL-E 3の前身であるDALL-E、DALL-E 2で使用されているDALL-Eアーキテクチャと、現在主流になっているStable Diffusionは何が違うのかを説明していきたいと思います。 今回の内容は、比較的専門用語が飛び交うので、事前知識がないと「???」となるかもしれません。ご了承ください…。 事前知識はこちらをご覧ください。 DALL-Eとは DALL-Eの読み方は「ダリ」です。 DALL-Eはシュールレアリスム画家のサルバドール・ダリが名前の由来になっています。 DALL-Eは現在も進化を続けており、非常に精細で描画の崩壊が抑えられていると話題になっています。 OpenAI社が提唱したDALL-Eアーキテクチャを使用して動作しており、自然な描写、フォトリアリズムに

            DALL-Eアーキテクチャは何故描写の崩壊が抑えられているのか?|とーふのかけら
          • Google Cloud ComposerでGPUを使ったタスクを安定稼働するために行ったこと - ZOZO TECH BLOG

            はじめに こんにちは、ML・データ部MLOpsブロックの松岡です。 本記事ではCloud Composerのワークフローにおいて、GPUを使うタスクで発生したGoogle CloudのGPU枯渇問題と、その解決のために行った対策を紹介します。 ZOZOが運営するZOZOTOWN・WEARでは、特定の商品やコーディネート画像に含まれるアイテムの類似商品を検索する類似アイテム検索機能があります。本記事ではこの機能を画像検索と呼びます。 画像検索では類似商品の検索を高速に行うため、画像特徴量の近傍探索Indexを事前に作成しています。近傍探索Indexはワークフローを日次実行して作成しています。 このワークフローでは大きく次のように処理を行っています。 当日追加された商品の情報を取得し、商品情報をもとに商品画像を取得する。 物体検出器で商品画像から商品が存在する座標とカテゴリーを検出する。 検出

              Google Cloud ComposerでGPUを使ったタスクを安定稼働するために行ったこと - ZOZO TECH BLOG
            • 日本語LLMでLLaVAの学習を行ってみた - Qiita

              はじめに 本記事はLLM Advent Calendar 2023 2日目の記事になります。 最近、様々なLLMが発表されたことによりローカルLLM界隈では自作データセットを作成して自分好みのLLMを作成するなど日本語LLM界隈は盛り上がりを見せています。 一方、マルチモーダルなLLMとして画像を組み合わせたものに関してはTuring、Stability AI、Rinnaなどの企業ではモデルを公開していますが、個人で行われている方は少ないという印象があります。 そこで今回はLLaVAと同じ方法で日本語LLMを学習させて、個人でマルチモーダルなLLMの学習を行ってみました。個人で学習できる範疇ということで学習はRTX4090 1台で行っています。 学習に使用したコードは以下で公開しています。 モデルは以下で公開しています。 事前学習に使用した日本語翻訳データセットは以下で公開しています。 L

                日本語LLMでLLaVAの学習を行ってみた - Qiita
              • 3次元物体検出もシンプルにTransformerで!PETRv2を理解する

                Turing株式会社のアドベントカレンダー2日目です!1日目はCTOの青木さんのカレー屋さんとスタートアップ:CTO of the year 2023でオーディエンス賞受賞です。 自動運転・AIモデル開発チームの岩政(@colum2131)です。 Turingは完全自動運転車の開発を目標としており、自動運転AIや車両、LLMの開発など様々なことに取り組んでいます。今回の話は、自動運転AIの物体認識などのPerceptionタスクにおいて個人的に面白いなと思ったVision-CentircなEnd-to-Endモデルの紹介です[1]。 Transformerベースの画像認識 Transformerは、大規模言語モデル(Large Language Model; LLM)などに用いられる重要なアーキテクチャです。2017年に"Attention Is All You Need"というタイトルで

                  3次元物体検出もシンプルにTransformerで!PETRv2を理解する
                • プロンプトの推定をDALL·E 3とGPT-4Vにまかせた! - ABEJA Tech Blog

                  目次 はじめに DALL·E 3とGPT-4Vにまかせる 実装 実験結果 定量評価 その他 さいごに はじめに この記事はABEJA Advent Calendar 2023の2日目の記事です。 こんにちは。データサイエンティストの小林です。12月に入り、クリスマスももうすぐですね。 私は一年中、Spotifyの"Christmas Hits!"を聞くくらいにクリスマスソングが大好きです! アドベントカレンダー用にクリスマスっぽいサムネを作ろうかなと思い、早速ChatGPTに作ってもらっていたのですが、画像生成のプロンプト調整結構難しいですよね。。 ネットで流れてくる他の人の作った画像、どんなプロンプトで作ったんだろう?とが気になることが結構あります。 そこで今回は、先月公開されたGPT-4 with Vision(GPT-4V)のAPIを用いて、DALL·E 3への画像生成プロンプトを自

                    プロンプトの推定をDALL·E 3とGPT-4Vにまかせた! - ABEJA Tech Blog
                  • アップルがLLMのようにスケーラブルな大規模自己回帰画像モデルを開発

                    3つの要点 ✔️ LLMの画像版として、自己回帰学習型の画像モデルAIMを提案 ✔️ 事前学習した画像特徴量の質はモデル規模とデータの質に従い向上し、下流タスクの性能は事前学習性能に従い向上 ✔️ 20億枚の画像でAIMの70億パラメータを事前学習しImageNet-1kタスクで精度84%を達成に加え、性能飽和の兆しなし Scalable Pre-training of Large Autoregressive Image Models written by Alaaeldin El-Nouby, Michal Klein, Shuangfei Zhai, Miguel Angel Bautista, Alexander Toshev, Vaishaal Shankar, Joshua M Susskind, Armand Joulin (Submitted on 16 Jan 2024)

                      アップルがLLMのようにスケーラブルな大規模自己回帰画像モデルを開発
                    • マルチモーダルLLMの活用方法と技術解説

                      TL; DR GPT-4VやGeminiなど、大規模言語モデル(LLM)を画像や音声など複数のモダリティに対応させたマルチモーダルLLMが登場し始めている LLMをマルチモーダル化することで様々な恩恵を受けられる 学習済みモデル同士を組み合わせた構造にし事前知識を活用することで、学習の効率化を実現する はじめに Elithで機械学習エンジニアをしている成木です。 ChatGPTをはじめとする様々なプロダクトが登場しLLMが急速に普及していく中で、最近それらに画像や音声といったモダリティが入力できるようになるなどLLMのマルチモーダル化が進んでいます。 その例として、画像入力に対応のGPT-4Vや、画像や音声、動画を用いた対話が可能であるGeminiなどがあります。このように画像や音声などのテキスト以外のモダリティを処理を可能にすることで、LLMの活用方法や適用範囲がより大きく広がっています

                        マルチモーダルLLMの活用方法と技術解説
                      • 約2.5億画像の類似特許・意匠図面検索を開発しました - CreateField Blog

                        特許検索・分析サービス Patentfieldでは、これまで文書で特許を類似検索できる機能を提供してきましたが、今回、新たに日本、アメリカ、ヨーロッパ、台湾の特許・意匠の全図面、約2.5億枚の画像に対しても類似検索が可能になりました。 この機能により、例えば自動運転技術の特許図面を検索して、類似する技術の特許を図面から簡単に見つけ出すことができます。 https://prtimes.jp/main/html/rd/p/000000043.000025380.html 類似画像検索に用いた技術 類似画像検索を作るには、画像データを特徴量に変換する必要があります。 今回利用したものは、Swin Transformer v2という技術を用いました。 https://arxiv.org/abs/2111.09883 Swin Transformerは昨今、大規模言語モデル等自然言語処理分野で大きな

                          約2.5億画像の類似特許・意匠図面検索を開発しました - CreateField Blog
                        • 物体追跡(MOT)技術の研究動向

                          株式会社 Elith で インターン をしている松山です。普段は大学で大規模言語モデルの信頼性について研究しています。 今は大生成AI時代ですが、未だに物体検出や物体追跡は大活躍してます。今回は業務の中で関わりのあった物体追跡(以下 MOT )の技術について、サーベイを行いました。本記事では著名な MOT 手法や MOT の今後の展望について紹介します。本記事内で使用する図は参考文献から引用しています。 Tracking-by-Detection MOT には大きく分けて2種類のアプローチがあります。1つ目は Tracking-by-Detection と言われるアプローチです。これはMOTのタスクを 「物体を検出するフェーズ 」と 「検出された物体を追跡するフェーズ」 に分けるアプローチです。1つの大きなタスクを複数の小さな独立したタスクに分割することで、物体検出には物体検出に特化した、

                            物体追跡(MOT)技術の研究動向
                          • SakanaAI EvoLLM-JP-v1-7Bを試した。これからのマルチモーダルAIに必要なデータについて|shi3z

                            SakanaAI EvoLLM-JP-v1-7Bを試した。これからのマルチモーダルAIに必要なデータについて 話題のSakanaAIが発表した進化学習型LLMを試しました。 >>> from transformers import AutoTokenizer, AutoModelForCausalLM >>> tokenizer = AutoTokenizer.from_pretrained("SakanaAI/EvoLLM-JP-v1-7B") >>> model = AutoModelForCausalLM.from_pretrained("SakanaAI/EvoLLM-JP-v1-7B") Loading checkpoint shards: 100%|█████████████████████████████████████████| 3/3 [00:02<00:00, 1.11

                              SakanaAI EvoLLM-JP-v1-7Bを試した。これからのマルチモーダルAIに必要なデータについて|shi3z
                            • 今さらNetVLADの日本語解説 - takminの書きっぱなし備忘録 @はてなブログ

                              NetVLADは結構メジャーな手法だと思ってたんだけど、案外日本語解説はネットに落ちてないんだね。昨今、有名な手法は誰かしらブログ書いてるイメージだったので意外。— Minagawa Takuya (@takmin) 2024年3月22日 というわけで、自分が解説記事を書こうかと思い立ちました。 NetVLADが発表されたのは2016年のCVPRなので[1]、進化の早いAI分野では古めの技術となってしまいますが、画像検索(Image Retrieval)や、撮影場所の推定(Visual Place Recognition)などの論文に未だに現役で出てくる手法なので、この日本語記事が色んな人の役に立ったら良いなと期待してます。 NetVLADは1枚の画像全体を1つの特徴ベクトル(Global Feature)に変換するためのもので、例えば画像検索タスクであれば、クエリー画像から抽出した特徴ベ

                                今さらNetVLADの日本語解説 - takminの書きっぱなし備忘録 @はてなブログ
                              • Person Re-Identificationの全体像を把握してみた - yuichinagapan’s diary

                                今回、エンジニアアルバイトとして携わっている会社株式会社HULIX | 人流解析でPerson Re-Identificationに関する技術調査を行ったので、その内容を記事にまとめてみました。 この記事では具体的な研究の内容、例えばどのような手法が使われているかなどには深入りせずに、Person Re-Identification(以降Person Re-Id)は何を行っているかと、Person Re-Idを取り入れたシステムは現実的に実装可能なのかという視点で、記事を書いていこうと思います。 Person Re-Idとは Person Re-Id(日本語では人物再同定)とは、簡単にいうと、とあるカメラに映った人物が、別のカメラに映った場合に、その人物同士を同一人物として結びつけるようなタスクのことです。Person Re-Idの実システムへの導入が可能になれば、例えば大型商業施設などの

                                  Person Re-Identificationの全体像を把握してみた - yuichinagapan’s diary
                                • 【論文5分まとめ】Density estimation using real NVP

                                  この記事は、論文の内容を5分くらいで読めるようにまとめた記事です。そのため、前提となる知識や関連研究に関する説明は大幅に省略しています。 少し古い論文ですが、基礎から学ぶために読んでまとめています。基本的には筆者の備忘録ですが、面白そうと思ったら是非ご自身でも読んでみてください。 概要 Real NVPは、データ分布\hat{p}_{X}と潜在変数分布p_{Z}(典型的にはガウス分布)の間を逆変換可能な全単射関数モデルを構築する手法。 書誌情報 Dinh, Laurent, Jascha Sohl-Dickstein, and Samy Bengio. "Density estimation using real nvp." arXiv preprint arXiv:1605.08803 (2016). https://arxiv.org/abs/1605.08803 ポイント 全単射関数

                                    【論文5分まとめ】Density estimation using real NVP
                                  • 解像度の高い画像が入力可能な日本語VLMを学習させてみた - Qiita

                                    はじめに 最近、Large Vision Language Model(以下LVLM)ではLLaVA NEXTのように画像を高解像度のまま入力することでモデルの性能が上がるという論文をarXiv上でよく見かけます。 そこで性能が高いImage Encoderを使用し、入力を高解像度にすることでLLMのバラメータ数が少なくても良い性能のVLMができるのではないかと考え日本語入力可能なモデルを学習させてみました。 結論を最初に書くと1.86Bという比較的小さいモデルにも関わらず、7Bほどのモデルと比較して同等もしくはそれ以上の性能を持つモデルができあがりました。 学習に使用したコードは以下で公開しています。 モデルは以下で公開しています。 デモは以下で公開しています。 以前LLaVAと同じ構造で学習させたという記事も書いていますので、LLaVAについて知りたい方は以下を読んでください。 モデル

                                      解像度の高い画像が入力可能な日本語VLMを学習させてみた - Qiita
                                    • 最近、人工知能による自然言語処理が爆発的に進化しているのでまとめてみた。【後編】|IT navi

                                      1章から3章までは、主に汎用言語モデルについて紹介してきました。汎用言語モデルとは、要約、翻訳、文書分類、質問応答など様々な言語処理タスクに対応した汎用的な言語モデルで、BERT、T5、GPT-3、PaLMなどは、すべて汎用言語モデルです。これまで紹介した言語モデルの中では、MetaのNLLB-200だけが、翻訳機能に特化した単機能特化型言語モデルです。 4章以降では、主にこうした単機能特化型の言語モデルを紹介します。 4.テキストからの画像生成 最初に、単機能特化型の言語モデルの中でも、2021年にOpenAIが発表したDALL-E以降、次々と新しいモデルが発表されて盛り上がっているテキストからの画像生成について解説します。 ① 4種類の画像生成モデル まず、テキストからの画像生成だけにとどまらず、一般的に、ディープラーニングを利用して自動的に画像を生成する画像生成モデルとしては、大きく

                                        最近、人工知能による自然言語処理が爆発的に進化しているのでまとめてみた。【後編】|IT navi
                                      • 深層学習は画像のどこを見ている!? CNNで「お好み焼き」と「ピザ」の違いを検証 | DOORS DX

                                        こんにちは、AI開発部の伊藤です。 今回のブログは、「深層学習はいったい画像のどこを見て判断しているのか」という素朴な疑問に答えてくれる技術として、昨年提唱された「Grad-CAM」という技術を紹介します。 1. はじめに 近年、画像分類技術の精度向上には目覚ましいものがあります。深層学習と呼ばれるニューラルネットワークを進化させた技術を画像分類に適用することにより、人間と同程度かそれ以上の高精度を実現できるようになりました。 そのような深層学習モデルの中でも、「畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)」は、視覚野の特徴抽出の仕組みをモデル化したもので、画像解析において高い性能を発揮してきました。CNNは、畳み込み演算(Convolution)による画像特徴量の抽出とプーリング(Pooling)と呼ばれるノイズ処理を行い、何層にも

                                          深層学習は画像のどこを見ている!? CNNで「お好み焼き」と「ピザ」の違いを検証 | DOORS DX
                                        • 【Stable Diffusion / DALL - E2】画像生成でよく使われる2つのモデルについて紹介 | Hakky Handbook

                                          はじめに​ 画像生成は知識のない人でも簡単に使えるツールとして SNS で流行しました。画像生成自体は GAN をはじめとして以前からありましたが、生成される画像は一般利用できるような制度ではありませんでした。 しかし、Transformer の登場と拡散モデルと呼ばれる手法により、画像と自然言語がより密接に関わるようになったことで stable-diffusion や DALL・E2 など非常に高品質な画像を生成するモデルが誕生しました。本記事では、この二つのモデル、stable-diffusion と DALL・E2 について紹介します。 stable-diffusion の概要​ stable-diffusion は画像生成アルゴリズムの一種であり、自然言語からそのテーマに合った画像を生成することができます。 画像生成は以前まで GAN と呼ばれるモデルが主流でした。このモデルはバー

                                          • 気象データから状況説明や注意事項の文を自動生成するTransformerを実装した - Qiita

                                            0. 更新 生成文の改善(ネットワーク構造および学習データの与え方を変更)について 5.に記載しました。 文が生成される様子の動画を添付しました。 1. はじめに 気象予報ではコンピュータシミュレーションの結果と観測状況から、今後想定される気象状況の推移、実際の注意事項などが重要な事項として各種メデイアやネットワークを通じて公表されていきます。 このような文章は、経験を積んだ気象庁の予報官や、民間の気象予報士が時間と闘いながら作成されているのだと思います。こういう文章をデータから機械学習によって直接作成するということを試みました。 現状ではまだプロの人間様に太刀打ちできるものではありませんが、方向性として手応えもありましたので、今回手法と初期の結果をまとめました。 実際に解説文が生成されていく様子です。 これまでも、気象データを見て概況を説明する文章を自動生成させてみるという記事で、気象デ

                                              気象データから状況説明や注意事項の文を自動生成するTransformerを実装した - Qiita
                                            • 画像分類器を再トレーニングする  |  TensorFlow Hub

                                              画像分類器を再トレーニングする コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。 はじめに 画像分類モデルには数百個のパラメータがあります。モデルをゼロからトレーニングするには、ラベル付きの多数のトレーニングデータと膨大なトレーニング性能が必要となります。転移学習とは、関連するタスクでトレーニングされたモデルの一部を取り出して新しいモデルで再利用することで、学習の大部分を省略するテクニックを指します。 この Colab では、より大規模で一般的な ImageNet データセットでトレーニングされた、TensorFlow Hub のトレーニング済み TF2 SavedModel を使用して画像特徴量を抽出することで、5 種類の花を分類する Keras モデルの構築方法を実演します。オプションとして、特徴量抽出器を新たに追加される分類器とともにトレーニング(「フ

                                                画像分類器を再トレーニングする  |  TensorFlow Hub
                                              • 静岡大学 グリーン科学技術研究所

                                                神奈川大学(2024年3月15-17日、ハイブリッド)で開催された情報処理学会 第86回全国大会にて、創造科学技術大学院・博士課程(大学院 情報学研究科 情報学専攻修了)の小池 誠さん(フィールドインフォマティクス・峰野研)が、情報処理学会 2023年度(令和5年度)山下記念研究賞を受賞しました。 山下記念研究賞は、情報処理学会の栄誉ある研究賞で、本会の研究会および研究会主催シンポジウムにおける研究発表のうちから特に優秀な論文が選出され、その発表者に贈呈されているものです。故山下英男先生のご遺族から学会にご寄贈いただいた資金を活用するため平成6年度から研究賞が充実され、山下記念研究賞となったものです。本年度は、37研究会の主査から推薦された計52編の優れた論文に対し、慎重な審議を経て理事会(2023年7月)および調査研究運営委員会で承認されました。 ●小池 誠 メロン画像特徴量の類似度を用

                                                  静岡大学 グリーン科学技術研究所
                                                • レシピ動画からサムネイル画像を自動抽出するAIシステムを作りました - every Tech Blog

                                                  はじめに DELISH KITCHENでデータサイエンティストをやっている山西です。 今回はレシピ動画のサムネイル画像の自動抽出の取り組みについて紹介いたします。 OpenCVを用いた画像処理 画像とテキスト情報のペアを扱う大規模モデル 等を用いつつそれを試みた事例になります。 ※記事後半で具体実装を扱っている部分では、周辺知識がある前提で説明を進めていることをご了承ください。 every Tech Blog Advent Calendar 2024(夏) 9日目の記事になります。 出来たもののイメージ どんなものが出来たかを先に紹介します。 一言で表すと、レシピ動画の中から「調理手順を表すのに良い感じのサムネイル画像」をAI的振る舞いで自動で抽出してくれるシステムになります。 これをワンパンカルボナーラというレシピに適用した例を以下に載せています。 図1: AIシステムによるレシピサムネ

                                                    レシピ動画からサムネイル画像を自動抽出するAIシステムを作りました - every Tech Blog
                                                  • 論文まとめ:Video-LLaVA: Learning United Visual Representation by Alignment Before Projection | Shikoan's ML Blog

                                                    66{icon} {views} 論文URL:Video-LLaVA: Learning United Visual Representation by Alignment Before Projection 著者:Bin Lin, Yang Ye, Bin Zhu, Jiaxi Cui, Munan Ning, Peng Jin, Li Yuan 論文URL:https://arxiv.org/abs/2311.10122 コード:github.com/PKU-YuanGroup/Video-LLaVA Demo:https://huggingface.co/spaces/LanguageBind/Video-LLaVA ざっくりいうと 動画静止画両方に対応しているVision & Language Modelの研究 動画と静止画のアラインメントを精度向上につなげているのが特徴で、CLI

                                                      論文まとめ:Video-LLaVA: Learning United Visual Representation by Alignment Before Projection | Shikoan's ML Blog
                                                    • 活用方法は無限大!AIが可能にした世界線

                                                      今回は論文を基準とした解説ではなく、技術ベースで記事を書いていますので、少しいつもと違うと思いますが、ぜひお読みください。 これを読まれている多くの方はpose estimation(姿勢推定)という言葉を聞いたことがあると思います。簡単に説明すれば、人がどのような姿勢を取っているかを推定する技術です。みなさんがもっともpose estimationを知ったきっかけにもなったのは、CVPR2017で発表され、多くの人が知ったであろうOpenPoseが有名ですね。今回はそんなpose estimationについて、深ぼっていきたいと思っています。 Pose Estimationの社会的ニーズの広がり ではなぜ、今回pose estimationについて記事を書いているかというと、近年動画SNSが爆発的に普及し、それに引っ張られるように動画に関する研究も増えています。すなわち、動画データが一般

                                                        活用方法は無限大!AIが可能にした世界線
                                                      • AlexNet: 大規模な画像物体認識むけCNNの元祖 | CVMLエキスパートガイド

                                                        1. AlexNet とは [概要] AlexNet とは,Geoffrey Hinton 研究室の Alex Krizhevsky と,その指導役であった Ilya Sutskever (Wikipedia)の3人により提案された,画像からの物体認識むけの畳込みニューラルネットワーク(CNN)である [Krizhevsky et al., 2012].コンピュータビジョン業界の研究者たちが,旧画像認識技術から,GPU上でのディープラーニングへと一気に鞍替えするきっかけとなった.この意味で,パターン認識全体にパラダイムシフトを起こした非常に重要な研究である. この記事では,AlexNetについて,当時の時代的背景を1節でおさえたのち,そのネットワーク構造の解説と,その歴史的意義について紹介していく. AlexNetは,ImageNet での物体認識精度を競う「ISLVRC 2012」のコン

                                                          AlexNet: 大規模な画像物体認識むけCNNの元祖 | CVMLエキスパートガイド
                                                        • 日本酒選びをサポート:画像認識とLLMを活用した機能開発の試み

                                                          食に関連するタスクを主にLLMを用いて色々とこなしてみることにします。 その一環として、本記事では、日本酒について試してみることにします。 はじめに 私は日本酒が好きで、甘くて、じっとりした後味の日本酒が好きです。 新しいお酒を楽しみつつも、辛口や後味があっさりしたものは避けたいと思っています。 そういった、ニーズを支援するために、世の中にどういうアプリや仕組みがあればいいでしょうか? 色々とあると思いますが、酒屋で酒を買ったり、セルフでお酒を選ぶようなお店において、 日本酒の瓶の画像で酒の味を調べられるアプリがあると便利だと思いました。 そこで、そのような機能を実装してみました。 LLMx日本酒の評価 まずは、日本酒に関するLLMの能力を調べてみました。 LLMは日本酒の知識をどの程度持っているか? まず、LLMが現状持っている能力のみで、お酒をおすすめできるかを知るために、 LLMの日

                                                            日本酒選びをサポート:画像認識とLLMを活用した機能開発の試み
                                                          • 日本語LLMでLLaVAの学習を行ってみた - Qiita

                                                            はじめに 本記事はLLM Advent Calendar 2023 2日目の記事になります。 最近、様々なLLMが発表されたことによりローカルLLM界隈では自作データセットを作成して自分好みのLLMを作成するなど日本語LLM界隈は盛り上がりを見せています。 一方、マルチモーダルなLLMとして画像を組み合わせたものに関してはTuring、Stability AI、Rinnaなどの企業ではモデルを公開していますが、個人で行われている方は少ないという印象があります。 そこで今回はLLaVAと同じ方法で日本語LLMを学習させて、個人でマルチモーダルなLLMの学習を行ってみました。個人で学習できる範疇ということで学習はRTX4090 1台で行っています。 学習に使用したコードは以下で公開しています。 モデルは以下で公開しています。 事前学習モデル: ファインチューニングモデル: 事前学習に使用した日

                                                              日本語LLMでLLaVAの学習を行ってみた - Qiita
                                                            • ZOZOの新卒1年目MLエンジニアが行くCVPR 2024 参加レポート - ZOZO TECH BLOG

                                                              はじめに こんにちは、推薦基盤ブロック、新卒1年目の住安宏介です。普段は推薦システムの開発・運用を担当しています。 2024年6月に開催されたコンピュータビジョン・パターン認識分野において世界最高峰の国際会議の1つであるCVPR(Conference on Computer Vision and Pattern Recognition)2024に参加しました。参加レポートとして発表内容や参加した感想を紹介いたします。また、最後にZOZO NEXTが行っているワークショップのスポンサー活動についてZOZO Researchの清水から紹介いたします。 目次 はじめに 目次 CVPR とは 開催地のシアトルについて 学会のスケジュール 企業展示ブースの様子 ポスターセッションの雰囲気 採択数増加に伴うポスターセッションの懸念とその実際 特に、印象に残った研究発表 SLICE: Stabilize

                                                                ZOZOの新卒1年目MLエンジニアが行くCVPR 2024 参加レポート - ZOZO TECH BLOG
                                                              • PyTorchを使ってCNNで野菜の仕分け作業自動化

                                                                はじめに こんにちは。皆さんは日本の農業人口の推移の状況についてご存知でしょうか。統計によると2020年には2000年の農業人口の約6割まで落ち込み、またその多くは65歳以上の高齢者で支えられているそうです。農業人口は減少、高齢化の一途なのです。私の祖父母も農業に携わっていることから、機械学習で仕事を少しでも自動化できないかと思ったのが執筆のモチベーションです。 この記事では、Pythonの機械学習用ライブラリであるPyTorch用いて、きゅうりの鮮度の分類を行うモデルを構築します。曲がっていたり太さが均一でないキュウリは鮮度が良くないと見なされることを利用し、画像特徴量からそれらを識別します。こちらの、TensorFlowで実装されたきゅうりの分類の記事を参考にしました。 実装の流れ 学習の流れは以下のようになります。 データの取得 データを訓練用、テスト用、検証用に分割する データロー

                                                                  PyTorchを使ってCNNで野菜の仕分け作業自動化
                                                                1