並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 10 件 / 10件

新着順 人気順

画像特徴量の検索結果1 - 10 件 / 10件

  • ZOZOの新卒1年目MLエンジニアが行くCVPR 2024 参加レポート - ZOZO TECH BLOG

    はじめに こんにちは、推薦基盤ブロック、新卒1年目の住安宏介です。普段は推薦システムの開発・運用を担当しています。 2024年6月に開催されたコンピュータビジョン・パターン認識分野において世界最高峰の国際会議の1つであるCVPR(Conference on Computer Vision and Pattern Recognition)2024に参加しました。参加レポートとして発表内容や参加した感想を紹介いたします。また、最後にZOZO NEXTが行っているワークショップのスポンサー活動についてZOZO Researchの清水から紹介いたします。 目次 はじめに 目次 CVPR とは 開催地のシアトルについて 学会のスケジュール 企業展示ブースの様子 ポスターセッションの雰囲気 採択数増加に伴うポスターセッションの懸念とその実際 特に、印象に残った研究発表 SLICE: Stabilize

      ZOZOの新卒1年目MLエンジニアが行くCVPR 2024 参加レポート - ZOZO TECH BLOG
    • Pythonデータサイエンスハンドブック 第2版

      Pythonのデータサイエンス用のツールを使いこなすための実用的な情報が詰め込まれたリファレンスの待望の改訂版です。IPythonとJupyter、NumPy、pandas、Matplotlib、scikit-learnを利用し、データの操作、可視化、行列計算、時系列解析、統計分析、機械学習、データモデルの構築、複雑な科学計算まで、幅広いトピックをカバー。それぞれのトピックについて、押さえておくべき基本、tips、便利なコマンドなどを紹介します。Pythonでデータ処理を行う人にとってはいつも手元に置いておきたい「使える」一冊です。 『Python Data Science Handbook, Second Edition』への称賛 訳者まえがき はじめに Ⅰ部 Jupyter:Pythonより優れたPython 1章 IPython、Jupyter入門 1.1 IPythonシェルの起動

        Pythonデータサイエンスハンドブック 第2版
      • Stable Diffusionの画像条件付けまとめ|gcem156

        Stable Diffusionの画像生成を画像によって条件づける方法をまとめていきます。といっても実装とかを全部見たわけではないので、多少間違っている部分もあるかもしれませんが、まあイメージはあってるっしょ。 手法の分類 画像の情報をUNetのどこに与えるかによって手法を分類します。とりあえず5つに分けてみました Cross Attentionに与える:Prompt Free Diffusion, PFG, IP-Adapter Self Attentionに与える:Reference only, FABRIC Time embeddingに与える:UnCLIP, Revision その他の場所に与える:ControlNet, GLIGEN, T2I-Adapter LoRAの重みを学習する:HyperDreambooth あれ・・?もしかしてこの時点でたいていの人は脱落ですか。この辺の

          Stable Diffusionの画像条件付けまとめ|gcem156
        • DALL-Eアーキテクチャは何故描写の崩壊が抑えられているのか?|とーふのかけら

          はじめに 今、巷で高精細で描写の崩壊がしにくいと言われる、OpenAI社のDALL-E 3が話題ですね! DALL-E 3の前身であるDALL-E、DALL-E 2で使用されているDALL-Eアーキテクチャと、現在主流になっているStable Diffusionは何が違うのかを説明していきたいと思います。 今回の内容は、比較的専門用語が飛び交うので、事前知識がないと「???」となるかもしれません。ご了承ください…。 事前知識はこちらをご覧ください。 DALL-Eとは DALL-Eの読み方は「ダリ」です。 DALL-Eはシュールレアリスム画家のサルバドール・ダリが名前の由来になっています。 DALL-Eは現在も進化を続けており、非常に精細で描画の崩壊が抑えられていると話題になっています。 OpenAI社が提唱したDALL-Eアーキテクチャを使用して動作しており、自然な描写、フォトリアリズムに

            DALL-Eアーキテクチャは何故描写の崩壊が抑えられているのか?|とーふのかけら
          • Google Cloud ComposerでGPUを使ったタスクを安定稼働するために行ったこと - ZOZO TECH BLOG

            はじめに こんにちは、ML・データ部MLOpsブロックの松岡です。 本記事ではCloud Composerのワークフローにおいて、GPUを使うタスクで発生したGoogle CloudのGPU枯渇問題と、その解決のために行った対策を紹介します。 ZOZOが運営するZOZOTOWN・WEARでは、特定の商品やコーディネート画像に含まれるアイテムの類似商品を検索する類似アイテム検索機能があります。本記事ではこの機能を画像検索と呼びます。 画像検索では類似商品の検索を高速に行うため、画像特徴量の近傍探索Indexを事前に作成しています。近傍探索Indexはワークフローを日次実行して作成しています。 このワークフローでは大きく次のように処理を行っています。 当日追加された商品の情報を取得し、商品情報をもとに商品画像を取得する。 物体検出器で商品画像から商品が存在する座標とカテゴリーを検出する。 検出

              Google Cloud ComposerでGPUを使ったタスクを安定稼働するために行ったこと - ZOZO TECH BLOG
            • 日本語LLMでLLaVAの学習を行ってみた - Qiita

              はじめに 本記事はLLM Advent Calendar 2023 2日目の記事になります。 最近、様々なLLMが発表されたことによりローカルLLM界隈では自作データセットを作成して自分好みのLLMを作成するなど日本語LLM界隈は盛り上がりを見せています。 一方、マルチモーダルなLLMとして画像を組み合わせたものに関してはTuring、Stability AI、Rinnaなどの企業ではモデルを公開していますが、個人で行われている方は少ないという印象があります。 そこで今回はLLaVAと同じ方法で日本語LLMを学習させて、個人でマルチモーダルなLLMの学習を行ってみました。個人で学習できる範疇ということで学習はRTX4090 1台で行っています。 学習に使用したコードは以下で公開しています。 モデルは以下で公開しています。 事前学習に使用した日本語翻訳データセットは以下で公開しています。 L

                日本語LLMでLLaVAの学習を行ってみた - Qiita
              • 3次元物体検出もシンプルにTransformerで!PETRv2を理解する

                Turing株式会社のアドベントカレンダー2日目です!1日目はCTOの青木さんのカレー屋さんとスタートアップ:CTO of the year 2023でオーディエンス賞受賞です。 自動運転・AIモデル開発チームの岩政(@colum2131)です。 Turingは完全自動運転車の開発を目標としており、自動運転AIや車両、LLMの開発など様々なことに取り組んでいます。今回の話は、自動運転AIの物体認識などのPerceptionタスクにおいて個人的に面白いなと思ったVision-CentircなEnd-to-Endモデルの紹介です[1]。 Transformerベースの画像認識 Transformerは、大規模言語モデル(Large Language Model; LLM)などに用いられる重要なアーキテクチャです。2017年に"Attention Is All You Need"というタイトルで

                  3次元物体検出もシンプルにTransformerで!PETRv2を理解する
                • プロンプトの推定をDALL·E 3とGPT-4Vにまかせた! - ABEJA Tech Blog

                  目次 はじめに DALL·E 3とGPT-4Vにまかせる 実装 実験結果 定量評価 その他 さいごに はじめに この記事はABEJA Advent Calendar 2023の2日目の記事です。 こんにちは。データサイエンティストの小林です。12月に入り、クリスマスももうすぐですね。 私は一年中、Spotifyの"Christmas Hits!"を聞くくらいにクリスマスソングが大好きです! アドベントカレンダー用にクリスマスっぽいサムネを作ろうかなと思い、早速ChatGPTに作ってもらっていたのですが、画像生成のプロンプト調整結構難しいですよね。。 ネットで流れてくる他の人の作った画像、どんなプロンプトで作ったんだろう?とが気になることが結構あります。 そこで今回は、先月公開されたGPT-4 with Vision(GPT-4V)のAPIを用いて、DALL·E 3への画像生成プロンプトを自

                    プロンプトの推定をDALL·E 3とGPT-4Vにまかせた! - ABEJA Tech Blog
                  • アップルがLLMのようにスケーラブルな大規模自己回帰画像モデルを開発

                    3つの要点 ✔️ LLMの画像版として、自己回帰学習型の画像モデルAIMを提案 ✔️ 事前学習した画像特徴量の質はモデル規模とデータの質に従い向上し、下流タスクの性能は事前学習性能に従い向上 ✔️ 20億枚の画像でAIMの70億パラメータを事前学習しImageNet-1kタスクで精度84%を達成に加え、性能飽和の兆しなし Scalable Pre-training of Large Autoregressive Image Models written by Alaaeldin El-Nouby, Michal Klein, Shuangfei Zhai, Miguel Angel Bautista, Alexander Toshev, Vaishaal Shankar, Joshua M Susskind, Armand Joulin (Submitted on 16 Jan 2024)

                      アップルがLLMのようにスケーラブルな大規模自己回帰画像モデルを開発
                    • マルチモーダルLLMの活用方法と技術解説

                      TL; DR GPT-4VやGeminiなど、大規模言語モデル(LLM)を画像や音声など複数のモダリティに対応させたマルチモーダルLLMが登場し始めている LLMをマルチモーダル化することで様々な恩恵を受けられる 学習済みモデル同士を組み合わせた構造にし事前知識を活用することで、学習の効率化を実現する はじめに Elithで機械学習エンジニアをしている成木です。 ChatGPTをはじめとする様々なプロダクトが登場しLLMが急速に普及していく中で、最近それらに画像や音声といったモダリティが入力できるようになるなどLLMのマルチモーダル化が進んでいます。 その例として、画像入力に対応のGPT-4Vや、画像や音声、動画を用いた対話が可能であるGeminiなどがあります。このように画像や音声などのテキスト以外のモダリティを処理を可能にすることで、LLMの活用方法や適用範囲がより大きく広がっています

                        マルチモーダルLLMの活用方法と技術解説
                      1