本文「画像特徴量」を検索 - はてなブックマーク

1 - 31 件 / 31件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

画像特徴量の検索結果1 - 31 件 / 31件

ZOZOの新卒1年目MLエンジニアが行くCVPR 2024 参加レポート - ZOZO TECH BLOG
- 28 users
- techblog.zozo.com
- テクノロジー
- 2024/07/11
はじめにこんにちは、推薦基盤ブロック、新卒1年目の住安宏介です。普段は推薦システムの開発・運用を担当しています。 2024年6月に開催されたコンピュータビジョン・パターン認識分野において世界最高峰の国際会議の1つであるCVPR（Conference on Computer Vision and Pattern Recognition）2024に参加しました。参加レポートとして発表内容や参加した感想を紹介いたします。また、最後にZOZO NEXTが行っているワークショップのスポンサー活動についてZOZO Researchの清水から紹介いたします。目次はじめに目次 CVPR とは開催地のシアトルについて学会のスケジュール企業展示ブースの様子ポスターセッションの雰囲気採択数増加に伴うポスターセッションの懸念とその実際特に、印象に残った研究発表 SLICE: Stabilize
Pythonデータサイエンスハンドブック第2版
- 24 users
- www.oreilly.co.jp
- テクノロジー
- 2024/01/23
Pythonのデータサイエンス用のツールを使いこなすための実用的な情報が詰め込まれたリファレンスの待望の改訂版です。IPythonとJupyter、NumPy、pandas、Matplotlib、scikit-learnを利用し、データの操作、可視化、行列計算、時系列解析、統計分析、機械学習、データモデルの構築、複雑な科学計算まで、幅広いトピックをカバー。それぞれのトピックについて、押さえておくべき基本、tips、便利なコマンドなどを紹介します。Pythonでデータ処理を行う人にとってはいつも手元に置いておきたい「使える」一冊です。『Python Data Science Handbook, Second Edition』への称賛訳者まえがきはじめに Ⅰ部　Jupyter：Pythonより優れたPython 1章　IPython、Jupyter入門 1.1　IPythonシェルの起動
- Python
- あとで読む
Stable Diffusionの画像条件付けまとめ｜gcem156
- 22 users
- note.com/gcem156
- テクノロジー
- 2023/09/02
Stable Diffusionの画像生成を画像によって条件づける方法をまとめていきます。といっても実装とかを全部見たわけではないので、多少間違っている部分もあるかもしれませんが、まあイメージはあってるっしょ。手法の分類　画像の情報をUNetのどこに与えるかによって手法を分類します。とりあえず5つに分けてみました Cross Attentionに与える：Prompt Free Diffusion, PFG, IP-Adapter Self Attentionに与える：Reference only, FABRIC Time embeddingに与える：UnCLIP, Revision その他の場所に与える：ControlNet, GLIGEN, T2I-Adapter LoRAの重みを学習する：HyperDreambooth あれ・・？もしかしてこの時点でたいていの人は脱落ですか。この辺の
- Stable Diffusion
- StableDiffusion
- ControlNet
- DeepLearning
- 画像
- 人工知能
- 学習
- AI
DALL-Eアーキテクチャは何故描写の崩壊が抑えられているのか？｜とーふのかけら
- 20 users
- note.com/konapieces
- テクノロジー
- 2023/10/05
はじめに今、巷で高精細で描写の崩壊がしにくいと言われる、OpenAI社のDALL-E 3が話題ですね！ DALL-E 3の前身であるDALL-E、DALL-E 2で使用されているDALL-Eアーキテクチャと、現在主流になっているStable Diffusionは何が違うのかを説明していきたいと思います。今回の内容は、比較的専門用語が飛び交うので、事前知識がないと「？？？」となるかもしれません。ご了承ください…。事前知識はこちらをご覧ください。 DALL-Eとは DALL-Eの読み方は「ダリ」です。 DALL-Eはシュールレアリスム画家のサルバドール・ダリが名前の由来になっています。 DALL-Eは現在も進化を続けており、非常に精細で描画の崩壊が抑えられていると話題になっています。 OpenAI社が提唱したDALL-Eアーキテクチャを使用して動作しており、自然な描写、フォトリアリズムに
- AI
- 人工知能
- 画像
Google Cloud ComposerでGPUを使ったタスクを安定稼働するために行ったこと - ZOZO TECH BLOG
- 14 users
- techblog.zozo.com
- テクノロジー
- 2023/10/19
はじめにこんにちは、ML・データ部MLOpsブロックの松岡です。本記事ではCloud Composerのワークフローにおいて、GPUを使うタスクで発生したGoogle CloudのGPU枯渇問題と、その解決のために行った対策を紹介します。 ZOZOが運営するZOZOTOWN・WEARでは、特定の商品やコーディネート画像に含まれるアイテムの類似商品を検索する類似アイテム検索機能があります。本記事ではこの機能を画像検索と呼びます。画像検索では類似商品の検索を高速に行うため、画像特徴量の近傍探索Indexを事前に作成しています。近傍探索Indexはワークフローを日次実行して作成しています。このワークフローでは大きく次のように処理を行っています。当日追加された商品の情報を取得し、商品情報をもとに商品画像を取得する。物体検出器で商品画像から商品が存在する座標とカテゴリーを検出する。検出
- あとで読む
日本語LLMでLLaVAの学習を行ってみた - Qiita
- 5 users
- qiita.com/toshi_456
- テクノロジー
- 2023/12/03
はじめに本記事はLLM Advent Calendar 2023 2日目の記事になります。最近、様々なLLMが発表されたことによりローカルLLM界隈では自作データセットを作成して自分好みのLLMを作成するなど日本語LLM界隈は盛り上がりを見せています。一方、マルチモーダルなLLMとして画像を組み合わせたものに関してはTuring、Stability AI、Rinnaなどの企業ではモデルを公開していますが、個人で行われている方は少ないという印象があります。そこで今回はLLaVAと同じ方法で日本語LLMを学習させて、個人でマルチモーダルなLLMの学習を行ってみました。個人で学習できる範疇ということで学習はRTX4090 1台で行っています。学習に使用したコードは以下で公開しています。モデルは以下で公開しています。事前学習に使用した日本語翻訳データセットは以下で公開しています。 L
3次元物体検出もシンプルにTransformerで！PETRv2を理解する
- 5 users
- zenn.dev/turing_motors
- テクノロジー
- 2023/12/03
Turing株式会社のアドベントカレンダー2日目です！1日目はCTOの青木さんのカレー屋さんとスタートアップ：CTO of the year 2023でオーディエンス賞受賞です。自動運転・AIモデル開発チームの岩政(@colum2131)です。 Turingは完全自動運転車の開発を目標としており、自動運転AIや車両、LLMの開発など様々なことに取り組んでいます。今回の話は、自動運転AIの物体認識などのPerceptionタスクにおいて個人的に面白いなと思ったVision-CentircなEnd-to-Endモデルの紹介です[1]。 Transformerベースの画像認識 Transformerは、大規模言語モデル(Large Language Model; LLM)などに用いられる重要なアーキテクチャです。2017年に"Attention Is All You Need"というタイトルで
- 画像
プロンプトの推定をDALL·E 3とGPT-4Vにまかせた！ - ABEJA Tech Blog
- 4 users
- tech-blog.abeja.asia
- テクノロジー
- 2023/12/02
目次はじめに DALL·E 3とGPT-4Vにまかせる実装実験結果定量評価その他さいごにはじめにこの記事はABEJA Advent Calendar 2023の2日目の記事です。こんにちは。データサイエンティストの小林です。12月に入り、クリスマスももうすぐですね。私は一年中、Spotifyの"Christmas Hits!"を聞くくらいにクリスマスソングが大好きです！アドベントカレンダー用にクリスマスっぽいサムネを作ろうかなと思い、早速ChatGPTに作ってもらっていたのですが、画像生成のプロンプト調整結構難しいですよね。。ネットで流れてくる他の人の作った画像、どんなプロンプトで作ったんだろう？とが気になることが結構あります。そこで今回は、先月公開されたGPT-4 with Vision（GPT-4V）のAPIを用いて、DALL·E 3への画像生成プロンプトを自
アップルがLLMのようにスケーラブルな大規模自己回帰画像モデルを開発
- 3 users
- ai-scholar.tech
- テクノロジー
- 2024/05/07
3つの要点 ✔️ LLMの画像版として、自己回帰学習型の画像モデルAIMを提案 ✔️ 事前学習した画像特徴量の質はモデル規模とデータの質に従い向上し、下流タスクの性能は事前学習性能に従い向上 ✔️ 20億枚の画像でAIMの70億パラメータを事前学習しImageNet-1kタスクで精度84%を達成に加え、性能飽和の兆しなし Scalable Pre-training of Large Autoregressive Image Models written by Alaaeldin El-Nouby, Michal Klein, Shuangfei Zhai, Miguel Angel Bautista, Alexander Toshev, Vaishaal Shankar, Joshua M Susskind, Armand Joulin (Submitted on 16 Jan 2024)
マルチモーダルLLMの活用方法と技術解説
- 3 users
- zenn.dev/elith
- テクノロジー
- 2024/04/09
TL; DR GPT-4VやGeminiなど、大規模言語モデル(LLM)を画像や音声など複数のモダリティに対応させたマルチモーダルLLMが登場し始めている LLMをマルチモーダル化することで様々な恩恵を受けられる学習済みモデル同士を組み合わせた構造にし事前知識を活用することで、学習の効率化を実現するはじめに Elithで機械学習エンジニアをしている成木です。 ChatGPTをはじめとする様々なプロダクトが登場しLLMが急速に普及していく中で、最近それらに画像や音声といったモダリティが入力できるようになるなどLLMのマルチモーダル化が進んでいます。その例として、画像入力に対応のGPT-4Vや、画像や音声、動画を用いた対話が可能であるGeminiなどがあります。このように画像や音声などのテキスト以外のモダリティを処理を可能にすることで、LLMの活用方法や適用範囲がより大きく広がっています
約2.5億画像の類似特許・意匠図面検索を開発しました - CreateField Blog
- 2 users
- blog.createfield.com
- 政治と経済
- 2023/09/26
特許検索・分析サービス Patentfieldでは、これまで文書で特許を類似検索できる機能を提供してきましたが、今回、新たに日本、アメリカ、ヨーロッパ、台湾の特許・意匠の全図面、約2.5億枚の画像に対しても類似検索が可能になりました。この機能により、例えば自動運転技術の特許図面を検索して、類似する技術の特許を図面から簡単に見つけ出すことができます。 https://prtimes.jp/main/html/rd/p/000000043.000025380.html 類似画像検索に用いた技術類似画像検索を作るには、画像データを特徴量に変換する必要があります。今回利用したものは、Swin Transformer v2という技術を用いました。 https://arxiv.org/abs/2111.09883 Swin Transformerは昨今、大規模言語モデル等自然言語処理分野で大きな
物体追跡（MOT）技術の研究動向
- 2 users
- zenn.dev/elith
- テクノロジー
- 2024/02/03
株式会社 Elith でインターンをしている松山です。普段は大学で大規模言語モデルの信頼性について研究しています。今は大生成AI時代ですが、未だに物体検出や物体追跡は大活躍してます。今回は業務の中で関わりのあった物体追跡（以下 MOT ）の技術について、サーベイを行いました。本記事では著名な MOT 手法や MOT の今後の展望について紹介します。本記事内で使用する図は参考文献から引用しています。 Tracking-by-Detection MOT には大きく分けて2種類のアプローチがあります。１つ目は Tracking-by-Detection と言われるアプローチです。これはMOTのタスクを「物体を検出するフェーズ」と「検出された物体を追跡するフェーズ」に分けるアプローチです。1つの大きなタスクを複数の小さな独立したタスクに分割することで、物体検出には物体検出に特化した、
SakanaAI EvoLLM-JP-v1-7Bを試した。これからのマルチモーダルAIに必要なデータについて｜shi3z
- 2 users
- note.com/shi3zblog
- テクノロジー
- 2024/03/23
SakanaAI EvoLLM-JP-v1-7Bを試した。これからのマルチモーダルAIに必要なデータについて話題のSakanaAIが発表した進化学習型LLMを試しました。 >>> from transformers import AutoTokenizer, AutoModelForCausalLM >>> tokenizer = AutoTokenizer.from_pretrained("SakanaAI/EvoLLM-JP-v1-7B") >>> model = AutoModelForCausalLM.from_pretrained("SakanaAI/EvoLLM-JP-v1-7B") Loading checkpoint shards: 100%|█████████████████████████████████████████| 3/3 [00:02<00:00, 1.11
今さらNetVLADの日本語解説 - takminの書きっぱなし備忘録 @はてなブログ
- 2 users
- takmin.hatenablog.com
- 暮らし
- 2024/04/04
NetVLADは結構メジャーな手法だと思ってたんだけど、案外日本語解説はネットに落ちてないんだね。昨今、有名な手法は誰かしらブログ書いてるイメージだったので意外。— Minagawa Takuya (@takmin) 2024年3月22日というわけで、自分が解説記事を書こうかと思い立ちました。 NetVLADが発表されたのは2016年のCVPRなので[1]、進化の早いAI分野では古めの技術となってしまいますが、画像検索(Image Retrieval)や、撮影場所の推定(Visual Place Recognition)などの論文に未だに現役で出てくる手法なので、この日本語記事が色んな人の役に立ったら良いなと期待してます。 NetVLADは１枚の画像全体を１つの特徴ベクトル(Global Feature)に変換するためのもので、例えば画像検索タスクであれば、クエリー画像から抽出した特徴ベ
Person Re-Identificationの全体像を把握してみた - yuichinagapan’s diary
- 2 users
- yuichinagapan.hatenablog.com
- テクノロジー
- 2024/05/02
今回、エンジニアアルバイトとして携わっている会社株式会社HULIX | 人流解析でPerson Re-Identificationに関する技術調査を行ったので、その内容を記事にまとめてみました。この記事では具体的な研究の内容、例えばどのような手法が使われているかなどには深入りせずに、Person Re-Identification(以降Person Re-Id)は何を行っているかと、Person Re-Idを取り入れたシステムは現実的に実装可能なのかという視点で、記事を書いていこうと思います。 Person Re-Idとは Person Re-Id(日本語では人物再同定)とは、簡単にいうと、とあるカメラに映った人物が、別のカメラに映った場合に、その人物同士を同一人物として結びつけるようなタスクのことです。Person Re-Idの実システムへの導入が可能になれば、例えば大型商業施設などの
- 面白い
- AI
- 技術
【論文5分まとめ】Density estimation using real NVP
- 1 user
- zenn.dev/takoroy
- テクノロジー
- 2023/08/17
この記事は、論文の内容を5分くらいで読めるようにまとめた記事です。そのため、前提となる知識や関連研究に関する説明は大幅に省略しています。少し古い論文ですが、基礎から学ぶために読んでまとめています。基本的には筆者の備忘録ですが、面白そうと思ったら是非ご自身でも読んでみてください。概要 Real NVPは、データ分布\hat{p}_{X}と潜在変数分布p_{Z}（典型的にはガウス分布）の間を逆変換可能な全単射関数モデルを構築する手法。書誌情報 Dinh, Laurent, Jascha Sohl-Dickstein, and Samy Bengio. "Density estimation using real nvp." arXiv preprint arXiv:1605.08803 (2016). https://arxiv.org/abs/1605.08803 ポイント全単射関数
解像度の高い画像が入力可能な日本語VLMを学習させてみた - Qiita
- 1 user
- qiita.com/toshi_456
- テクノロジー
- 2024/05/27
はじめに最近、Large Vision Language Model(以下LVLM)ではLLaVA NEXTのように画像を高解像度のまま入力することでモデルの性能が上がるという論文をarXiv上でよく見かけます。そこで性能が高いImage Encoderを使用し、入力を高解像度にすることでLLMのバラメータ数が少なくても良い性能のVLMができるのではないかと考え日本語入力可能なモデルを学習させてみました。結論を最初に書くと1.86Bという比較的小さいモデルにも関わらず、7Bほどのモデルと比較して同等もしくはそれ以上の性能を持つモデルができあがりました。学習に使用したコードは以下で公開しています。モデルは以下で公開しています。デモは以下で公開しています。以前LLaVAと同じ構造で学習させたという記事も書いていますので、LLaVAについて知りたい方は以下を読んでください。モデル
最近、人工知能による自然言語処理が爆発的に進化しているのでまとめてみた。【後編】｜IT navi
- 1 user
- note.com/it_navi
- テクノロジー
- 2023/10/09
1章から3章までは、主に汎用言語モデルについて紹介してきました。汎用言語モデルとは、要約、翻訳、文書分類、質問応答など様々な言語処理タスクに対応した汎用的な言語モデルで、BERT、T5、GPT-3、PaLMなどは、すべて汎用言語モデルです。これまで紹介した言語モデルの中では、MetaのNLLB-200だけが、翻訳機能に特化した単機能特化型言語モデルです。 4章以降では、主にこうした単機能特化型の言語モデルを紹介します。４．テキストからの画像生成　最初に、単機能特化型の言語モデルの中でも、2021年にOpenAIが発表したDALL-E以降、次々と新しいモデルが発表されて盛り上がっているテキストからの画像生成について解説します。 ① ４種類の画像生成モデル　まず、テキストからの画像生成だけにとどまらず、一般的に、ディープラーニングを利用して自動的に画像を生成する画像生成モデルとしては、大きく
深層学習は画像のどこを見ている！？ CNNで「お好み焼き」と「ピザ」の違いを検証 | DOORS DX
- 1 user
- www.brainpad.co.jp
- テクノロジー
- 2024/03/25
こんにちは、AI開発部の伊藤です。今回のブログは、「深層学習はいったい画像のどこを見て判断しているのか」という素朴な疑問に答えてくれる技術として、昨年提唱された「Grad-CAM」という技術を紹介します。 1. はじめに近年、画像分類技術の精度向上には目覚ましいものがあります。深層学習と呼ばれるニューラルネットワークを進化させた技術を画像分類に適用することにより、人間と同程度かそれ以上の高精度を実現できるようになりました。そのような深層学習モデルの中でも、「畳み込みニューラルネットワーク（Convolutional Neural Network, CNN）」は、視覚野の特徴抽出の仕組みをモデル化したもので、画像解析において高い性能を発揮してきました。CNNは、畳み込み演算（Convolution）による画像特徴量の抽出とプーリング（Pooling）と呼ばれるノイズ処理を行い、何層にも
【Stable Diffusion / DALL - E2】画像生成でよく使われる2つのモデルについて紹介 | Hakky Handbook
- 1 user
- book.st-hakky.com
- テクノロジー
- 2023/12/27
はじめに画像生成は知識のない人でも簡単に使えるツールとして SNS で流行しました。画像生成自体は GAN をはじめとして以前からありましたが、生成される画像は一般利用できるような制度ではありませんでした。しかし、Transformer の登場と拡散モデルと呼ばれる手法により、画像と自然言語がより密接に関わるようになったことで stable-diffusion や DALL・E2 など非常に高品質な画像を生成するモデルが誕生しました。本記事では、この二つのモデル、stable-diffusion と DALL・E2 について紹介します。 stable-diffusion の概要 stable-diffusion は画像生成アルゴリズムの一種であり、自然言語からそのテーマに合った画像を生成することができます。画像生成は以前まで GAN と呼ばれるモデルが主流でした。このモデルはバー
気象データから状況説明や注意事項の文を自動生成するTransformerを実装した - Qiita
- 1 user
- qiita.com/m-taque
- テクノロジー
- 2024/02/19
0. 更新生成文の改善（ネットワーク構造および学習データの与え方を変更）について 5.に記載しました。文が生成される様子の動画を添付しました。 1. はじめに気象予報ではコンピュータシミュレーションの結果と観測状況から、今後想定される気象状況の推移、実際の注意事項などが重要な事項として各種メデイアやネットワークを通じて公表されていきます。このような文章は、経験を積んだ気象庁の予報官や、民間の気象予報士が時間と闘いながら作成されているのだと思います。こういう文章をデータから機械学習によって直接作成するということを試みました。現状ではまだプロの人間様に太刀打ちできるものではありませんが、方向性として手応えもありましたので、今回手法と初期の結果をまとめました。実際に解説文が生成されていく様子です。これまでも、気象データを見て概況を説明する文章を自動生成させてみるという記事で、気象デ
画像分類器を再トレーニングする | TensorFlow Hub
- 1 user
- www.tensorflow.org
- テクノロジー
- 2024/02/29
画像分類器を再トレーニングするコレクションでコンテンツを整理必要に応じて、コンテンツの保存と分類を行います。はじめに画像分類モデルには数百個のパラメータがあります。モデルをゼロからトレーニングするには、ラベル付きの多数のトレーニングデータと膨大なトレーニング性能が必要となります。転移学習とは、関連するタスクでトレーニングされたモデルの一部を取り出して新しいモデルで再利用することで、学習の大部分を省略するテクニックを指します。この Colab では、より大規模で一般的な ImageNet データセットでトレーニングされた、TensorFlow Hub のトレーニング済み TF2 SavedModel を使用して画像特徴量を抽出することで、5 種類の花を分類する Keras モデルの構築方法を実演します。オプションとして、特徴量抽出器を新たに追加される分類器とともにトレーニング（「フ
静岡大学グリーン科学技術研究所
- 1 user
- www.green.shizuoka.ac.jp
- テクノロジー
- 2024/06/06
神奈川大学（2024年3月15-17日、ハイブリッド）で開催された情報処理学会第86回全国大会にて、創造科学技術大学院・博士課程（大学院情報学研究科情報学専攻修了）の小池誠さん（フィールドインフォマティクス・峰野研）が、情報処理学会 2023年度（令和5年度）山下記念研究賞を受賞しました。山下記念研究賞は、情報処理学会の栄誉ある研究賞で、本会の研究会および研究会主催シンポジウムにおける研究発表のうちから特に優秀な論文が選出され、その発表者に贈呈されているものです。故山下英男先生のご遺族から学会にご寄贈いただいた資金を活用するため平成6年度から研究賞が充実され、山下記念研究賞となったものです。本年度は、37研究会の主査から推薦された計52編の優れた論文に対し、慎重な審議を経て理事会（2023年7月）および調査研究運営委員会で承認されました。 ●小池　誠メロン画像特徴量の類似度を用
レシピ動画からサムネイル画像を自動抽出するAIシステムを作りました - every Tech Blog
- 1 user
- tech.every.tv
- テクノロジー
- 2024/06/12
はじめに DELISH KITCHENでデータサイエンティストをやっている山西です。今回はレシピ動画のサムネイル画像の自動抽出の取り組みについて紹介いたします。 OpenCVを用いた画像処理画像とテキスト情報のペアを扱う大規模モデル等を用いつつそれを試みた事例になります。 ※記事後半で具体実装を扱っている部分では、周辺知識がある前提で説明を進めていることをご了承ください。 every Tech Blog Advent Calendar 2024(夏) 9日目の記事になります。出来たもののイメージどんなものが出来たかを先に紹介します。一言で表すと、レシピ動画の中から「調理手順を表すのに良い感じのサムネイル画像」をAI的振る舞いで自動で抽出してくれるシステムになります。これをワンパンカルボナーラというレシピに適用した例を以下に載せています。図1: AIシステムによるレシピサムネ
論文まとめ：Video-LLaVA: Learning United Visual Representation by Alignment Before Projection | Shikoan's ML Blog
- 1 user
- blog.shikoan.com
- テクノロジー
- 2023/12/02
66{icon} {views} 論文URL：Video-LLaVA: Learning United Visual Representation by Alignment Before Projection 著者：Bin Lin, Yang Ye, Bin Zhu, Jiaxi Cui, Munan Ning, Peng Jin, Li Yuan 論文URL：https://arxiv.org/abs/2311.10122 コード：github.com/PKU-YuanGroup/Video-LLaVA Demo：https://huggingface.co/spaces/LanguageBind/Video-LLaVA ざっくりいうと動画静止画両方に対応しているVision & Language Modelの研究動画と静止画のアラインメントを精度向上につなげているのが特徴で、CLI
活用方法は無限大！AIが可能にした世界線
- 1 user
- ai-scholar.tech
- テクノロジー
- 2023/08/27
今回は論文を基準とした解説ではなく、技術ベースで記事を書いていますので、少しいつもと違うと思いますが、ぜひお読みください。これを読まれている多くの方はpose estimation(姿勢推定)という言葉を聞いたことがあると思います。簡単に説明すれば、人がどのような姿勢を取っているかを推定する技術です。みなさんがもっともpose estimationを知ったきっかけにもなったのは、CVPR2017で発表され、多くの人が知ったであろうOpenPoseが有名ですね。今回はそんなpose estimationについて、深ぼっていきたいと思っています。 Pose Estimationの社会的ニーズの広がりではなぜ、今回pose estimationについて記事を書いているかというと、近年動画SNSが爆発的に普及し、それに引っ張られるように動画に関する研究も増えています。すなわち、動画データが一般
AlexNet: 大規模な画像物体認識むけCNNの元祖 | CVMLエキスパートガイド
- 1 user
- cvml-expertguide.net
- テクノロジー
- 2024/06/05
1. AlexNet とは [概要] AlexNet とは，Geoffrey Hinton 研究室の Alex Krizhevsky と，その指導役であった Ilya Sutskever (Wikipedia)の3人により提案された，画像からの物体認識むけの畳込みニューラルネットワーク(CNN)である [Krizhevsky et al., 2012]．コンピュータビジョン業界の研究者たちが，旧画像認識技術から，GPU上でのディープラーニングへと一気に鞍替えするきっかけとなった．この意味で，パターン認識全体にパラダイムシフトを起こした非常に重要な研究である．この記事では，AlexNetについて，当時の時代的背景を1節でおさえたのち，そのネットワーク構造の解説と，その歴史的意義について紹介していく． AlexNetは，ImageNet での物体認識精度を競う「ISLVRC 2012」のコン
- あとで読む
日本酒選びをサポート：画像認識とLLMを活用した機能開発の試み
- 1 user
- zenn.dev/yusuke_ai
- テクノロジー
- 2024/07/07
食に関連するタスクを主にLLMを用いて色々とこなしてみることにします。その一環として、本記事では、日本酒について試してみることにします。はじめに私は日本酒が好きで、甘くて、じっとりした後味の日本酒が好きです。新しいお酒を楽しみつつも、辛口や後味があっさりしたものは避けたいと思っています。そういった、ニーズを支援するために、世の中にどういうアプリや仕組みがあればいいでしょうか？色々とあると思いますが、酒屋で酒を買ったり、セルフでお酒を選ぶようなお店において、日本酒の瓶の画像で酒の味を調べられるアプリがあると便利だと思いました。そこで、そのような機能を実装してみました。 LLMx日本酒の評価まずは、日本酒に関するLLMの能力を調べてみました。 LLMは日本酒の知識をどの程度持っているか？まず、LLMが現状持っている能力のみで、お酒をおすすめできるかを知るために、 LLMの日
日本語LLMでLLaVAの学習を行ってみた - Qiita
- 1 user
- qiita.com/toshi_456
- テクノロジー
- 2024/06/04
はじめに本記事はLLM Advent Calendar 2023 2日目の記事になります。最近、様々なLLMが発表されたことによりローカルLLM界隈では自作データセットを作成して自分好みのLLMを作成するなど日本語LLM界隈は盛り上がりを見せています。一方、マルチモーダルなLLMとして画像を組み合わせたものに関してはTuring、Stability AI、Rinnaなどの企業ではモデルを公開していますが、個人で行われている方は少ないという印象があります。そこで今回はLLaVAと同じ方法で日本語LLMを学習させて、個人でマルチモーダルなLLMの学習を行ってみました。個人で学習できる範疇ということで学習はRTX4090 1台で行っています。学習に使用したコードは以下で公開しています。モデルは以下で公開しています。事前学習モデル: ファインチューニングモデル: 事前学習に使用した日
ZOZOの新卒1年目MLエンジニアが行くCVPR 2024 参加レポート - ZOZO TECH BLOG
- 1 user
- search.app
- テクノロジー
- 2024/07/13
はじめにこんにちは、推薦基盤ブロック、新卒1年目の住安宏介です。普段は推薦システムの開発・運用を担当しています。 2024年6月に開催されたコンピュータビジョン・パターン認識分野において世界最高峰の国際会議の1つであるCVPR（Conference on Computer Vision and Pattern Recognition）2024に参加しました。参加レポートとして発表内容や参加した感想を紹介いたします。また、最後にZOZO NEXTが行っているワークショップのスポンサー活動についてZOZO Researchの清水から紹介いたします。目次はじめに目次 CVPR とは開催地のシアトルについて学会のスケジュール企業展示ブースの様子ポスターセッションの雰囲気採択数増加に伴うポスターセッションの懸念とその実際特に、印象に残った研究発表 SLICE: Stabilize
PyTorchを使ってCNNで野菜の仕分け作業自動化
- 1 user
- zenn.dev/kiyokiyo_tech
- テクノロジー
- 2024/06/21
はじめにこんにちは。皆さんは日本の農業人口の推移の状況についてご存知でしょうか。統計によると2020年には2000年の農業人口の約6割まで落ち込み、またその多くは65歳以上の高齢者で支えられているそうです。農業人口は減少、高齢化の一途なのです。私の祖父母も農業に携わっていることから、機械学習で仕事を少しでも自動化できないかと思ったのが執筆のモチベーションです。この記事では、Pythonの機械学習用ライブラリであるPyTorch用いて、きゅうりの鮮度の分類を行うモデルを構築します。曲がっていたり太さが均一でないキュウリは鮮度が良くないと見なされることを利用し、画像特徴量からそれらを識別します。こちらの、TensorFlowで実装されたきゅうりの分類の記事を参考にしました。実装の流れ学習の流れは以下のようになります。データの取得データを訓練用、テスト用、検証用に分割するデータロー