本文「画像特徴量」を検索 - はてなブックマーク

1 - 40 件 / 44件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

画像特徴量の検索結果1 - 40 件 / 44件

メルカリは「軽トラ」の検索結果をどう改善したか？　商品検索におけるUI/UXと、新たな挑戦
- 63 users
- logmi.jp
- テクノロジー
- 2020/02/12
2019年9月25日、クックパッド株式会社にて「Cookpad Product Kitchen #4」が開催されました。今回のテーマは「ユーザー体験を支える検索・マッチング技術」。あらゆるサービスに採用されている「検索」機能。そんな検索機能における技術と工夫について、様々なIT企業のエンジニアたちが一堂に会し、自らの知見を語ります。プレゼンテーション「メルカリ商品検索のUI/UXと新たな挑戦」に登壇したのは、株式会社メルカリ元Director of Search/AI/Data Scienceの森山大朗氏。講演資料はこちらメルカリ商品検索のUI/UXと新たな挑戦森山大朗氏（以下、森山）：みなさんこんばんは。メルカリで検索の責任者をやっています森山大朗です。今日は、光栄にもログミーTechの記事を見ていただいたことがきっかけでこの場を作っていただいたということなので、がんばって話そ
- mercari
- UI
- あとで読む
- UX
- search
- メルカリ
- ElasticSearch
- 検索
AIで1枚の人物写真から高精細3Dモデル作成　Facebookなど開発
- 58 users
- www.itmedia.co.jp
- テクノロジー
- 2020/06/17
Innovative Tech：このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。南カリフォルニア大学、Facebook Reality Labs、Facebook AI Researchによる研究チームが開発した「PIFuHD」は、1枚の人物写真から衣服を着た人体3次元モデルを高解像に再構築する深層学習フレームワークだ。指や顔の特徴、衣服のひだといった細かい情報や、見えていない箇所まで3Dで再現する。人物の3Dモデルを忠実に作成する場合、従来は「Light Stage」と呼ばれる、全方位に多数のカメラやセンサーを配置した球形ドーム型キャプチャーシステムが用いられてきた。しかし、Light Stageは高価なため一般的に導入は難しい。そこで1枚の画像から深層学習を用い
- 人工知能
- 3D
- AI
- 3DCG
- 機械学習
- 写真
CodeFormerで、低画質の顔画像を高画質化する
- 43 users
- cedro3.com
- 学び
- 2022/09/21
1.はじめに今回ご紹介するのは、Transfomer ベースの予測ネットワークを使うことによって、低画質の顔画像を高画質化する CodeFormer という技術です。＊この論文は、2022.6に提出されました。 2.CodeFomerとは？下記は、CodeFormerの概要図で、２段階で学習を行います。まず、（a）自己再構成学習を行います。高画質画像（Ih）から高画質エンコーダー（HQ Encoder）を通して画像特徴量（Zh）を抽出し、ニアレストネイバー法（Nearest-Neighbor Matching）で離散コードブック（Codebook C）にマッピングし、デコーダー（HQ Decoder）で高画質画像に戻すことを学習します。ここで学習した離散コードブック以降は次で使用します。次に、（b）最終的なネットワークの学習を行います。低画質画像（IL）から低画質エンコーダー（LQ
- AI
- photo
- 写真
- image
- テクノロジー
- 便利
- ツール
- プログラミング
ディープラーニングの先端技術、マルチモーダルの日本語モデルを作ってみた【日本語VL-T5】 - Qiita
- 34 users
- qiita.com/sonoisa
- テクノロジー
- 2021/12/02
要点マルチモーダル深層学習って何？Vision-Language Modelって何？という方向けに、 Google Colabで実際に学習済みモデルを動かしながら技術概要を理解していただけるチュートリアル記事です。マルチモーダルの時代が到来この10年、ディープラーニングの登場により、画像の分類や、文章読解（日本語等の自然言語によるQA）などが高い精度で自動化できるようになりましたね。しかし、画像は画像、自然言語は自然言語・・・と、それぞれに特化した手法の開発が中心で、それらが混在したマルチメディア（マルチモーダル）の問題へのチャレンジは少ない状況に長らくありました。マルチモーダルの重要性は人間の様々な知的判断の場面を思い返せば分かりますね。実課題解決において重要なAI技術分野といえます。シングルモーダルが中心だった潮目はこの1年くらいで変わり、昨今、マルチモーダルな深層学習モデル
【マルチモーダル学習】画像中の音の発生源を可視化するAI | Ledge.ai
- 33 users
- ledge.ai
- テクノロジー
- 2019/07/16
2018年、韓国科学技術院から音の発生源を推測するAIが提案された。画像上の音の発生場所と考えられる物体をヒートマップとして可視化できるものだ。説明だけではあまりピンとこないかもしれないので、次の動画を数秒ほどご覧頂きたい。動画では、馬車に対して強いヒートマップが出ており、音の発生場所を上手く捉えられていることがわかる。この研究の強みは、教師なし学習が用いられていることだ。アノテーションされていないただの動画データを学習するだけで、音声発生源を推測できることがわかる。論文名：Learning to Localize Sound Source in Visual Scenes 学会：CVPR2018 作者：Arda Senocak, Tae-Hyun Oh, Junsik Kim, Ming-Hsuan Yang, In So Kweon 所属：KAIST, MIT CSAIL, U
- AI
- Deep Learning
- あとで読む
- machinelearning
- paper
- 論文
- データ
- 学習
Photogrammetry on Docker ～サーバ屋さんもXRしたい～ - Qiita
- 29 users
- qiita.com/kotauchisunsun
- テクノロジー
- 2019/08/22
フォトグラメトリとは？最近，このような動画がバズっていました．鎌倉、銭洗弁天をまるごとVR化！建築デジタルアーカイブの試み。リプ欄からVR体験可能です。#Photogrammety pic.twitter.com/Qsf3ZwjQDM — 龍 lilea (@lileaLab) May 21, 2019 鎌倉の銭洗弁天という場所を"フォトグラメトリ"という技術を用いて作られたようです．フォトグラメトリとは、物体を様々な方向から撮影した写真をコンピューターで解析し、3Dモデルを立ち上げる技術です。フィギュアのような小さなものから、建築や都市といった大きなものまで3Dモデルにすることができます。引用：フォトグラメトリ入門撮影方法～3Dモデル作成ざっくりというと，写真から3Dモデルを生成する技術です．最近，私がxRTech Tokyoに参加し，そういや，3か月前くらいにOSS
- docker
- あとで読む
- CPU
- oss
- サーバ
- Qiita
- tutorial
ZOZOの新卒1年目MLエンジニアが行くCVPR 2024 参加レポート - ZOZO TECH BLOG
- 28 users
- techblog.zozo.com
- テクノロジー
- 2024/07/11
はじめにこんにちは、推薦基盤ブロック、新卒1年目の住安宏介です。普段は推薦システムの開発・運用を担当しています。 2024年6月に開催されたコンピュータビジョン・パターン認識分野において世界最高峰の国際会議の1つであるCVPR（Conference on Computer Vision and Pattern Recognition）2024に参加しました。参加レポートとして発表内容や参加した感想を紹介いたします。また、最後にZOZO NEXTが行っているワークショップのスポンサー活動についてZOZO Researchの清水から紹介いたします。目次はじめに目次 CVPR とは開催地のシアトルについて学会のスケジュール企業展示ブースの様子ポスターセッションの雰囲気採択数増加に伴うポスターセッションの懸念とその実際特に、印象に残った研究発表 SLICE: Stabilize
フードデリバリーの多様な課題に向き合う　出前館の機械学習システム開発の裏側
- 25 users
- logmi.jp
- テクノロジー
- 2021/11/26
2021年11月10日と11日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2021」がオンラインで開催されました。そこで前半では、曽弘博氏が、出前館における機械学習活用に向けた取り組みを紹介しました。後半は実際に出前館でどのように機械学習を実装しようとしているかについてです。前編はこちら。推薦システムについて曽弘博氏：では、推薦システムについての解説に入りましょう。こちらでやりたかったことを復習すると、「それぞれのユーザーに対して、そのユーザーの好みに合わせた店舗の推薦リストを提示すること」でした。このタスクにに関して、ここでは2つの多様性という課題に関してお話をいたしましょう。 1つは推薦リスト全体での店舗の多様性です。ここでいう多様性というのは、「全てのユーザーに対する推薦リストを集めてきたときに、そのリストの集まり
- 機械学習
- あとで読む
Pythonデータサイエンスハンドブック第2版
- 24 users
- www.oreilly.co.jp
- テクノロジー
- 2024/01/23
Pythonのデータサイエンス用のツールを使いこなすための実用的な情報が詰め込まれたリファレンスの待望の改訂版です。IPythonとJupyter、NumPy、pandas、Matplotlib、scikit-learnを利用し、データの操作、可視化、行列計算、時系列解析、統計分析、機械学習、データモデルの構築、複雑な科学計算まで、幅広いトピックをカバー。それぞれのトピックについて、押さえておくべき基本、tips、便利なコマンドなどを紹介します。Pythonでデータ処理を行う人にとってはいつも手元に置いておきたい「使える」一冊です。『Python Data Science Handbook, Second Edition』への称賛訳者まえがきはじめに Ⅰ部　Jupyter：Pythonより優れたPython 1章　IPython、Jupyter入門 1.1　IPythonシェルの起動
- Python
- あとで読む
Stable Diffusionの画像条件付けまとめ｜gcem156
- 22 users
- note.com/gcem156
- テクノロジー
- 2023/09/02
Stable Diffusionの画像生成を画像によって条件づける方法をまとめていきます。といっても実装とかを全部見たわけではないので、多少間違っている部分もあるかもしれませんが、まあイメージはあってるっしょ。手法の分類　画像の情報をUNetのどこに与えるかによって手法を分類します。とりあえず5つに分けてみました Cross Attentionに与える：Prompt Free Diffusion, PFG, IP-Adapter Self Attentionに与える：Reference only, FABRIC Time embeddingに与える：UnCLIP, Revision その他の場所に与える：ControlNet, GLIGEN, T2I-Adapter LoRAの重みを学習する：HyperDreambooth あれ・・？もしかしてこの時点でたいていの人は脱落ですか。この辺の
- Stable Diffusion
- StableDiffusion
- ControlNet
- DeepLearning
- 画像
- 人工知能
- 学習
- AI
DALL-Eアーキテクチャは何故描写の崩壊が抑えられているのか？｜とーふのかけら
- 20 users
- note.com/konapieces
- テクノロジー
- 2023/10/05
はじめに今、巷で高精細で描写の崩壊がしにくいと言われる、OpenAI社のDALL-E 3が話題ですね！ DALL-E 3の前身であるDALL-E、DALL-E 2で使用されているDALL-Eアーキテクチャと、現在主流になっているStable Diffusionは何が違うのかを説明していきたいと思います。今回の内容は、比較的専門用語が飛び交うので、事前知識がないと「？？？」となるかもしれません。ご了承ください…。事前知識はこちらをご覧ください。 DALL-Eとは DALL-Eの読み方は「ダリ」です。 DALL-Eはシュールレアリスム画家のサルバドール・ダリが名前の由来になっています。 DALL-Eは現在も進化を続けており、非常に精細で描画の崩壊が抑えられていると話題になっています。 OpenAI社が提唱したDALL-Eアーキテクチャを使用して動作しており、自然な描写、フォトリアリズムに
- AI
- 人工知能
- 画像
最適な学習済みモデルが分かる？転移学習を加速させるTASK2VECの登場！
- 16 users
- ai-scholar.tech
- テクノロジー
- 2019/11/15
3つの要点 ✔️タスク(データセットとラベルの組み合わせ)をベクトル化するTASK2VECの提案 ✔️タスク間の類似度を計算することにより、どの学習済みモデルを使えば良いか判断可能に ✔️様々なタスクでの実験で、TASK2VECは最適に近い学習済みモデルを予測することに成功はじめに転移学習をご存知でしょうか。これは学習済みモデルを再利用することにより、少ないトレーニングデータでも、性能を発揮できる学習方法です。転移学習の例としては、ImageNetによるものが最も有名でしょう。これは画像分類のタスクを行う際に、ImageNetで学習したモデルの最終層(分類を行う層)だけを、解きたいタスクに応じて再調整する、というものです。このような学習が上手くいく理由の１つに、ImageNetでの学習によって、良い画像特徴量を抽出する機構が出来上がっているからです。その機構を再利用すれば、トレーニ
- あとで読む
Google Cloud ComposerでGPUを使ったタスクを安定稼働するために行ったこと - ZOZO TECH BLOG
- 14 users
- techblog.zozo.com
- テクノロジー
- 2023/10/19
はじめにこんにちは、ML・データ部MLOpsブロックの松岡です。本記事ではCloud Composerのワークフローにおいて、GPUを使うタスクで発生したGoogle CloudのGPU枯渇問題と、その解決のために行った対策を紹介します。 ZOZOが運営するZOZOTOWN・WEARでは、特定の商品やコーディネート画像に含まれるアイテムの類似商品を検索する類似アイテム検索機能があります。本記事ではこの機能を画像検索と呼びます。画像検索では類似商品の検索を高速に行うため、画像特徴量の近傍探索Indexを事前に作成しています。近傍探索Indexはワークフローを日次実行して作成しています。このワークフローでは大きく次のように処理を行っています。当日追加された商品の情報を取得し、商品情報をもとに商品画像を取得する。物体検出器で商品画像から商品が存在する座標とカテゴリーを検出する。検出
- あとで読む
GANの発展の歴史を振り返る！GANの包括的なサーベイ論文の紹介(アルゴリズム編)
- 13 users
- ai-scholar.tech
- テクノロジー
- 2020/02/15
3つの要点 ✔️様々な分野で使用されている「GAN」の包括的なサーベイ論文の紹介 ✔️アルゴリズム編では、「GAN」のアルゴリズムに焦点を絞って様々なアプローチを紹介 ✔️ この記事で「GAN」の最新動向までをキャッチアップ可能 A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications written by Jie Gui, Zhenan Sun, Yonggang Wen, Dacheng Tao, Jieping Ye (Submitted on 20 Jan 2020) subjects : Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG) はじめに 2014年に画像生成のためのア
- 機械学習
- GAN
- 論文
- techfeed
- AI
LayoutLMの特徴と事前学習タスクについて - LayerX エンジニアブログ
- 9 users
- tech.layerx.co.jp
- テクノロジー
- 2022/11/24
LayerXで機械学習エンジニアを担当している @yoppiblog です。今回はOCRチームで検証したLayoutLMについて簡単に紹介します。 LayoutLMとは LayoutLMとは昨今注目されているマルチモーダルなDocument Understanding領域の1実装です。様々な文書（LayerXだとバクラクではお客様の多種多様な請求書といった帳票を扱っています）から情報を抽出（支払金額、支払期日や取引先名など）するために考案されたものになります。 BERT（LayoutLMv3はRoBERTa）ベースのencoder層を用いレイアウト情報や、文書そのものを画像特徴量としてembedding層で扱っているところが既存のモデルより、より文書解析に特化している点です。 v1〜v3まで提唱されており、v3が一番精度が高いモデルです。もともと、LayoutLMv2では多言語対応され
- LayerX
ビッグデータ活用時のワークフローの大切さ　ZOZO研究所のエンジニアが感じた次元が違う300万画像の処理
- 9 users
- logmi.jp
- テクノロジー
- 2020/12/21
ZOZO Technologies Meetup は、「ZOZOテクノロジーズの大規模データ活用に興味のある方」を対象としたイベントです。ZOZO研究所の渡辺氏からは大規模データを対象とした画像検索システムのワークフローについての事例を紹介しました。後半は画像検索のワークフローの流れについて。画像検索のワークフローの流れ渡辺慎二郎氏：というところの話になってきて、これがワークフロー、それを毎日のように準備するという仕組みになります。先ほど見せた図で言うと、この部分ですね。このワークフロー、今回ではComposerというGKEのマネージドサービスを使っています。これの中身、具体的な仕組みは置いておいて、流れをご紹介します。まずBigQueryから、本日今時点で有効になっている、使える、発売になっている商品情報をダーッと取ってきます。だいたいこれが300万画像ぐらい。その日によって違っ
- あとで読む
- *あとで読む
3000円の液晶付きAIカメラでオフライン転移学習する #M5StickV - Qiita
- 5 users
- qiita.com/ksasao
- テクノロジー
- 2019/12/09
はじめに液晶ディスプレイ・カメラ・マイク・深層学習用推論モジュールなどを搭載し、約3000円で入手できるAIカメラである M5Stack社の M5StickV を利用して、デバイス単独で画像のリアルタイム学習・推論を行う拙作アプリ Brownie の実装について説明します。下記が Brownie の動作の一例です。パー、グー、チョキの順に１回ずつ学習していくと、それぞれがだんだん識別できるように学習されていく様子が分かると思います。 Brownie Learn で、まっさらな状態から少しずつじゃんけんを学習していく様子です。数字が小さいほど自信ありです(登録時の画像の特徴ベクトルとの距離の2乗)。 https://t.co/GX1jR1mbJ8 #M5StickV pic.twitter.com/nrvSSGpyHN — ミクミンP/Kazuhiro Sasao (@ksasao) A
- カメラ
- AI
"Data Analysis Techniques to Win Kaggle" table of contents /「Kaggleで勝つデータ分析の技術」の目次 - threecourse’s blog
- 5 users
- threecourse.hatenablog.com
- テクノロジー
- 2019/10/29
This is table of contents of a book "Data Analysis Techniques to Win Kaggle (amazon.co.jp) written in Japanese and published on Oct. 2019. Authors are threecourse, Jack, hskksk, maxwell . en ja Data Analysis Techniques to Win Kaggle Kaggleで勝つデータ分析の技術 Chapter I: What is data analysis competition? 第1章分析コンペとは? 1.1 what is data analysis competition? 1.1 分析コンペって何? 1.1.1 what do you do in competition?
- あとで読む
AIで画像の美しさを評価する LAION Aesthetics - A Day in the Life
- 5 users
- secon.dev
- テクノロジー
- 2022/09/20
画像の美しさ、というのは主観が多分に含まれるものなので、コンピュータが評価するタスクとしては難しいのかな、と思っていたのだけどLAION-AESTHETICS を読んでびっくり、だいぶきちんと評価できてそう。実際にLAION Aesthetics V2でデータセットをスコア付した結果(リンク先ページは大量の画像ロードが走って遅いので注意)ではこんな感じ。例えばスコアが1.5～1.75の画像だととなる。またスコア7～7.25の画像ではという感じになる。おーすごい、それっぽい。そしてこのスコアを学習・導出しているものも複雑なディープラーニング処理ではなく、単純なMLP(5つの線型層+Dropoutで、活性化関数を挟まない)というのもすごい。 LAION-Aesthetics V1 V1 では SAC というStable Diffusion等が生成した画像とプロンプトを約24万枚のデータセッ
- image
日本語LLMでLLaVAの学習を行ってみた - Qiita
- 5 users
- qiita.com/toshi_456
- テクノロジー
- 2023/12/03
はじめに本記事はLLM Advent Calendar 2023 2日目の記事になります。最近、様々なLLMが発表されたことによりローカルLLM界隈では自作データセットを作成して自分好みのLLMを作成するなど日本語LLM界隈は盛り上がりを見せています。一方、マルチモーダルなLLMとして画像を組み合わせたものに関してはTuring、Stability AI、Rinnaなどの企業ではモデルを公開していますが、個人で行われている方は少ないという印象があります。そこで今回はLLaVAと同じ方法で日本語LLMを学習させて、個人でマルチモーダルなLLMの学習を行ってみました。個人で学習できる範疇ということで学習はRTX4090 1台で行っています。学習に使用したコードは以下で公開しています。モデルは以下で公開しています。事前学習に使用した日本語翻訳データセットは以下で公開しています。 L
3次元物体検出もシンプルにTransformerで！PETRv2を理解する
- 5 users
- zenn.dev/turing_motors
- テクノロジー
- 2023/12/03
Turing株式会社のアドベントカレンダー2日目です！1日目はCTOの青木さんのカレー屋さんとスタートアップ：CTO of the year 2023でオーディエンス賞受賞です。自動運転・AIモデル開発チームの岩政(@colum2131)です。 Turingは完全自動運転車の開発を目標としており、自動運転AIや車両、LLMの開発など様々なことに取り組んでいます。今回の話は、自動運転AIの物体認識などのPerceptionタスクにおいて個人的に面白いなと思ったVision-CentircなEnd-to-Endモデルの紹介です[1]。 Transformerベースの画像認識 Transformerは、大規模言語モデル(Large Language Model; LLM)などに用いられる重要なアーキテクチャです。2017年に"Attention Is All You Need"というタイトルで
- 画像
Transformer を物体検出に採用！話題のDETRを詳細解説！
- 4 users
- deepsquare.jp
- テクノロジー
- 2020/11/10
はじめに Transformerを物体検出にはじめて取り入れた「DETR（DEtection Transformer）」が2020年５月にFacebookから発表されました。DETRは人間による手作業を大幅に減らすことに成功し、End-to-Endモデルに近く誰でも利用しやすいモデルになっています。また、「水着があるなら、一緒に写っている板のようなものはサーフボードである確率が高い」など、一枚の画像内にあるオブジェクト間の関係性を利用する形で物体検出が可能になりました。こうしたことがどうして可能になったのかを以下で見ていきたいと思います。なお、Transformerに関しては一定程度の理解がある前提で説明しております。Transformerに関しても記事を作成しておりますので、下記をご参照ください。公式論文「End-to-End Object Detection with Trans
- 機械学習
- 画像
モーダル依存のないトランスフォーマー：Perceiver Model
- 4 users
- ai-scholar.tech
- エンタメ
- 2021/05/18
3つの要点 ✔️ 複数のタスクで優れた性能を発揮するクロスモーダルなトランスフォーマーベース ✔️ 100,000入力以上のシーケンスを処理する能力を有する ✔️ ImageNet、AudioSet、ModelNet-40のSOTAモデルと同等以上の性能を発揮 Perceiver: General Perception with Iterative Attention written by Andrew Jaegle, Felix Gimeno, Andrew Brock, Andrew Zisserman, Oriol Vinyals, Joao Carreira (Submitted on 4 Mar 2021) Comments: Published on arxiv. Subjects: Computer Vision and Pattern Recognition (cs.CV
ヤフーの類似画像検索技術と特徴量モデル〜 Yahoo!ショッピングの事例紹介 #機械学習
- 4 users
- techblog.yahoo.co.jp
- テクノロジー
- 2020/08/14
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ヤフーで画像認識技術の研究開発を担当している西村と田中です。 Yahoo!ショッピング（iPhoneアプリ）では昨年7月から一部カテゴリーを対象に、類似画像検索機能が利用可能になっています。また、昨年9月にはYahoo!ラボから類似画像検索技術を用いたラボアプリFavNaviをリリースしました。この2つのアプリに関しては、Yahoo! JAPAN Tech Blogで記事が公開されています。似た商品が見つかる！　Yahoo!ショッピングの類似画像検索〜近傍探索NGTの導入事例流行アイテムを探してみよう。AIを使ったファッション画像検索アプリヤフーでは、これらのサービスで使われている類似画像検索の技術を独自に
プロンプトの推定をDALL·E 3とGPT-4Vにまかせた！ - ABEJA Tech Blog
- 4 users
- tech-blog.abeja.asia
- テクノロジー
- 2023/12/02
目次はじめに DALL·E 3とGPT-4Vにまかせる実装実験結果定量評価その他さいごにはじめにこの記事はABEJA Advent Calendar 2023の2日目の記事です。こんにちは。データサイエンティストの小林です。12月に入り、クリスマスももうすぐですね。私は一年中、Spotifyの"Christmas Hits!"を聞くくらいにクリスマスソングが大好きです！アドベントカレンダー用にクリスマスっぽいサムネを作ろうかなと思い、早速ChatGPTに作ってもらっていたのですが、画像生成のプロンプト調整結構難しいですよね。。ネットで流れてくる他の人の作った画像、どんなプロンプトで作ったんだろう？とが気になることが結構あります。そこで今回は、先月公開されたGPT-4 with Vision（GPT-4V）のAPIを用いて、DALL·E 3への画像生成プロンプトを自
Kaggle-Shopee コンペの振り返りとソリューション
- 4 users
- masatakashiwagi.github.io
- テクノロジー
- 2021/05/15
Kaggle-Shopee コンペの振り返り 2021/03/09~2021/05/11まで開催していたShopee コンペの振り返りになります． 2週間程度しか手を動かせなかったですが，久しぶりに参加したので備忘録として記録を残しておきます．最終的な結果は179th/2464で銅メダルで，特に凝ったことは何もしていなかったので，妥当かなと思います．このコンペは上位10チーム中7チームが日本人チームで，日本人のレベルの高さを改めて実感できるコンペでした！概要コンペの内容は簡単に言うと，画像とテキスト情報を用いて、2つの画像の類似性を比較し，どのアイテムが同じ商品であるかを予測するコンペになります．開催期間: 2021/03/09 ~ 2021/05/11 参加チーム数: 2464 予測対象: posting_id 列にマッチする全ての posting_id を予測する．ただし，pos
Shopee - Price Match Guaranteeでゴールドメダルを獲得しました - Taste of Tech Topics
- 3 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2021/06/01
皆さんこんにちは。 @tereka114です。 GPU熱により、部屋が熱くなってきており、冷房が欠かせません。先日、Kaggleで開催された「Shopee - Price Match Guarantee」でゴールドメダル（5位/2426）を獲得しました。 ※本件のプレスリリースをこちらで公開しています。 www.acroquest.co.jp この記事ではコンペの概要と当チームの取り組みを紹介します。概要チームでの取り組み解法 1. 商品群の中でペアの候補群を作成する。 1-1. 画像解析 1-2. テキスト解析 1-3. 候補の検索 2. ペアの候補群から候補を絞り、最終的なペアを作成する。 2-1. XGBoostを用いて、候補を絞る 2-2. 凝集型クラスタリング（Agglomerative Clustering）このコンペで学べたこと最後に概要 ECサイトを運営するS
- 機械学習
- *あとで読む
metric learning のファッション分野における活躍
- 3 users
- zenn.dev/hrsma2i
- テクノロジー
- 2021/12/01
この記事の目的は？ファッションの3つの研究分野において、 metric learning がどう使われているかを説明し、関連文献をいくつか紹介します。 metric learning やファッションの研究に興味を持たれた方が、研究を始めやすくなればと考えています。 street-to-shop image retrieval どんな研究か？ファッションアイテムの自撮り画像から、ECサイトで使われるような商品画像を検索するための研究です。ファッションに限らない、一般的な呼び方だと cross-domain image retrieval と呼んだりもします。図：自撮り画像の例図：商品画像の例出典: (M. Hadi Kiapour et al., 2015, ICCV) Where to Buy It: Matching Street Clothing Photos in Onl
「笑い」を理解するAIを作ってみました　～ボケ判定AIを作ろう！ (ボケてコンペ＃1) 1st place solution ～ - Qiita
- 3 users
- qiita.com/z-lai
- テクノロジー
- 2022/10/31
「笑い」を理解するAIを作ってみました　～ボケ判定AIを作ろう！ (ボケてコンペ＃1) 1st place solution ～画像処理自然言語処理機械学習NLP 株式会社バンダイナムコ研究所のlaiです。Nishika株式会社が主催した「ボケ判定AIを作ろう！ (ボケてコンペ＃1)」コンペに参加しました。本記事で私の取り組みの共有と振り返りをしたいと思います。概要本コンペでは、株式会社オモロキ様提供の「ボケ缶データセット」を用い、ボケ画像とボケテキストのみから、そのボケが面白いか・面白くないかを予測するコンペです。「ボケて」では星をつけることで面白いボケに投票できるようになっており、その数をもとに面白さを定義しています。ある時点のボケての星の数を2段階にビニングしたもの（面白いものを1、面白くないものを0）が本コンペの目的変数となります。ボケ画像とテキストのペアの例：結果
- entertainment
NEC、AIを活用した映像解析で工場での数十種類の細かい作業を識別する技術を開発
- 3 users
- aismiley.co.jp
- テクノロジー
- 2022/06/29
NECは工場での組み立て等の人手による作業において、AIを活用した映像解析により一般的なカメラで撮影した数回分のお手本映像だけで学習モデルを作成し、手指の動きを捉えて数十種類の細かい作業を高精度に識別することで、全工程の流れを見える化する技術を開発しました。このAIニュースのポイント NECがAIを活用した映像解析で数十種類の細かい作業を識別する技術を開発数回のお手本映像の学習のみで解析可能で、道具や部品に関する教師データの用意が不要作業を細かく識別し、それぞれの工程でかかる時間を計測する為生産性の向上に貢献日本電気株式会社は工場での組み立て等の人手による作業において、AIを活用した映像解析により一般的なカメラで撮影した数回分のお手本映像だけで学習モデルを作成し、手指の動きを捉えて数十種類の細かい作業を高精度に識別することで、全工程の流れを見える化する技術を開発しました。手指を使
アップルがLLMのようにスケーラブルな大規模自己回帰画像モデルを開発
- 3 users
- ai-scholar.tech
- テクノロジー
- 2024/05/07
3つの要点 ✔️ LLMの画像版として、自己回帰学習型の画像モデルAIMを提案 ✔️ 事前学習した画像特徴量の質はモデル規模とデータの質に従い向上し、下流タスクの性能は事前学習性能に従い向上 ✔️ 20億枚の画像でAIMの70億パラメータを事前学習しImageNet-1kタスクで精度84%を達成に加え、性能飽和の兆しなし Scalable Pre-training of Large Autoregressive Image Models written by Alaaeldin El-Nouby, Michal Klein, Shuangfei Zhai, Miguel Angel Bautista, Alexander Toshev, Vaishaal Shankar, Joshua M Susskind, Armand Joulin (Submitted on 16 Jan 2024)
APTOS反省会メモ - 重み元帥によるねこにっき
- 3 users
- mocobt.hatenablog.com
- テクノロジー
- 2019/09/25
はじめに以前，APTOS 2019 Blindness Detectionに参加し，何とか銀メダルを獲得しました．今回はHoxoMaxwellさん主催のAPTOS反省会に参加した際のメモ書き + 皆様のスライドを紹介します．なお，弊チームの振り返りに関しては以下の通りです． mocobt.hatenablog.com icebee.hatenablog.com 発表資料はこんな感じで，夜中3時まで野郎2人で作ったせいか大分可愛らしくなってます．ぜひご確認ください． speakerdeck.com 以下，発表順で紹介します． 79th Solution by @Takarasawa_さん & @tomoyukunさん speakerdeck.com 0を判別するモデル, 1以下, 2以下, 3以下を判別する3モデルを合わせた4モデルが1番強かった EfficientNetには最適解像
Kaggleで勝つデータ分析の技術
- 3 users
- gihyo.jp
- テクノロジー
- 2019/10/10
2019年10月9日紙版発売 2019年10月9日電子版発売門脇大輔，阪田隆司，保坂桂佑，平松雄司　著 B5変形判／424ページ定価3,608円（本体3,280円＋税10%） ISBN 978-4-297-10843-4 Gihyo Direct Amazon 楽天ブックスヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ楽天kobo honto この本の概要データサイエンスの認知の高まりとともに，データ分析に関するコンペティションが多数開催されるようになってきました。最も有名なコンペティションプラットフォームであるKaggleにおけるプレイヤー数は10万人を超え，多くのエンジニアが自分の腕を試すためにコンペティションに参加しています。分析コンペでは，実際のデータを扱うため，機械学習の解説書にはあまり載っていないよ
Autowareにおける3次元物体検出アルゴリズムの再検討【サーベイ編】 - TIER IV Tech Blog
- 3 users
- tech.tier4.jp
- テクノロジー
- 2021/09/17
ティアフォーのSensing/Perceptionチームで開発を行っている村松です。Autowareの動物体検出アルゴリズムのうち一部を再検討し、Autowareに組み込むまでについて紹介します。今回はそのサーベイ編として、調査した概要や手法についてお話します。なお、ティアフォーでは、「自動運転の民主化」をともに実現していく様々なエンジニア・リサーチャーを募集しています。もしご興味があればカジュアル面談も可能ですので以下のページからコンタクトいただければと思います。 TIER IV Careers tier4.jp 自動運転における3次元物体検出について 3次元物体検出とは、3次元空間での物体のクラス（種類）・位置・大きさ・向きなどを推定する技術です。自動運転において、事故なく目的地まで移動するためには、他車両や歩行者などがどこにどの大きさで存在するかという周辺環境の認識が必須となります
- 自動運転
- あとで読む
論文まとめ：（DALL・E 2論文）Hierarchical Text-Conditional Image Generation with CLIP Latents
- 3 users
- blog.shikoan.com
- テクノロジー
- 2022/08/10
タイトル：Hierarchical Text-Conditional Image Generation with CLIP Latents リンク：https://cdn.openai.com/papers/dall-e-2.pdf 所属：OpenAI コード：DALL・E 2の前の段階のGLIDEは公開されているが、これは非公開（2022年4月時点）ざっくりいうと訓練済みCLIPと拡散モデルを使った、テキスト→画像による生成モデル CLIPの画像埋め込み特徴を生成するような、拡散モデルベースの事前分布モデルを開発先行研究のGLIDEの改良という位置づけだが、多様性に富む画像生成に成功要旨 2段階のモデルを提案テキストキャプションを与えてCLIP画像埋め込みを生成する事前処理画像埋め込みを条件として画像を生成するデコーダ画像表現を明示的に生成することで、写実性とキャプションの
物体検出DETR （DEtection TRansformer） - Qiita
- 3 users
- qiita.com/DeepTama
- テクノロジー
- 2021/05/05
本書は筆者たちが勉強した際のメモを、後に学習する方の一助となるようにまとめたものです。誤りや不足、加筆修正すべきところがありましたらぜひご指摘ください。継続してブラッシュアップしていきます。 © 2021 NPO法人AI開発推進協会本書はTransformerを使った物体検出モデルであるDETRを説明します。（Transformerを理解している前提で記載しています。まだ理解していない方は当法人で作成している別冊「Seq2Seq&Transformer」を先に読んでください。）【参考文献、サイト】論文　End-to-End Object Detection withTransformers End-to-End Object Detection with Transformers(DETR)の解説 Transformerを物体検出に採用！話題のDETRを詳細解説！１．はじめに DE
OpenCVのremapを使って局所Affine変換
- 3 users
- campkougaku.com
- テクノロジー
- 2021/05/18
のようです。くせはなく直感的です。入力の座標と出力の座標を対として保持したテーブル(map)を指定するだけで画像変換してくれます。画像の外の値をどうするだとか、そういったオプションも用意されています。 mapとは出力先の各座標が入っていて、例えば無変換の4×4のX座標は、 [0, 1, 2, 3], [0, 1, 2, 3], [0, 1, 2, 3], [0, 1, 2, 3] な具合です。左上を原点とした2倍拡大であれば [0, 0.5, 1, 1.5], [0, 0.5, 1, 1.5], [0, 0.5, 1, 1.5], [0, 0.5, 1, 1.5], な感じで、各座標位置に変換元座標のどこの座標を参照するかが配列で指定されています。小数点が扱えるので、サブピクセル単位で指定することができます。Y座標に関しても同様で、 [0, 0, 0, 0], [0.5, 0.5, 0.5
- OpenCV
マルチモーダルLLMの活用方法と技術解説
- 3 users
- zenn.dev/elith
- テクノロジー
- 2024/04/09
TL; DR GPT-4VやGeminiなど、大規模言語モデル(LLM)を画像や音声など複数のモダリティに対応させたマルチモーダルLLMが登場し始めている LLMをマルチモーダル化することで様々な恩恵を受けられる学習済みモデル同士を組み合わせた構造にし事前知識を活用することで、学習の効率化を実現するはじめに Elithで機械学習エンジニアをしている成木です。 ChatGPTをはじめとする様々なプロダクトが登場しLLMが急速に普及していく中で、最近それらに画像や音声といったモダリティが入力できるようになるなどLLMのマルチモーダル化が進んでいます。その例として、画像入力に対応のGPT-4Vや、画像や音声、動画を用いた対話が可能であるGeminiなどがあります。このように画像や音声などのテキスト以外のモダリティを処理を可能にすることで、LLMの活用方法や適用範囲がより大きく広がっています
MidjourneyやStable Diffusionなどの画像生成AIの仕組みについて｜IT navi
- 3 users
- note.com/it_navi
- テクノロジー
- 2022/08/26
以前、「最近、人工知能による自然言語処理が爆発的に進化しているのでまとめてみた。」という記事の中で、DALL-E2、Imagen、Partiなどのテキスト(文字情報)から画像生成するAIについて解説したのですが、その後、Midjourneyや DreamStudio（Stable Diffusion）などの新しい画像生成AIが次々と公開されて、世間が盛り上がってきましたので、新しい情報を追加してまとめ直すことにしました。１．4種類の画像生成モデル　一般的に、ディープラーニングを利用して自動的に画像を生成する画像生成モデルとしては、大きく分けて以下の4種類のモデルがあります。 (1) 変分オートエンコーダー（VAE）　VAE（Variational Auto-Encoder）は、入力データを特徴量に圧縮し、その特徴量をまた元のデータに戻すという仕組みのオートエンコーダーの一種で、この特徴量
- AI
個人情報保護法その他で規定された個人情報等の種類と規制の違い
- 3 users
- www.miyauchi-law.com
- テクノロジー
- 2022/08/30
個人情報等の種類と規制の違い～要配慮、プライバシー、個人関連情報、仮名加工情報、匿名加工情報等々～ 2 2 . 8 弁護士水町雅子 1 ミス・間違い等もありえますので、必ず法律・GL等原典に当たっていただけますようお願いします。講師略歴弁護士水町雅子（みずまちまさこ） http://www.miyauchi-law.com メール→osg@miyauchi-law.com ◆ 東京大学教養学部相関社会科学卒業 ◆ 現、みずほ情報総研入社 ITシステム設計・開発・運用、事業企画等業務に従事 ◆ 東京大学大学院法学政治学研究科法曹養成専攻（法科大学院）修了 ◆ 司法試験合格、法曹資格取得、第二東京弁護士会に弁護士登録 ◆ 内閣官房社会保障改革担当室参事官補佐マイナンバー制度立案
- あとで読む