並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 44件

新着順 人気順

画像特徴量の検索結果1 - 40 件 / 44件

  • メルカリは「軽トラ」の検索結果をどう改善したか? 商品検索におけるUI/UXと、新たな挑戦

    2019年9月25日、クックパッド株式会社にて「Cookpad Product Kitchen #4」が開催されました。今回のテーマは「ユーザー体験を支える検索・マッチング技術」。あらゆるサービスに採用されている「検索」機能。そんな検索機能における技術と工夫について、様々なIT企業のエンジニアたちが一堂に会し、自らの知見を語ります。プレゼンテーション「メルカリ商品検索のUI/UXと新たな挑戦 」に登壇したのは、株式会社メルカリ 元Director of Search/AI/Data Scienceの森山大朗氏。講演資料はこちら メルカリ商品検索のUI/UXと新たな挑戦 森山大朗 氏(以下、森山):みなさんこんばんは。メルカリで検索の責任者をやっています森山大朗です。今日は、光栄にもログミーTechの記事を見ていただいたことがきっかけでこの場を作っていただいたということなので、がんばって話そ

      メルカリは「軽トラ」の検索結果をどう改善したか? 商品検索におけるUI/UXと、新たな挑戦
    • AIで1枚の人物写真から高精細3Dモデル作成 Facebookなど開発

      Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 南カリフォルニア大学、Facebook Reality Labs、Facebook AI Researchによる研究チームが開発した「PIFuHD」は、1枚の人物写真から衣服を着た人体3次元モデルを高解像に再構築する深層学習フレームワークだ。指や顔の特徴、衣服のひだといった細かい情報や、見えていない箇所まで3Dで再現する。 人物の3Dモデルを忠実に作成する場合、従来は「Light Stage」と呼ばれる、全方位に多数のカメラやセンサーを配置した球形ドーム型キャプチャーシステムが用いられてきた。しかし、Light Stageは高価なため一般的に導入は難しい。そこで1枚の画像から深層学習を用い

        AIで1枚の人物写真から高精細3Dモデル作成 Facebookなど開発
      • CodeFormerで、低画質の顔画像を高画質化する

        1.はじめに 今回ご紹介するのは、Transfomer ベースの予測ネットワークを使うことによって、低画質の顔画像を高画質化する CodeFormer という技術です。 *この論文は、2022.6に提出されました。 2.CodeFomerとは? 下記は、CodeFormerの概要図で、2段階で学習を行います。まず、(a)自己再構成学習を行います。高画質画像(Ih)から高画質エンコーダー(HQ Encoder)を通して画像特徴量(Zh)を抽出し、ニアレストネイバー法(Nearest-Neighbor Matching)で離散コードブック(Codebook C)にマッピングし、デコーダー(HQ Decoder)で高画質画像に戻すことを学習します。ここで学習した離散コードブック以降は次で使用します。 次に、(b)最終的なネットワークの学習を行います。低画質画像(IL)から低画質エンコーダー(LQ

        • ディープラーニングの先端技術、マルチモーダルの日本語モデルを作ってみた【日本語VL-T5】 - Qiita

          要点 マルチモーダル深層学習って何?Vision-Language Modelって何?という方向けに、 Google Colabで実際に学習済みモデルを動かしながら技術概要を理解していただけるチュートリアル記事です。 マルチモーダルの時代が到来 この10年、ディープラーニングの登場により、画像の分類や、文章読解(日本語等の自然言語によるQA)などが高い精度で自動化できるようになりましたね。 しかし、画像は画像、自然言語は自然言語・・・と、それぞれに特化した手法の開発が中心で、それらが混在したマルチメディア(マルチモーダル)の問題へのチャレンジは少ない状況に長らくありました。マルチモーダルの重要性は人間の様々な知的判断の場面を思い返せば分かりますね。実課題解決において重要なAI技術分野といえます。 シングルモーダルが中心だった潮目はこの1年くらいで変わり、昨今、マルチモーダルな深層学習モデル

            ディープラーニングの先端技術、マルチモーダルの日本語モデルを作ってみた【日本語VL-T5】 - Qiita
          • 【マルチモーダル学習】画像中の音の発生源を可視化するAI | Ledge.ai

            2018年、韓国科学技術院から音の発生源を推測するAIが提案された。画像上の音の発生場所と考えられる物体をヒートマップとして可視化できるものだ。 説明だけではあまりピンとこないかもしれないので、次の動画を数秒ほどご覧頂きたい。 動画では、馬車に対して強いヒートマップが出ており、音の発生場所を上手く捉えられていることがわかる。 この研究の強みは、教師なし学習が用いられていることだ。アノテーションされていないただの動画データを学習するだけで、音声発生源を推測できることがわかる。 論文名:Learning to Localize Sound Source in Visual Scenes 学会:CVPR2018 作者:Arda Senocak, Tae-Hyun Oh, Junsik Kim, Ming-Hsuan Yang, In So Kweon 所属:KAIST, MIT CSAIL, U

              【マルチモーダル学習】画像中の音の発生源を可視化するAI | Ledge.ai
            • Photogrammetry on Docker ~ サーバ屋さんもXRしたい ~ - Qiita

              フォトグラメトリとは? 最近,このような動画がバズっていました. 鎌倉、銭洗弁天をまるごとVR化! 建築デジタルアーカイブの試み。 リプ欄からVR体験可能です。#Photogrammety pic.twitter.com/Qsf3ZwjQDM — 龍 lilea (@lileaLab) May 21, 2019 鎌倉の銭洗弁天という場所を"フォトグラメトリ"という技術を用いて作られたようです. フォトグラメトリとは、物体を様々な方向から撮影した写真をコンピューターで解析し、3Dモデルを立ち上げる技術です。 フィギュアのような小さなものから、建築や都市といった大きなものまで3Dモデルにすることができます。 引用:フォトグラメトリ入門 撮影方法~3Dモデル作成 ざっくりというと,写真から3Dモデルを生成する技術です. 最近,私がxRTech Tokyoに参加し,そういや,3か月前くらいにOSS

                Photogrammetry on Docker ~ サーバ屋さんもXRしたい ~ - Qiita
              • ZOZOの新卒1年目MLエンジニアが行くCVPR 2024 参加レポート - ZOZO TECH BLOG

                はじめに こんにちは、推薦基盤ブロック、新卒1年目の住安宏介です。普段は推薦システムの開発・運用を担当しています。 2024年6月に開催されたコンピュータビジョン・パターン認識分野において世界最高峰の国際会議の1つであるCVPR(Conference on Computer Vision and Pattern Recognition)2024に参加しました。参加レポートとして発表内容や参加した感想を紹介いたします。また、最後にZOZO NEXTが行っているワークショップのスポンサー活動についてZOZO Researchの清水から紹介いたします。 目次 はじめに 目次 CVPR とは 開催地のシアトルについて 学会のスケジュール 企業展示ブースの様子 ポスターセッションの雰囲気 採択数増加に伴うポスターセッションの懸念とその実際 特に、印象に残った研究発表 SLICE: Stabilize

                  ZOZOの新卒1年目MLエンジニアが行くCVPR 2024 参加レポート - ZOZO TECH BLOG
                • フードデリバリーの多様な課題に向き合う 出前館の機械学習システム開発の裏側

                  2021年11月10日と11日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2021」がオンラインで開催されました。そこで前半では、曽弘博氏が、出前館における機械学習活用に向けた取り組みを紹介しました。後半は実際に出前館でどのように機械学習を実装しようとしているかについてです。前編はこちら。 推薦システムについて 曽弘博氏:では、推薦システムについての解説に入りましょう。こちらでやりたかったことを復習すると、「それぞれのユーザーに対して、そのユーザーの好みに合わせた店舗の推薦リストを提示すること」でした。 このタスクにに関して、ここでは2つの多様性という課題に関してお話をいたしましょう。 1つは推薦リスト全体での店舗の多様性です。ここでいう多様性というのは、「全てのユーザーに対する推薦リストを集めてきたときに、そのリストの集まり

                    フードデリバリーの多様な課題に向き合う 出前館の機械学習システム開発の裏側
                  • Pythonデータサイエンスハンドブック 第2版

                    Pythonのデータサイエンス用のツールを使いこなすための実用的な情報が詰め込まれたリファレンスの待望の改訂版です。IPythonとJupyter、NumPy、pandas、Matplotlib、scikit-learnを利用し、データの操作、可視化、行列計算、時系列解析、統計分析、機械学習、データモデルの構築、複雑な科学計算まで、幅広いトピックをカバー。それぞれのトピックについて、押さえておくべき基本、tips、便利なコマンドなどを紹介します。Pythonでデータ処理を行う人にとってはいつも手元に置いておきたい「使える」一冊です。 『Python Data Science Handbook, Second Edition』への称賛 訳者まえがき はじめに Ⅰ部 Jupyter:Pythonより優れたPython 1章 IPython、Jupyter入門 1.1 IPythonシェルの起動

                      Pythonデータサイエンスハンドブック 第2版
                    • Stable Diffusionの画像条件付けまとめ|gcem156

                      Stable Diffusionの画像生成を画像によって条件づける方法をまとめていきます。といっても実装とかを全部見たわけではないので、多少間違っている部分もあるかもしれませんが、まあイメージはあってるっしょ。 手法の分類 画像の情報をUNetのどこに与えるかによって手法を分類します。とりあえず5つに分けてみました Cross Attentionに与える:Prompt Free Diffusion, PFG, IP-Adapter Self Attentionに与える:Reference only, FABRIC Time embeddingに与える:UnCLIP, Revision その他の場所に与える:ControlNet, GLIGEN, T2I-Adapter LoRAの重みを学習する:HyperDreambooth あれ・・?もしかしてこの時点でたいていの人は脱落ですか。この辺の

                        Stable Diffusionの画像条件付けまとめ|gcem156
                      • DALL-Eアーキテクチャは何故描写の崩壊が抑えられているのか?|とーふのかけら

                        はじめに 今、巷で高精細で描写の崩壊がしにくいと言われる、OpenAI社のDALL-E 3が話題ですね! DALL-E 3の前身であるDALL-E、DALL-E 2で使用されているDALL-Eアーキテクチャと、現在主流になっているStable Diffusionは何が違うのかを説明していきたいと思います。 今回の内容は、比較的専門用語が飛び交うので、事前知識がないと「???」となるかもしれません。ご了承ください…。 事前知識はこちらをご覧ください。 DALL-Eとは DALL-Eの読み方は「ダリ」です。 DALL-Eはシュールレアリスム画家のサルバドール・ダリが名前の由来になっています。 DALL-Eは現在も進化を続けており、非常に精細で描画の崩壊が抑えられていると話題になっています。 OpenAI社が提唱したDALL-Eアーキテクチャを使用して動作しており、自然な描写、フォトリアリズムに

                          DALL-Eアーキテクチャは何故描写の崩壊が抑えられているのか?|とーふのかけら
                        • 最適な学習済みモデルが分かる?転移学習を加速させるTASK2VECの登場!

                          3つの要点 ✔️タスク(データセットとラベルの組み合わせ)をベクトル化するTASK2VECの提案 ✔️タスク間の類似度を計算することにより、どの学習済みモデルを使えば良いか判断可能に ✔️様々なタスクでの実験で、TASK2VECは最適に近い学習済みモデルを予測することに成功 はじめに 転移学習をご存知でしょうか。これは学習済みモデルを再利用することにより、少ないトレーニングデータでも、性能を発揮できる学習方法です。 転移学習の例としては、ImageNetによるものが最も有名でしょう。これは画像分類のタスクを行う際に、ImageNetで学習したモデルの最終層(分類を行う層)だけを、解きたいタスクに応じて再調整する、というものです。 このような学習が上手くいく理由の1つに、ImageNetでの学習によって、良い画像特徴量を抽出する機構が出来上がっているからです。その機構を再利用すれば、トレーニ

                            最適な学習済みモデルが分かる?転移学習を加速させるTASK2VECの登場!
                          • Google Cloud ComposerでGPUを使ったタスクを安定稼働するために行ったこと - ZOZO TECH BLOG

                            はじめに こんにちは、ML・データ部MLOpsブロックの松岡です。 本記事ではCloud Composerのワークフローにおいて、GPUを使うタスクで発生したGoogle CloudのGPU枯渇問題と、その解決のために行った対策を紹介します。 ZOZOが運営するZOZOTOWN・WEARでは、特定の商品やコーディネート画像に含まれるアイテムの類似商品を検索する類似アイテム検索機能があります。本記事ではこの機能を画像検索と呼びます。 画像検索では類似商品の検索を高速に行うため、画像特徴量の近傍探索Indexを事前に作成しています。近傍探索Indexはワークフローを日次実行して作成しています。 このワークフローでは大きく次のように処理を行っています。 当日追加された商品の情報を取得し、商品情報をもとに商品画像を取得する。 物体検出器で商品画像から商品が存在する座標とカテゴリーを検出する。 検出

                              Google Cloud ComposerでGPUを使ったタスクを安定稼働するために行ったこと - ZOZO TECH BLOG
                            • GANの発展の歴史を振り返る!GANの包括的なサーベイ論文の紹介(アルゴリズム編)

                              3つの要点 ✔️様々な分野で使用されている 「GAN」の包括的なサーベイ論文の紹介 ✔️アルゴリズム編では、「GAN」のアルゴリズムに焦点を絞って様々なアプローチを紹介 ✔️ この記事で「GAN」の最新動向までをキャッチアップ可能 A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications written by Jie Gui, Zhenan Sun, Yonggang Wen, Dacheng Tao, Jieping Ye (Submitted on 20 Jan 2020) subjects : Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG) はじめに 2014年に画像生成のためのア

                                GANの発展の歴史を振り返る!GANの包括的なサーベイ論文の紹介(アルゴリズム編)
                              • LayoutLMの特徴と事前学習タスクについて - LayerX エンジニアブログ

                                LayerXで機械学習エンジニアを担当している @yoppiblog です。今回はOCRチームで検証したLayoutLMについて簡単に紹介します。 LayoutLMとは LayoutLMとは昨今注目されているマルチモーダルなDocument Understanding領域の1実装です。 様々な文書(LayerXだとバクラクではお客様の多種多様な請求書といった帳票を扱っています)から情報を抽出(支払金額、支払期日や取引先名など)するために考案されたものになります。 BERT(LayoutLMv3はRoBERTa)ベースのencoder層を用いレイアウト情報や、文書そのものを画像特徴量としてembedding層で扱っているところが既存のモデルより、より文書解析に特化している点です。 v1〜v3まで提唱されており、v3が一番精度が高いモデルです。 もともと、LayoutLMv2では多言語対応され

                                  LayoutLMの特徴と事前学習タスクについて - LayerX エンジニアブログ
                                • ビッグデータ活用時のワークフローの大切さ ZOZO研究所のエンジニアが感じた次元が違う300万画像の処理

                                  ZOZO Technologies Meetup は、「ZOZOテクノロジーズの大規模データ活用に興味のある方」を対象としたイベントです。ZOZO研究所の渡辺氏からは大規模データを対象とした画像検索システムのワークフローについての事例を紹介しました。後半は画像検索のワークフローの流れについて。 画像検索のワークフローの流れ 渡辺慎二郎氏:というところの話になってきて、これがワークフロー、それを毎日のように準備するという仕組みになります。先ほど見せた図で言うと、この部分ですね。 このワークフロー、今回ではComposerというGKEのマネージドサービスを使っています。これの中身、具体的な仕組みは置いておいて、流れをご紹介します。 まずBigQueryから、本日今時点で有効になっている、使える、発売になっている商品情報をダーッと取ってきます。だいたいこれが300万画像ぐらい。その日によって違っ

                                    ビッグデータ活用時のワークフローの大切さ ZOZO研究所のエンジニアが感じた次元が違う300万画像の処理
                                  • 3000円の液晶付きAIカメラでオフライン転移学習する #M5StickV - Qiita

                                    はじめに 液晶ディスプレイ・カメラ・マイク・深層学習用推論モジュールなどを搭載し、約3000円で入手できるAIカメラである M5Stack社の M5StickV を利用して、デバイス単独で画像のリアルタイム学習・推論を行う拙作アプリ Brownie の実装について説明します。 下記が Brownie の動作の一例です。パー、グー、チョキの順に1回ずつ学習していくと、それぞれがだんだん識別できるように学習されていく様子が分かると思います。 Brownie Learn で、まっさらな状態から少しずつじゃんけんを学習していく様子です。数字が小さいほど自信ありです(登録時の画像の特徴ベクトルとの距離の2乗)。 https://t.co/GX1jR1mbJ8 #M5StickV pic.twitter.com/nrvSSGpyHN — ミクミンP/Kazuhiro Sasao (@ksasao) A

                                      3000円の液晶付きAIカメラでオフライン転移学習する #M5StickV - Qiita
                                    • "Data Analysis Techniques to Win Kaggle" table of contents /「Kaggleで勝つデータ分析の技術」の目次 - threecourse’s blog

                                      This is table of contents of a book "Data Analysis Techniques to Win Kaggle (amazon.co.jp) written in Japanese and published on Oct. 2019. Authors are threecourse, Jack, hskksk, maxwell . en ja Data Analysis Techniques to Win Kaggle Kaggleで勝つデータ分析の技術 Chapter I: What is data analysis competition? 第1章 分析コンペとは? 1.1 what is data analysis competition? 1.1 分析コンペって何? 1.1.1 what do you do in competition?

                                        "Data Analysis Techniques to Win Kaggle" table of contents /「Kaggleで勝つデータ分析の技術」の目次 - threecourse’s blog
                                      • AIで画像の美しさを評価する LAION Aesthetics - A Day in the Life

                                        画像の美しさ、というのは主観が多分に含まれるものなので、コンピュータが評価するタスクとしては難しいのかな、と思っていたのだけどLAION-AESTHETICS を読んでびっくり、だいぶきちんと評価できてそう。実際にLAION Aesthetics V2でデータセットをスコア付した結果(リンク先ページは大量の画像ロードが走って遅いので注意)ではこんな感じ。例えばスコアが1.5~1.75の画像だと となる。またスコア7~7.25の画像では という感じになる。おーすごい、それっぽい。そしてこのスコアを学習・導出しているものも複雑なディープラーニング処理ではなく、単純なMLP(5つの線型層+Dropoutで、活性化関数を挟まない)というのもすごい。 LAION-Aesthetics V1 V1 では SAC というStable Diffusion等が生成した画像とプロンプトを約24万枚のデータセッ

                                          AIで画像の美しさを評価する LAION Aesthetics - A Day in the Life
                                        • 日本語LLMでLLaVAの学習を行ってみた - Qiita

                                          はじめに 本記事はLLM Advent Calendar 2023 2日目の記事になります。 最近、様々なLLMが発表されたことによりローカルLLM界隈では自作データセットを作成して自分好みのLLMを作成するなど日本語LLM界隈は盛り上がりを見せています。 一方、マルチモーダルなLLMとして画像を組み合わせたものに関してはTuring、Stability AI、Rinnaなどの企業ではモデルを公開していますが、個人で行われている方は少ないという印象があります。 そこで今回はLLaVAと同じ方法で日本語LLMを学習させて、個人でマルチモーダルなLLMの学習を行ってみました。個人で学習できる範疇ということで学習はRTX4090 1台で行っています。 学習に使用したコードは以下で公開しています。 モデルは以下で公開しています。 事前学習に使用した日本語翻訳データセットは以下で公開しています。 L

                                            日本語LLMでLLaVAの学習を行ってみた - Qiita
                                          • 3次元物体検出もシンプルにTransformerで!PETRv2を理解する

                                            Turing株式会社のアドベントカレンダー2日目です!1日目はCTOの青木さんのカレー屋さんとスタートアップ:CTO of the year 2023でオーディエンス賞受賞です。 自動運転・AIモデル開発チームの岩政(@colum2131)です。 Turingは完全自動運転車の開発を目標としており、自動運転AIや車両、LLMの開発など様々なことに取り組んでいます。今回の話は、自動運転AIの物体認識などのPerceptionタスクにおいて個人的に面白いなと思ったVision-CentircなEnd-to-Endモデルの紹介です[1]。 Transformerベースの画像認識 Transformerは、大規模言語モデル(Large Language Model; LLM)などに用いられる重要なアーキテクチャです。2017年に"Attention Is All You Need"というタイトルで

                                              3次元物体検出もシンプルにTransformerで!PETRv2を理解する
                                            • Transformer を物体検出に採用!話題のDETRを詳細解説!

                                              はじめに Transformerを物体検出にはじめて取り入れた「DETR(DEtection Transformer)」が2020年5月にFacebookから発表されました。DETRは人間による手作業を大幅に減らすことに成功し、End-to-Endモデルに近く誰でも利用しやすいモデルになっています。また、「水着があるなら、一緒に写っている板のようなものはサーフボードである確率が高い」など、一枚の画像内にあるオブジェクト間の関係性を利用する形で物体検出が可能になりました。こうしたことがどうして可能になったのかを以下で見ていきたいと思います。 なお、Transformerに関しては一定程度の理解がある前提で説明しております。Transformerに関しても記事を作成しておりますので、下記をご参照ください。 公式論文 「End-to-End Object Detection with Trans

                                                Transformer を物体検出に採用!話題のDETRを詳細解説!
                                              • モーダル依存のないトランスフォーマー:Perceiver Model

                                                3つの要点 ✔️ 複数のタスクで優れた性能を発揮するクロスモーダルなトランスフォーマーベース ✔️ 100,000入力以上のシーケンスを処理する能力を有する ✔️ ImageNet、AudioSet、ModelNet-40のSOTAモデルと同等以上の性能を発揮 Perceiver: General Perception with Iterative Attention written by Andrew Jaegle, Felix Gimeno, Andrew Brock, Andrew Zisserman, Oriol Vinyals, Joao Carreira (Submitted on 4 Mar 2021) Comments: Published on arxiv. Subjects:  Computer Vision and Pattern Recognition (cs.CV

                                                  モーダル依存のないトランスフォーマー:Perceiver Model
                                                • ヤフーの類似画像検索技術と特徴量モデル 〜 Yahoo!ショッピングの事例紹介 #機械学習

                                                  ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ヤフーで画像認識技術の研究開発を担当している西村と田中です。 Yahoo!ショッピング(iPhoneアプリ)では昨年7月から一部カテゴリーを対象に、類似画像検索機能が利用可能になっています。また、昨年9月にはYahoo!ラボから類似画像検索技術を用いたラボアプリFavNaviをリリースしました。 この2つのアプリに関しては、Yahoo! JAPAN Tech Blogで記事が公開されています。 似た商品が見つかる! Yahoo!ショッピングの類似画像検索 〜 近傍探索NGTの導入事例 流行アイテムを探してみよう。AIを使ったファッション画像検索アプリ ヤフーでは、これらのサービスで使われている類似画像検索の技術を独自に

                                                    ヤフーの類似画像検索技術と特徴量モデル 〜 Yahoo!ショッピングの事例紹介 #機械学習
                                                  • プロンプトの推定をDALL·E 3とGPT-4Vにまかせた! - ABEJA Tech Blog

                                                    目次 はじめに DALL·E 3とGPT-4Vにまかせる 実装 実験結果 定量評価 その他 さいごに はじめに この記事はABEJA Advent Calendar 2023の2日目の記事です。 こんにちは。データサイエンティストの小林です。12月に入り、クリスマスももうすぐですね。 私は一年中、Spotifyの"Christmas Hits!"を聞くくらいにクリスマスソングが大好きです! アドベントカレンダー用にクリスマスっぽいサムネを作ろうかなと思い、早速ChatGPTに作ってもらっていたのですが、画像生成のプロンプト調整結構難しいですよね。。 ネットで流れてくる他の人の作った画像、どんなプロンプトで作ったんだろう?とが気になることが結構あります。 そこで今回は、先月公開されたGPT-4 with Vision(GPT-4V)のAPIを用いて、DALL·E 3への画像生成プロンプトを自

                                                      プロンプトの推定をDALL·E 3とGPT-4Vにまかせた! - ABEJA Tech Blog
                                                    • Kaggle-Shopee コンペの振り返りとソリューション

                                                      Kaggle-Shopee コンペの振り返り 2021/03/09~2021/05/11まで開催していたShopee コンペの振り返りになります. 2週間程度しか手を動かせなかったですが,久しぶりに参加したので備忘録として記録を残しておきます.最終的な結果は179th/2464で銅メダルで,特に凝ったことは何もしていなかったので,妥当かなと思います.このコンペは上位10チーム中7チームが日本人チームで,日本人のレベルの高さを改めて実感できるコンペでした! 概要 コンペの内容は簡単に言うと,画像とテキスト情報を用いて、2つの画像の類似性を比較し,どのアイテムが同じ商品であるかを予測するコンペになります. 開催期間: 2021/03/09 ~ 2021/05/11 参加チーム数: 2464 予測対象: posting_id 列にマッチする全ての posting_id を予測する.ただし,pos

                                                        Kaggle-Shopee コンペの振り返りとソリューション
                                                      • Shopee - Price Match Guaranteeでゴールドメダルを獲得しました - Taste of Tech Topics

                                                        皆さんこんにちは。 @tereka114です。 GPU熱により、部屋が熱くなってきており、冷房が欠かせません。 先日、Kaggleで開催された「Shopee - Price Match Guarantee」でゴールドメダル(5位/2426)を獲得しました。 ※本件のプレスリリースをこちらで公開しています。 www.acroquest.co.jp この記事ではコンペの概要と当チームの取り組みを紹介します。 概要 チームでの取り組み 解法 1. 商品群の中でペアの候補群を作成する。 1-1. 画像解析 1-2. テキスト解析 1-3. 候補の検索 2. ペアの候補群から候補を絞り、最終的なペアを作成する。 2-1. XGBoostを用いて、候補を絞る 2-2. 凝集型クラスタリング(Agglomerative Clustering) このコンペで学べたこと 最後に 概要 ECサイトを運営するS

                                                          Shopee - Price Match Guaranteeでゴールドメダルを獲得しました - Taste of Tech Topics
                                                        • metric learning のファッション分野における活躍

                                                          この記事の目的は? ファッションの3つの研究分野において、 metric learning がどう使われているかを説明し、関連文献をいくつか紹介します。 metric learning やファッションの研究に興味を持たれた方が、研究を始めやすくなればと考えています。 street-to-shop image retrieval どんな研究か? ファッションアイテムの自撮り画像から、ECサイトで使われるような商品画像を検索 するための研究です。ファッションに限らない、一般的な呼び方だと cross-domain image retrieval と呼んだりもします。 図:自撮り画像の例 図:商品画像の例 出典: (M. Hadi Kiapour et al., 2015, ICCV) Where to Buy It: Matching Street Clothing Photos in Onl

                                                            metric learning のファッション分野における活躍
                                                          • 「笑い」を理解するAIを作ってみました ~ボケ判定AIを作ろう! (ボケてコンペ #1) 1st place solution ~ - Qiita

                                                            「笑い」を理解するAIを作ってみました ~ボケ判定AIを作ろう! (ボケてコンペ #1) 1st place solution ~画像処理自然言語処理機械学習NLP 株式会社バンダイナムコ研究所のlaiです。Nishika株式会社が主催した「ボケ判定AIを作ろう! (ボケてコンペ #1)」コンペに参加しました。本記事で私の取り組みの共有と振り返りをしたいと思います。 概要 本コンペでは、株式会社オモロキ様提供の「ボケ缶データセット」を用い、ボケ画像とボケテキストのみから、そのボケが面白いか・面白くないかを予測するコンペです。「ボケて」では星をつけることで面白いボケに投票できるようになっており、その数をもとに面白さを定義しています。ある時点のボケての星の数を2段階にビニングしたもの(面白いものを1、 面白くないものを0)が本コンペの目的変数となります。 ボケ画像とテキストのペアの例: 結果

                                                              「笑い」を理解するAIを作ってみました ~ボケ判定AIを作ろう! (ボケてコンペ #1) 1st place solution ~ - Qiita
                                                            • NEC、AIを活用した映像解析で工場での数十種類の細かい作業を識別する技術を開発

                                                              NECは工場での組み立て等の人手による作業において、AIを活用した映像解析により一般的なカメラで撮影した数回分のお手本映像だけで学習モデルを作成し、手指の動きを捉えて数十種類の細かい作業を高精度に識別することで、全工程の流れを見える化する技術を開発しました。 このAIニュースのポイント NECがAIを活用した映像解析で数十種類の細かい作業を識別する技術を開発 数回のお手本映像の学習のみで解析可能で、道具や部品に関する教師データの用意が不要 作業を細かく識別し、それぞれの工程でかかる時間を計測する為生産性の向上に貢献 日本電気株式会社は工場での組み立て等の人手による作業において、AIを活用した映像解析により一般的なカメラで撮影した数回分のお手本映像だけで学習モデルを作成し、手指の動きを捉えて数十種類の細かい作業を高精度に識別することで、全工程の流れを見える化する技術を開発しました。 手指を使

                                                                NEC、AIを活用した映像解析で工場での数十種類の細かい作業を識別する技術を開発
                                                              • アップルがLLMのようにスケーラブルな大規模自己回帰画像モデルを開発

                                                                3つの要点 ✔️ LLMの画像版として、自己回帰学習型の画像モデルAIMを提案 ✔️ 事前学習した画像特徴量の質はモデル規模とデータの質に従い向上し、下流タスクの性能は事前学習性能に従い向上 ✔️ 20億枚の画像でAIMの70億パラメータを事前学習しImageNet-1kタスクで精度84%を達成に加え、性能飽和の兆しなし Scalable Pre-training of Large Autoregressive Image Models written by Alaaeldin El-Nouby, Michal Klein, Shuangfei Zhai, Miguel Angel Bautista, Alexander Toshev, Vaishaal Shankar, Joshua M Susskind, Armand Joulin (Submitted on 16 Jan 2024)

                                                                  アップルがLLMのようにスケーラブルな大規模自己回帰画像モデルを開発
                                                                • APTOS反省会メモ - 重み元帥によるねこにっき

                                                                  はじめに 以前,APTOS 2019 Blindness Detectionに参加し,何とか銀メダルを獲得しました. 今回はHoxoMaxwellさん主催のAPTOS反省会に参加した際のメモ書き + 皆様のスライドを紹介します. なお,弊チームの振り返りに関しては以下の通りです. mocobt.hatenablog.com icebee.hatenablog.com 発表資料はこんな感じで,夜中3時まで野郎2人で作ったせいか大分可愛らしくなってます. ぜひご確認ください. speakerdeck.com 以下,発表順で紹介します. 79th Solution by @Takarasawa_さん & @tomoyukunさん speakerdeck.com 0を判別するモデル, 1以下, 2以下, 3以下を判別する3モデルを合わせた4モデルが1番強かった EfficientNetには最適解像

                                                                    APTOS反省会メモ - 重み元帥によるねこにっき
                                                                  • Kaggleで勝つデータ分析の技術

                                                                    2019年10月9日紙版発売 2019年10月9日電子版発売 門脇大輔,阪田隆司,保坂桂佑,平松雄司 著 B5変形判/424ページ 定価3,608円(本体3,280円+税10%) ISBN 978-4-297-10843-4 Gihyo Direct Amazon 楽天ブックス ヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ 楽天kobo honto この本の概要 データサイエンスの認知の高まりとともに,データ分析に関するコンペティションが多数開催されるようになってきました。最も有名なコンペティションプラットフォームであるKaggleにおけるプレイヤー数は10万人を超え,多くのエンジニアが自分の腕を試すためにコンペティションに参加しています。分析コンペでは,実際のデータを扱うため,機械学習の解説書にはあまり載っていないよ

                                                                      Kaggleで勝つデータ分析の技術
                                                                    • Autowareにおける3次元物体検出アルゴリズムの再検討【サーベイ編】 - TIER IV Tech Blog

                                                                      ティアフォーのSensing/Perceptionチームで開発を行っている村松です。Autowareの動物体検出アルゴリズムのうち一部を再検討し、Autowareに組み込むまでについて紹介します。今回はそのサーベイ編として、調査した概要や手法についてお話します。 なお、ティアフォーでは、「自動運転の民主化」をともに実現していく様々なエンジニア・リサーチャーを募集しています。もしご興味があればカジュアル面談も可能ですので以下のページからコンタクトいただければと思います。 TIER IV Careers tier4.jp 自動運転における3次元物体検出について 3次元物体検出とは、3次元空間での物体のクラス(種類)・位置・大きさ・向きなどを推定する技術です。自動運転において、事故なく目的地まで移動するためには、他車両や歩行者などがどこにどの大きさで存在するかという周辺環境の認識が必須となります

                                                                        Autowareにおける3次元物体検出アルゴリズムの再検討【サーベイ編】 - TIER IV Tech Blog
                                                                      • 論文まとめ:(DALL・E 2論文)Hierarchical Text-Conditional Image Generation with CLIP Latents

                                                                        タイトル:Hierarchical Text-Conditional Image Generation with CLIP Latents リンク:https://cdn.openai.com/papers/dall-e-2.pdf 所属:OpenAI コード:DALL・E 2の前の段階のGLIDEは公開されているが、これは非公開(2022年4月時点) ざっくりいうと 訓練済みCLIPと拡散モデルを使った、テキスト→画像による生成モデル CLIPの画像埋め込み特徴を生成するような、拡散モデルベースの事前分布モデルを開発 先行研究のGLIDEの改良という位置づけだが、多様性に富む画像生成に成功 要旨 2段階のモデルを提案 テキストキャプションを与えてCLIP画像埋め込みを生成する事前処理 画像埋め込みを条件として画像を生成するデコーダ 画像表現を明示的に生成することで、写実性とキャプションの

                                                                          論文まとめ:(DALL・E 2論文)Hierarchical Text-Conditional Image Generation with CLIP Latents
                                                                        • 物体検出DETR (DEtection TRansformer) - Qiita

                                                                          本書は筆者たちが勉強した際のメモを、後に学習する方の一助となるようにまとめたものです。誤りや不足、加筆修正すべきところがありましたらぜひご指摘ください。継続してブラッシュアップしていきます。 © 2021 NPO法人AI開発推進協会 本書はTransformerを使った物体検出モデルであるDETRを説明します。(Transformerを理解している前提で記載しています。まだ理解していない方は当法人で作成している別冊「Seq2Seq&Transformer」を先に読んでください。) 【参考文献、サイト】 論文 End-to-End Object Detection withTransformers End-to-End Object Detection with Transformers(DETR)の解説 Transformerを物体検出に採用!話題のDETRを詳細解説! 1.はじめに DE

                                                                            物体検出DETR (DEtection TRansformer) - Qiita
                                                                          • OpenCVのremapを使って局所Affine変換

                                                                            のようです。くせはなく直感的です。入力の座標と出力の座標を対として保持したテーブル(map)を指定するだけで画像変換してくれます。画像の外の値をどうするだとか、そういったオプションも用意されています。 mapとは出力先の各座標が入っていて、例えば無変換の4×4のX座標は、 [0, 1, 2, 3], [0, 1, 2, 3], [0, 1, 2, 3], [0, 1, 2, 3] な具合です。左上を原点とした2倍拡大であれば [0, 0.5, 1, 1.5], [0, 0.5, 1, 1.5], [0, 0.5, 1, 1.5], [0, 0.5, 1, 1.5], な感じで、各座標位置に変換元座標のどこの座標を参照するかが配列で指定されています。小数点が扱えるので、サブピクセル単位で指定することができます。Y座標に関しても同様で、 [0, 0, 0, 0], [0.5, 0.5, 0.5

                                                                              OpenCVのremapを使って局所Affine変換
                                                                            • マルチモーダルLLMの活用方法と技術解説

                                                                              TL; DR GPT-4VやGeminiなど、大規模言語モデル(LLM)を画像や音声など複数のモダリティに対応させたマルチモーダルLLMが登場し始めている LLMをマルチモーダル化することで様々な恩恵を受けられる 学習済みモデル同士を組み合わせた構造にし事前知識を活用することで、学習の効率化を実現する はじめに Elithで機械学習エンジニアをしている成木です。 ChatGPTをはじめとする様々なプロダクトが登場しLLMが急速に普及していく中で、最近それらに画像や音声といったモダリティが入力できるようになるなどLLMのマルチモーダル化が進んでいます。 その例として、画像入力に対応のGPT-4Vや、画像や音声、動画を用いた対話が可能であるGeminiなどがあります。このように画像や音声などのテキスト以外のモダリティを処理を可能にすることで、LLMの活用方法や適用範囲がより大きく広がっています

                                                                                マルチモーダルLLMの活用方法と技術解説
                                                                              • MidjourneyやStable Diffusionなどの画像生成AIの仕組みについて|IT navi

                                                                                以前、「最近、人工知能による自然言語処理が爆発的に進化しているのでまとめてみた。」という記事の中で、DALL-E2、Imagen、Partiなどのテキスト(文字情報)から画像生成するAIについて解説したのですが、その後、Midjourneyや DreamStudio(Stable Diffusion)などの新しい画像生成AIが次々と公開されて、世間が盛り上がってきましたので、新しい情報を追加してまとめ直すことにしました。 1.4種類の画像生成モデル 一般的に、ディープラーニングを利用して自動的に画像を生成する画像生成モデルとしては、大きく分けて以下の4種類のモデルがあります。 (1) 変分オートエンコーダー(VAE) VAE(Variational Auto-Encoder)は、入力データを特徴量に圧縮し、その特徴量をまた元のデータに戻すという仕組みのオートエンコーダーの一種で、この特徴量

                                                                                  MidjourneyやStable Diffusionなどの画像生成AIの仕組みについて|IT navi
                                                                                • 個人情報保護法その他で規定された個人情報等の種類と規制の違い

                                                                                  個 人 情 報 等 の 種 類 と 規 制 の 違 い ~ 要 配 慮 、 プ ラ イ バ シ ー 、 個 人 関 連 情 報 、 仮 名 加 工 情 報 、 匿 名 加 工 情 報 等 々 ~ 2 2 . 8 弁 護 士 水 町 雅 子 1 ミス・間違い等もありえますので、必ず法律・GL等原典に当たっていただけますようお願いします。 講師略歴 弁護士 水町雅子 (みずまちまさこ) http://www.miyauchi-law.com メール→osg@miyauchi-law.com ◆ 東京大学教養学部相関社会科学卒業 ◆ 現、みずほ情報総研入社 ITシステム設計・開発・運用、事業企画等業務に従事 ◆ 東京大学大学院法学政治学研究科法曹養成専攻(法科大学院)修了 ◆ 司法試験合格、法曹資格取得、第二東京弁護士会に弁護士登録 ◆ 内閣官房社会保障改革担当室参事官補佐 マイナンバー制度立案