並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 320 件 / 320件

新着順 人気順

画像特徴量の検索結果281 - 320 件 / 320件

  • 【データ分析の必読10冊+差をつける10冊+100冊超】データサイエンス、データ分析、機械学習関連の本 - Qiita

    【データ分析の必読10冊+差をつける10冊+100冊超】データサイエンス、データ分析、機械学習関連の本本機械学習数学データ分析データサイエンス Update版2023年版データ分析の100冊を書きましたよ! 必読10冊を更新。データサイエンス、データ分析、機械学習周りでおすすめ図書10選のような記事は良く見ますが、網羅的な紹介記事はあまり見かけないので自分が欲しいと思い書きました。私よりたくさん読んでいる方は多々いらっしゃると思いますが、記事を書いてくださいな。 別の観点でデータ分析プロジェクトのフェーズ毎の参考書籍紹介という記事を新たに書きました。 データ分析の各フェーズ(データ分析プロジェクト全体-ビジネス状況の理解-データの理解-データの準備-モデルの作成-評価-展開)毎に参考書籍を紹介しています。 本記事の対象と想定 Qiitaはプログラマやコンピューター系技術者のための記事と思っ

      【データ分析の必読10冊+差をつける10冊+100冊超】データサイエンス、データ分析、機械学習関連の本 - Qiita
    • Chainer カテゴリーの記事一覧 - ZOZO TECH BLOG

      データサイエンティストの中村です。 ファッションアイテムの画像から抽出した特徴量は検索以外にも利用することができます。 今回はレコメンドにおける画像特徴量の活用について、以下の3トピックを考えてみたいと思います。 画像特徴量を利用したコンテン…

        Chainer カテゴリーの記事一覧 - ZOZO TECH BLOG
      • 色情報に関する4種類の画像特徴量を高速処理、東芝の画像認識用プロセッサ

        画像認識用プロセッサ「Visconti 4」(TMPV7608XBG)は、2015年1月よりサンプル出荷を開始している。浮動小数点演算処理が可能な8個の画像処理エンジン(MPE:Media Processing Engine)と、新たに開発した画像認識用アクセラレータを含む14個の画像処理アクセラレータなどを、ヘテロジニアス構成で実装したマルチコアSoCである。これにより、最大1.9TOPSの処理性能を、MPEと画像処理アクセラレータ合計の消費電力がわずか3.37Wで実現しているという。 新開発の画像認識用アクセラレータは、これまでの製品で対応していた独自の画像特徴量である輝度勾配方向共起ヒストグラム「CoHOG(Co-occurrence Histograms of Oriented Gradients)」に加えて、色情報に関する4種類の特徴量処理を追加した。具体的には、色勾配方向共起ヒ

          色情報に関する4種類の画像特徴量を高速処理、東芝の画像認識用プロセッサ
        • [Survey]Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification - Qiita

          [Survey]Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous ClassificationDeepLearningColorization Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification この論文の目的は、下記のように白黒画像に色を付ける(Colorization)ことです。 Colorizationは昔から研究されていて、人が手動で色を

            [Survey]Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification - Qiita
          • 画像処理装置及びプログラム

            【課題】識別対象画像が、識別対象物を撮像した画像であるか否かを高精度に識別することができるようにする。 【解決手段】特徴ベクトル算出部24によって、識別対象画像を分割した複数の親領域の各々を更に分割した複数の子領域の各々について、勾配ヒストグラムを表わす特徴ベクトルを算出する。特徴相関ベクトル算出部26によって、算出された各子領域に対する特徴ベクトル間の同じ又は異なる要素の組み合わせから各々演算される相関値と、特徴ベクトル内の同じ又は異なる要素の組み合わせから各々演算される相関値とを表わす特徴相関ベクトルを、各親領域について算出する。識別部30によって、各親領域について算出された特徴相関ベクトルに基づいて、識別対象画像が識別対象物を表わす画像であるか否かを識別する。 【発明の詳細な説明】 【技術分野】 【0001】 本発明は、画像処理装置及びプログラムに係り、特に、処理対象画像が処理対象物

            • 2009年度研究会活動報告-情報処理学会

              <調査研究運営委員会> CMSgr <コンピュータサイエンス領域> DBS SE ARC OS SLDM HPC PRO AL MPS EMB <情報環境領域> DPS HI CG IS FI AVM GN DD MBL CSEC ITS EVA UBI IOT BCCgr SPTgr <フロンティア領域> NL ICS CVIM CE CH MUS SLP EIP GI EC BIO NEgr 調査研究運営委員会 ◇教育学習支援情報システム(CMS)研究グループ [主査:美濃導彦、幹事: 井上 仁,角所 考,梶田将司,渡辺博芳] 1.定例の研究会活動報告 平成21年度は合計3回(第11~13回)の研究発表会を開催した。 第11回は5/14~15に三重大学で開催し、「CMSとe-Portfolio および一般」のテーマで14件の一般研究発表があった。さらにこの回のテーマと関連する企画として

                2009年度研究会活動報告-情報処理学会
              • 【論文読解】VIBE: Video Inference for Human Body Pose and Shape Estimation - Qiita

                【論文読解】VIBE: Video Inference for Human Body Pose and Shape EstimationDeepLearningPoseEstimation 概要 動画中の人物の密な3次元ポーズを推定する手法であるVIBE(Video Inference for Body Pose and Shape Estimation)の論文を読んだので紹介します。 以下の図のように、一連のフレームを元に、人の3次元ポーズを推定できることが目的です。公式のColabが用意されているので、興味のある方は先に確認しておくと良いでしょう。 VIBEは現時点(2020年8月29日)でのSOTAとされています。以下のグラフはpaper with codeからの抜粋で、3DPWというデータセットにおけるPA-MPJPEという評価指標のグラフです。 本記事では、ここ数年の密な3次元ポ

                  【論文読解】VIBE: Video Inference for Human Body Pose and Shape Estimation - Qiita
                • VC / GCAD 合同シンポジウム 2017

                  Visual Computing / グラフィクスとCAD 合同シンポジウム 2017 [ 開催要領 | プログラム | 参加申し込み | 発表募集 | お問い合わせ | 委員会 | 過去の情報 ] 6月23日(金):一橋講堂 9:15 - 9:20 開会式 藤代 一成 (慶応大学),森島 繁生 (早稲田大学理工学術院総合研究所) 9:20 - 10:20 Session 1: 3Dモデル生成・検索 座長: 井尻 敬 (芝浦工業大学) [1] マイクロタスク型クラウドソーシングによる協調的三次元モデリング 鈴木 良平, 五十嵐 健夫 (東京大学) 三次元モデリングのプロセスを単純な作業へと分割することで、マイクロタスク型クラウドソーシングを用いて一枚の画像をもとに三次元モデルを生成する手法を提案する. クラウドワーカーはブラウザ上のインタフェースを用いて,ユーザーが入力した画像に写っている

                  • PyTorchでガウシアンピラミッド+ラプラシアンピラミッド(Gaussian/Laplacian Pyramid)

                    以下のようなコードで示される5×5の畳み込みカーネルを用意します。 import numpy as np kernel = np.array([ [1, 4, 6, 4, 1], [4, 16, 24, 16, 4], [6, 24, 36, 24, 6], [4, 16, 24, 16, 4], [1, 4, 6, 4, 1]], np.float32) / 256.0 OpenCVのドキュメントだと一部分母が16になっていましたが、256にするのが正しいかと思われます(普通の畳み込みカーネルも行列の全要素の和が分母になってます)。 OpenCVでは、「5×5カーネルの畳み込み→偶数の行と列を削除する」という処理を実行しています。しかし、ディープラーニングの畳み込み関数(Conv2D)ではもっと簡潔に表せて、「5×5カーネル、stride=2、padding=2」というパラメーターで(ほ

                      PyTorchでガウシアンピラミッド+ラプラシアンピラミッド(Gaussian/Laplacian Pyramid)
                    • 静岡大学 グリーン科学技術研究所

                      神奈川大学(2024年3月15-17日、ハイブリッド)で開催された情報処理学会 第86回全国大会にて、創造科学技術大学院・博士課程(大学院 情報学研究科 情報学専攻修了)の小池 誠さん(フィールドインフォマティクス・峰野研)が、情報処理学会 2023年度(令和5年度)山下記念研究賞を受賞しました。 山下記念研究賞は、情報処理学会の栄誉ある研究賞で、本会の研究会および研究会主催シンポジウムにおける研究発表のうちから特に優秀な論文が選出され、その発表者に贈呈されているものです。故山下英男先生のご遺族から学会にご寄贈いただいた資金を活用するため平成6年度から研究賞が充実され、山下記念研究賞となったものです。本年度は、37研究会の主査から推薦された計52編の優れた論文に対し、慎重な審議を経て理事会(2023年7月)および調査研究運営委員会で承認されました。 ●小池 誠 メロン画像特徴量の類似度を用

                        静岡大学 グリーン科学技術研究所
                      • 衛星画像や航空写真を使った地上での撮影画像の位置推定「Cross-Viewによる位置推定」関連論文まとめ | 宙畑

                        スマートフォンなどで撮影された位置情報が付いていない画像を衛星画像や航空写真など視点が違う位置情報付きの画像をもとに撮影位置を推定する「Cross-Viewによる位置推定」に関連する論文をご紹介いたします。 1.Cross-Viewによる位置推定とは スマートフォンなどで撮影された位置情報が付いていない画像を衛星画像や航空写真など視点が違う位置情報付きの画像をもとに撮影位置を推定する「Cross-Viewによる位置推定」に関連する論文をご紹介いたします。 大まかな仕組みは以下の通りです。 必要となるデータは、位置を推定したい画像(推定対象画像)と位置情報を推定するのに参照する画像(参照画像)の2つです。参照画像は撮影した位置情報がわかっている画像で、正確な場所を知るために利用する画像です。 推定対象画像と複数の参照画像を比較して、一番推定対象画像に特徴量が対応している参照画像を見つけ出し、

                          衛星画像や航空写真を使った地上での撮影画像の位置推定「Cross-Viewによる位置推定」関連論文まとめ | 宙畑
                        • ILSVRC論文(全体編) | 有意に無意味な話

                          良質かつ大規模な画像データセットの代名詞でもあるImageNetを使った画像認識コンペティションがImageNet Large Scale Visual Recognition Challenge(ILSVRC)です。 2010年から開催されており2012年にHinton先生らのチームがAlexNetで圧勝し大きな注目集めたのを皮切りに毎年のように新しいモデルが登場しDeep Learning躍進の舞台となったコンペです。 本論文はその名も「ImageNet Large Scale Visual Recognition Challenge」というタイトルでILSVRCの歴史を 画像分類(classification)部門 位置特定(localization)部門 物体検知(object detection)部門 の各部門について データセットの構築 精度評価指標 歴代の上位入賞者のモデル

                            ILSVRC論文(全体編) | 有意に無意味な話
                          • 【ライブ配信セミナー】AI画像認識システムの基礎と応用 7月5日(火)開催 主催:(株)シーエムシー・リサーチ

                            【ライブ配信セミナー】AI画像認識システムの基礎と応用 7月5日(火)開催 主催:(株)シーエムシー・リサーチ本セミナーは、当日ビデオ会議ツール「Zoom」を使ったウェビナー(ライブ配信セミナー)となります。 先端技術情報や市場情報を提供している(株)シーエムシー・リサーチ(千代田区神田錦町: https://cmcre.com/ )では、 各種材料・化学品などの市場動向・技術動向のセミナーや書籍発行を行っておりますが、 このたび「AI画像認識システムの基礎と応用」と題するセミナーを、 講師に森本 雅和 氏 兵庫県立大学 大学院工学研究科 准教授)をお迎えし、2022年7月5日(火)13:30より、 ZOOMを利用したライブ配信で開催いたします。 受講料は、 一般:44,000円(税込)、 弊社メルマガ会員:39,600円(税込)、 アカデミック価格は26,400円(税込)となっております

                              【ライブ配信セミナー】AI画像認識システムの基礎と応用 7月5日(火)開催 主催:(株)シーエムシー・リサーチ
                            • レシピ動画からサムネイル画像を自動抽出するAIシステムを作りました - every Tech Blog

                              はじめに DELISH KITCHENでデータサイエンティストをやっている山西です。 今回はレシピ動画のサムネイル画像の自動抽出の取り組みについて紹介いたします。 OpenCVを用いた画像処理 画像とテキスト情報のペアを扱う大規模モデル 等を用いつつそれを試みた事例になります。 ※記事後半で具体実装を扱っている部分では、周辺知識がある前提で説明を進めていることをご了承ください。 every Tech Blog Advent Calendar 2024(夏) 9日目の記事になります。 出来たもののイメージ どんなものが出来たかを先に紹介します。 一言で表すと、レシピ動画の中から「調理手順を表すのに良い感じのサムネイル画像」をAI的振る舞いで自動で抽出してくれるシステムになります。 これをワンパンカルボナーラというレシピに適用した例を以下に載せています。 図1: AIシステムによるレシピサムネ

                                レシピ動画からサムネイル画像を自動抽出するAIシステムを作りました - every Tech Blog
                              • 【データ分析の必読10冊+差をつける10冊+100冊超】データサイエンス、データ分析、機械学習関連の本 - Qiita

                                【データ分析の必読10冊+差をつける10冊+100冊超】データサイエンス、データ分析、機械学習関連の本本機械学習数学データ分析データサイエンス Update版2023年版データ分析の100冊を書きましたよ! 必読10冊を更新。データサイエンス、データ分析、機械学習周りでおすすめ図書10選のような記事は良く見ますが、網羅的な紹介記事はあまり見かけないので自分が欲しいと思い書きました。私よりたくさん読んでいる方は多々いらっしゃると思いますが、記事を書いてくださいな。 別の観点でデータ分析プロジェクトのフェーズ毎の参考書籍紹介という記事を新たに書きました。 データ分析の各フェーズ(データ分析プロジェクト全体-ビジネス状況の理解-データの理解-データの準備-モデルの作成-評価-展開)毎に参考書籍を紹介しています。 本記事の対象と想定 Qiitaはプログラマやコンピューター系技術者のための記事と思っ

                                  【データ分析の必読10冊+差をつける10冊+100冊超】データサイエンス、データ分析、機械学習関連の本 - Qiita
                                • 「 あらしのよるに 」 絵本がアニメ映画化決定!

                                  「 あらしのよるに 」は、売り上げ約180万部を超えた人気絵本シリーズ 「 あらしのよるに 」 の長編アニメとして映画化される。自然界で“敵対関係”にあるオオカミとヤギの友情、愛情を描いた作品で、全国の学校図書の調査では「ハリー・ポッター」シリーズに次ぐ人気を誇る絵本。主人公の声を歌舞伎俳優・中村獅童(32)、俳優・成宮寛貴(22)の人気俳優2人が務めるのも話題となっている。 「あらしのよるに」は嵐の晩、真っ暗な小屋で相手が何の動物か分からずに知り合ったオオカミとヤギの物語。暗闇の中で芽生えた友情が、生態系も超越して深まっていく。94年の出版以来、シリーズ6巻で180万部が売れ、10年間の人気ナンバーワン絵本になっている。 オオカミはガブ、ヤギはメイという名前で2匹が出会う道中には幾多の危機が襲う。シンプルなストーリー展開の一方で、ハラハラドキドキの緊迫感の末、最後に涙を誘う。小4の国語の

                                  • 論文まとめ:Video-LLaVA: Learning United Visual Representation by Alignment Before Projection | Shikoan's ML Blog

                                    66{icon} {views} 論文URL:Video-LLaVA: Learning United Visual Representation by Alignment Before Projection 著者:Bin Lin, Yang Ye, Bin Zhu, Jiaxi Cui, Munan Ning, Peng Jin, Li Yuan 論文URL:https://arxiv.org/abs/2311.10122 コード:github.com/PKU-YuanGroup/Video-LLaVA Demo:https://huggingface.co/spaces/LanguageBind/Video-LLaVA ざっくりいうと 動画静止画両方に対応しているVision & Language Modelの研究 動画と静止画のアラインメントを精度向上につなげているのが特徴で、CLI

                                      論文まとめ:Video-LLaVA: Learning United Visual Representation by Alignment Before Projection | Shikoan's ML Blog
                                    • 活用方法は無限大!AIが可能にした世界線

                                      今回は論文を基準とした解説ではなく、技術ベースで記事を書いていますので、少しいつもと違うと思いますが、ぜひお読みください。 これを読まれている多くの方はpose estimation(姿勢推定)という言葉を聞いたことがあると思います。簡単に説明すれば、人がどのような姿勢を取っているかを推定する技術です。みなさんがもっともpose estimationを知ったきっかけにもなったのは、CVPR2017で発表され、多くの人が知ったであろうOpenPoseが有名ですね。今回はそんなpose estimationについて、深ぼっていきたいと思っています。 Pose Estimationの社会的ニーズの広がり ではなぜ、今回pose estimationについて記事を書いているかというと、近年動画SNSが爆発的に普及し、それに引っ張られるように動画に関する研究も増えています。すなわち、動画データが一般

                                        活用方法は無限大!AIが可能にした世界線
                                      • コンペデビューの所感〜atmaCup#10〜|Rio

                                        どうも、スミスです。 すっかり春っぽくなりました。 屋上カフェのテラス席で気持ちいい風に吹かれながらこの記事を書いている今日この頃です。 さてさて、最近は引越ししたり繁忙だったりで投稿が滞っていましたが、2021年3月5日〜3月13日に行われていたatmaCup#10に参加しましたのでその感想と反省を記録しようかと思います。 どんなコンペだったの?アムステルダム国立美術館の美術品の「いいね」数を予測するタスクでした。標準的なテーブルデータコンペのようでした。 データは美術品のタイトルや説明、作者などに始まり、その作品の様式、材料、誰がどんな作業に携わったかや作品の色彩に関する情報と多岐にわたっていました。 なんで参加したの?atmaCupを認知した昨年夏ごろから「機会があれば...」と思ってました。 ただ開催期間が最短で1日とか、長くても1週間とか、そんな短期間で戦える自信がなかったんです

                                          コンペデビューの所感〜atmaCup#10〜|Rio
                                        • Kaggleで注目を集める画像特徴量抽出新手法、DELGの概要紹介 - Qiita

                                          はじめに この記事はGoogle Landmark Recognitionで注目されている、画像特徴量抽出のアルゴリズムDELGを紹介します。 - Unifying Deep Local and Global Features for Image Search このアルゴリズムは2020年1月に発表されたもので、日本語の文献はほとんどないと思われます。 画像の特徴量抽出は画像全体の情報を反映したGlobal featureと、局所的な特徴を集めたLocal featureに大分されます。 これまで、この二つの特徴量抽出には、それぞれ別のアルゴリズムが採用されてきました。 本論文ではこれらを一つのアルゴリズムにまとめ、効率的に特徴量抽出を目的としています。 具体的には、Global featureには平均プーリング層を、Local featureにはattentive selectionを用

                                            Kaggleで注目を集める画像特徴量抽出新手法、DELGの概要紹介 - Qiita
                                          • GANを応用して顔写真のプライバシーを守る技術、顔写真からデモグラ情報をマイニングされるのを防ぐ方法とは?

                                            3つの要点 ✔️ 性別、人種、年齢の複数属性を難読化してプライバシーを保護する新規ネットワークを提案 ✔️ 特定の属性のみを選択的に難読化することも可能 ✔️ 属性を難読化したうえで顔の照合が可能 PrivacyNet: Semi-Adversarial Networks for Multi-attribute Face Privacy written by Vahid Mirjalili, Sebastian Raschka, Arun Ross (Submitted on 2 Jan 2020 (v1), last revised 14 Feb 2020 (this version, v2)]) Comments: Published by arXiv Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine

                                              GANを応用して顔写真のプライバシーを守る技術、顔写真からデモグラ情報をマイニングされるのを防ぐ方法とは?
                                            • AlexNet: 大規模な画像物体認識むけCNNの元祖 | CVMLエキスパートガイド

                                              1. AlexNet とは [概要] AlexNet とは,Geoffrey Hinton 研究室の Alex Krizhevsky と,その指導役であった Ilya Sutskever (Wikipedia)の3人により提案された,画像からの物体認識むけの畳込みニューラルネットワーク(CNN)である [Krizhevsky et al., 2012].コンピュータビジョン業界の研究者たちが,旧画像認識技術から,GPU上でのディープラーニングへと一気に鞍替えするきっかけとなった.この意味で,パターン認識全体にパラダイムシフトを起こした非常に重要な研究である. この記事では,AlexNetについて,当時の時代的背景を1節でおさえたのち,そのネットワーク構造の解説と,その歴史的意義について紹介していく. AlexNetは,ImageNet での物体認識精度を競う「ISLVRC 2012」のコン

                                                AlexNet: 大規模な画像物体認識むけCNNの元祖 | CVMLエキスパートガイド
                                              • 日本酒選びをサポート:画像認識とLLMを活用した機能開発の試み

                                                食に関連するタスクを主にLLMを用いて色々とこなしてみることにします。 その一環として、本記事では、日本酒について試してみることにします。 はじめに 私は日本酒が好きで、甘くて、じっとりした後味の日本酒が好きです。 新しいお酒を楽しみつつも、辛口や後味があっさりしたものは避けたいと思っています。 そういった、ニーズを支援するために、世の中にどういうアプリや仕組みがあればいいでしょうか? 色々とあると思いますが、酒屋で酒を買ったり、セルフでお酒を選ぶようなお店において、 日本酒の瓶の画像で酒の味を調べられるアプリがあると便利だと思いました。 そこで、そのような機能を実装してみました。 LLMx日本酒の評価 まずは、日本酒に関するLLMの能力を調べてみました。 LLMは日本酒の知識をどの程度持っているか? まず、LLMが現状持っている能力のみで、お酒をおすすめできるかを知るために、 LLMの日

                                                  日本酒選びをサポート:画像認識とLLMを活用した機能開発の試み
                                                • KMeansでクラスタリングして類似文字の検索をやってみる - Qiita

                                                  この記事は以前行ったTTFをPNGファイルに変換するやつの続きです。最近読んだ論文「アスキーアート分類手法の比較検討」の中の「文字単位で画像特徴量(HOG)を抽出し...」をやってみてるやつです。 TTFの全グリフをPNGにしてみる 前回変換したPNGファイルから画像特徴量(HOG)を抽出してKMeansで分類してみる記事です。ちなみに完成品は以下のページで動いているのでどんなものかきになる人は確認してみてください。 類似文字検索 AAHub Fonts 具体的手順は以下のようになります。 PNG画像からalphaチャンネルを削除する PNG画像からHOG特徴量を抽出する HOG特徴量をKMeansで分類する 興味ある方は引き続き読み進めてみてください。ソースコードだけ見てみたいって方は以下のリポジトリをのぞいてみてください。 https://github.com/AAHub/TTF2PN

                                                    KMeansでクラスタリングして類似文字の検索をやってみる - Qiita
                                                  • メディカルwatch » Blog Archive » 島津製作所、2019年度島津賞・島津奨励賞受賞者決定~研究開発助成は23件を選定~

                                                    公益財団法人 島津科学技術振興財団(以下、島津科学技術振興財団)は12月4日に開催した島津科学技術振興財団理事会において、第39回(2019年度)島津賞受賞者、島津奨励賞受賞者3名、および研究開発助成金受領者(領域全般20名、新分野3名)が決定されたことが発表された。 島津科学技術振興財団は、科学技術に関する研究開発の助成および振興を図る目的で1980年に島津製作所の拠出資金により設立され、2012年4月に公益財団法人に移行した。基本財産は約10億円である。島津賞は、『科学技術、主として科学計測に係る領域で、基礎的研究および応用・実用化研究において、著しい成果をあげた功労者』を表彰する。島津奨励賞は昨年度から新たに創設された顕彰制度であり、『科学技術、主として科学計測に係る領域で、基礎的研究および応用・実用化研究において独創的成果をあげ、かつその研究の発展が期待される国内の研究機関に所属す

                                                      メディカルwatch » Blog Archive » 島津製作所、2019年度島津賞・島津奨励賞受賞者決定~研究開発助成は23件を選定~
                                                    • 日本語LLMでLLaVAの学習を行ってみた - Qiita

                                                      はじめに 本記事はLLM Advent Calendar 2023 2日目の記事になります。 最近、様々なLLMが発表されたことによりローカルLLM界隈では自作データセットを作成して自分好みのLLMを作成するなど日本語LLM界隈は盛り上がりを見せています。 一方、マルチモーダルなLLMとして画像を組み合わせたものに関してはTuring、Stability AI、Rinnaなどの企業ではモデルを公開していますが、個人で行われている方は少ないという印象があります。 そこで今回はLLaVAと同じ方法で日本語LLMを学習させて、個人でマルチモーダルなLLMの学習を行ってみました。個人で学習できる範疇ということで学習はRTX4090 1台で行っています。 学習に使用したコードは以下で公開しています。 モデルは以下で公開しています。 事前学習モデル: ファインチューニングモデル: 事前学習に使用した日

                                                        日本語LLMでLLaVAの学習を行ってみた - Qiita
                                                      • 「AIスタートアップ「GAUSS」、AIの画像解析・自然言語解析技術を活用したファッションEC販売会社のタグ付け業務効率化システムの実証実験を開始」

                                                        「AIスタートアップ「GAUSS」、AIの画像解析・自然言語解析技術を活用したファッションEC販売会社のタグ付け業務効率化システムの実証実験を開始」 株式会社GAUSS(本社:東京都渋谷区、代表取締役:宇都宮 綱紀、以下「GAUSS」)は、画像および自然言語を人工知能(AI)活用して解析し、類似の商品画像から自動的に最適なタグを抽出および付与するシステム「ATS」(Auto Tagging System)を開発しました。 2017年10月末より共同開発先の株式会社ANAP及びANAPの子会社である株式会社ATLAB(以下、「ANAP」と「ATLAB」を総称して「ANAP」)が運営する「ANAPオンラインショップ」で試験運用を開始しました。 試験運用後、ATSを2018年初旬よりファッションEC販売各社へ展開する方針です。 [開発した技術の詳細] GAUSSがファッション領域に特化して開発し

                                                          「AIスタートアップ「GAUSS」、AIの画像解析・自然言語解析技術を活用したファッションEC販売会社のタグ付け業務効率化システムの実証実験を開始」
                                                        • 【記事更新】私のブックマーク「コミック工学(Comic Computing)」 | 人工知能学会 (The Japanese Society for Artificial Intelligence)

                                                          松下光範(関大),山西良典(立命館大),松井勇佑(NII),岩田基(大阪府立大),上野未貴(豊橋技科大),西原陽子(立命館大),中村聡史(明治大) はじめに: コミック工学の概要 タブレットやスマートフォンなどの携帯ディジタル端末の普及に伴って,このような端末の上でコミック(以下,電子コミック)を閲読することが一般的になってきている.文献 [1] によれば,2016 年度の紙媒体のコミックが 1,947 億円(前年比7.4% 減)であったのに対し,電子コミックの販売金額は 1,460 億円(前年比 27.1% 増)に上り,ユーザの閲覧形態が紙媒体から電子媒体へと移行している様子が顕著に表れている.電子コミックは,ディジタル端末上でリアルタイムに処理可能であることから,紙媒体のコミックに比べ高い拡張性と応用性を有していると考えられる.例えば,従来のコミックの枠に囚われない表現(e.g., 話

                                                          • ZOZOの新卒1年目MLエンジニアが行くCVPR 2024 参加レポート - ZOZO TECH BLOG

                                                            はじめに こんにちは、推薦基盤ブロック、新卒1年目の住安宏介です。普段は推薦システムの開発・運用を担当しています。 2024年6月に開催されたコンピュータビジョン・パターン認識分野において世界最高峰の国際会議の1つであるCVPR(Conference on Computer Vision and Pattern Recognition)2024に参加しました。参加レポートとして発表内容や参加した感想を紹介いたします。また、最後にZOZO NEXTが行っているワークショップのスポンサー活動についてZOZO Researchの清水から紹介いたします。 目次 はじめに 目次 CVPR とは 開催地のシアトルについて 学会のスケジュール 企業展示ブースの様子 ポスターセッションの雰囲気 採択数増加に伴うポスターセッションの懸念とその実際 特に、印象に残った研究発表 SLICE: Stabilize

                                                              ZOZOの新卒1年目MLエンジニアが行くCVPR 2024 参加レポート - ZOZO TECH BLOG
                                                            • 【ライブ配信セミナー】AI画像認識システムの基礎と応用 9月10日(金)開催..(CMCリサーチ プレスリリース)

                                                              【ライブ配信セミナー】AI画像認識システムの基礎と応用 9月10日(金)開催 主催:(株)シーエムシー・リサーチ プレスリリース発表元企業:CMCリサーチ 配信日時: 2021-08-20 09:30:00 本セミナーは、当日ビデオ会議ツール「Zoom」を使ったウェビナー(ライブ配信セミナー)となります。 先端技術情報や市場情報を提供している(株)シーエムシー・リサーチ(千代田区神田錦町: https://cmcre.com/ )では、 各種材料・化学品などの他、AI・MIなどに関連する市場動向・技術動向のセミナーや書籍発行を行っておりますが、 このたび「AI画像認識システムの基礎と応用」と題するセミナーを、 講師に森本 雅和 氏  兵庫県立大学 大学院工学研究科 准教授)をお迎えし、2021年9月10日(金)13:30より、 ZOOMを利用したライブ配信で開催いたします。 受講料は、 一

                                                                【ライブ配信セミナー】AI画像認識システムの基礎と応用 9月10日(金)開催..(CMCリサーチ プレスリリース)
                                                              • nyokeの研究日記

                                                                10年ほど前(ちょうどAlexNetが世間を騒がせたぐらい)にBag of Keypoints表現を使って,視覚的概念の定量評価に関する研究に取り組んでいた.当時はビッグデータという言葉が流行し始めたころで,職人的な画像特徴量の設計に関する研究が盛んだった記憶がある.私はその当時から画像認識分野の知見をなんとか画質評価に導入したいともがいていた記憶が蘇ってきました. さて,今日はDNNによる画質評価の情報収集結果をまとめた備忘録を.良いサイトを見つけた. Image Quality Assessment | Papers With Code ここから芋づる式に調べたところ,今まさにやりたいと思っていた文献が見つかった(文献というか欲しいデータセットがあった). PIPAL IQA(Image Quality Assessment)用のデータセットで,以下の特徴が珍しいというか今までなかった

                                                                  nyokeの研究日記
                                                                • PyTorchを使ってCNNで野菜の仕分け作業自動化

                                                                  はじめに こんにちは。皆さんは日本の農業人口の推移の状況についてご存知でしょうか。統計によると2020年には2000年の農業人口の約6割まで落ち込み、またその多くは65歳以上の高齢者で支えられているそうです。農業人口は減少、高齢化の一途なのです。私の祖父母も農業に携わっていることから、機械学習で仕事を少しでも自動化できないかと思ったのが執筆のモチベーションです。 この記事では、Pythonの機械学習用ライブラリであるPyTorch用いて、きゅうりの鮮度の分類を行うモデルを構築します。曲がっていたり太さが均一でないキュウリは鮮度が良くないと見なされることを利用し、画像特徴量からそれらを識別します。こちらの、TensorFlowで実装されたきゅうりの分類の記事を参考にしました。 実装の流れ 学習の流れは以下のようになります。 データの取得 データを訓練用、テスト用、検証用に分割する データロー

                                                                    PyTorchを使ってCNNで野菜の仕分け作業自動化
                                                                  • 第16回画像の認識・理解シンポジウム MIRU2013

                                                                    プログラム詳細 7/29(月) TS1: チュートリアル1 グラフカット・その後 石川博(早大) TS2: チュートリアル2 カーネル情報処理入門 ―非線形の魅惑― 前田英作(NTT) TS3: チュートリアル3 コンピュータビジョンにおけるテンソル解析 佐藤淳(名工大) TS4: チュートリアル4 画像局所特徴量SIFTとそれ以降のアプローチ 藤吉弘亘(中部大) 若手の会(別会場) 7/30(火) オープニング KS1: 基調講演1 ディジタル図形の科学 出口光一郎 (東北大) SS1: スポットライトセッション1 SS1-1 Recognizing Connected Cursive Characters Drawn in the Air from Motion Images Yuki Nitsuma, Takashi Matsuzaki, Yuichi Yaguchi, Ryuich

                                                                    • 最適な学習済みモデルが分かる?転移学習を加速させるTASK2VECの登場!

                                                                      3つの要点 ✔️タスク(データセットとラベルの組み合わせ)をベクトル化するTASK2VECの提案 ✔️タスク間の類似度を計算することにより、どの学習済みモデルを使えば良いか判断可能に ✔️様々なタスクでの実験で、TASK2VECは最適に近い学習済みモデルを予測することに成功 はじめに 転移学習をご存知でしょうか。これは学習済みモデルを再利用することにより、少ないトレーニングデータでも、性能を発揮できる学習方法です。 転移学習の例としては、ImageNetによるものが最も有名でしょう。これは画像分類のタスクを行う際に、ImageNetで学習したモデルの最終層(分類を行う層)だけを、解きたいタスクに応じて再調整する、というものです。 このような学習が上手くいく理由の1つに、ImageNetでの学習によって、良い画像特徴量を抽出する機構が出来上がっているからです。その機構を再利用すれば、トレーニ

                                                                        最適な学習済みモデルが分かる?転移学習を加速させるTASK2VECの登場!
                                                                      • 画風変換をtensorflowで実装し、最適化の項を変化させた時の出力画像の変化を見る - めも

                                                                        Neural Style Transfer VGGネット 訓練済みモデルのダウンロード モデルの定義 モデルを宣言 中間層での画像特徴量の抽出 プロット用の関数 中間層の画像の可視化 最適化問題 損失関数の計算 出力結果 画風変換に関する論文一覧 学会に参加してるのですが、昼休みが長すぎたので実験しました。CPUでも待ち時間で計算できたことに少し驚き。 最適化の箇所を 2/17 に追記する予定。 Neural Style Transfer の二番煎じですが、tensorflowで実装。 使用した画像はpixabeyの商用可能画像です。 を含めたくさんの実装が公開されてます。 VGGネット 訓練済みモデルのダウンロード neural style transferでは訓練済みの画像分類モデルVGG-19を用いるので、それを定義する。 モデルの重みは Matconvnetのこちらから取得できる。

                                                                          画風変換をtensorflowで実装し、最適化の項を変化させた時の出力画像の変化を見る - めも
                                                                        • ZOZO Researchと同志社大学の共同研究 〜研究の際に配慮した点と研究成果の紹介〜 - ZOZO TECH BLOG

                                                                          こんにちは。株式会社ZOZO NEXTにあるZOZO ResearchのApplied MLチーム所属の後藤です。社内の様々な課題を機械学習を活用して解決する仕事に取り組んでいます。 弊社(当時は株式会社ZOZOテクノロジーズ)では2019年1月より、ZOZO Researchと同志社大学 桂井研究室の共同研究を開始しました。本記事では、共同研究を行う際のポイントと、その成果を紹介します。 目次 目次 はじめに なぜ大学との共同研究を行うのか 共同研究を行う際のポイント 社内の喫緊の課題を研究テーマにしない 学生からの発案を大切にする 先生と学生を社内セミナーに招待して講演会を開く 共同研究の実績 フィット感の定量化の研究 参考文献 スタイルタグの関係性の可視化の研究 参考文献 類似ブランドの関係可視化と検索インタフェースの研究 参考文献 アニメ画像からコスプレ衣装画像を生成する研究 参考

                                                                            ZOZO Researchと同志社大学の共同研究 〜研究の際に配慮した点と研究成果の紹介〜 - ZOZO TECH BLOG
                                                                          • 【新刊案内】AI・MI・計算科学を活用した蓄電池研究開発動向 監修:森分 博紀 (非営利・一般財団法人 ファインセラミックスセンター (JFCC)) 発行:(株)シーエムシー・リサーチ

                                                                            【新刊案内】AI・MI・計算科学を活用した蓄電池研究開発動向 監修:森分 博紀 (非営利・一般財団法人 ファインセラミックスセンター (JFCC)) 発行:(株)シーエムシー・リサーチ第一原理計算の基礎からマテリアルズインフォマティクスの最先端まで! 基礎編(第一原理計算・機械学習)も掲載! 材料科学や化学の先端技術やその市場動向に関するレポート発行やセミナー開催を行う(株)シーエムシー・リサーチ(東京都千代田区神田錦町、https://cmcre.com/)では、このたび「AI・MI・計算科学を活用した蓄電池研究開発動向」と題する書籍を2021年6月28日発行いたしましたので、お知らせします。 書籍の定価は、90,000 円(税込 99,000 円)(書籍)、書籍とCDセットの定価はセット 100,000 円(税込 110,000 円)(書籍+CD)となっており、ご購入受付中です。書籍目

                                                                              【新刊案内】AI・MI・計算科学を活用した蓄電池研究開発動向 監修:森分 博紀 (非営利・一般財団法人 ファインセラミックスセンター (JFCC)) 発行:(株)シーエムシー・リサーチ
                                                                            • AIの学習をより人間らしくする?学習経験を活かした効率的な学習手法MTLの登場!

                                                                              3つの要点 ✔️これまでの学習経験を元に、未知のタスクを少ないデータから解く手法の提案 ✔️一部のパラメータのみを更新することで、効率良く、そしてこれまでの学習を忘れないように学習可能 ✔️難しいタスクを重点的に学習することで、未知のタスクを少ないデータで精度良く学習可能 はじめに 近年、深層学習が世間にも浸透し、様々な場面で深層学習が使用されるようになってきました。深層学習を用いた有名なものとしては、自動運転に使用される画像認識技術や、アレクサやSiriに使用される自然言語処理技術などが挙げられます。 深層学習を代表とする人工知能研究の大きな目標は人間と同じような知性を作ることです。人間は一度物体を見るだけで、その物体を高精度に認識することが可能です。しかし、深層学習技術では、大量のデータで学習しなければ、物体を認識することが出来ません。 では、人間はどのように少ないデータから高精度に物

                                                                                AIの学習をより人間らしくする?学習経験を活かした効率的な学習手法MTLの登場!
                                                                              • オープンソースのビッグデータ処理ツール / NGTとは

                                                                                オープンソースのビッグデータ処理ツール/NGTとは NGT(Neighborhood Graph and Tree for Indexing)とは、高次元ベクトルデータ高速検索技術です。ビッグデータ分析/ディープラーニング領域に活用できる技術として注目されています。 「NGT」基本情報 ■概要 NGT(Neighborhood Graph and Tree for Indexing)とは、高次元ベクトルデータ高速検索技術です。ビッグデータ分析/ディープラーニング領域に活用できる技術として注目されています。 ■基本説明 NGT(Neighborhood Graph and Tree for Indexing High-dimensional Data)は、高次元ベクトルデータ空間(数十~数千次元)における大量データ(数百万~数千万のデータ項目)に対して高速近似検索を実行するコマンドおよびライ

                                                                                • アスキーアート関連の論文を探してみた - Qiita

                                                                                  どうも@scrpgilです AAが好きでAAをエンジニアリングしたいAAエンジニアです。 もう2018年が終わりそうですね。私は2019年にはAAを機械学習を使って分類したいという目標があるのですが、アスキーアート関連の論文をほとんど読んだことないです。 そこで、本記事はGoogle ScholarやCinii、Google検索でアスキーアート関連の論文を探してみたのでいくつか紹介したいと思います。 アスキーアート自動抽出法の提案(2010) KDDO研究所による電子掲示板などテキストとアスキーアートの両方が含まれている文章からアスキーアートを抽出する研究。 行ごとにAAが含まれるか検出する→AAが含まれる行はその前後もAAである可能性が高い。という特徴から文章中からAAを抽出する技法とのこと。実験結果は抽出率97〜98%ほどと高い。 リンク(PDFあり) アスキーアート分類手法の比較検討

                                                                                    アスキーアート関連の論文を探してみた - Qiita