タグ

*algorithmとcvに関するsh19910711のブックマーク (140)

  • ディープラーニングは作画監督を見分けられるのか? 〜涼宮ハルヒの憂鬱[エンドレスエイト」より〜 - Qiita

    ー はじめに ー もし、この記事を読む読者の方がアニメ好きならば、「涼宮ハルヒの憂」の名を知らぬ人はいないでしょう。 今回は後世に名を残した「エンドレスエイト」より、絵コンテ・演出家、作画監督をディープラーニングで認識することができるのかを検証していきたいと思う。 ☆「涼宮ハルヒの憂」を知らない方へ 涼宮ハルヒの憂とは原作者:谷川 流氏、角川スニーカー文庫から刊行されているSF系学園ストーリー(筆者談、諸説あり) 2009年4月から放映されたアニメ2期「涼宮ハルヒの憂」にて、世間を騒がす大事件が起きました。 「エンドレスエイト」 原作である「涼宮ハルヒの暴走」の名が指し示す通り、アニメ涼宮ハルヒの憂が暴走を起こし、全く同じ内容を8週にかけて放映しました。 今回はその8回分の同じ内容のアニメを活用し、ディープラーニングの能力を検証していきたいと思います。 蛇足にはなりますが「涼宮ハ

    ディープラーニングは作画監督を見分けられるのか? 〜涼宮ハルヒの憂鬱[エンドレスエイト」より〜 - Qiita
    sh19910711
    sh19910711 2024/05/09
    "エンドレスエイト: 1話〜7話の絵コンテ・演出家、作画監督は違う + 内容の構成はほぼ同じ / 1〜7話を判別するモデルを作って、8話目を認識させる / 一話丸ごと => 「同じシーンを書いたものであれば可能」という結論" 2021
  • 第2回:画像でないデータを画像として処理する

    AI技術チームの石川です。今回は、我々が発表した論文で使ったアイディアの一つである、「画像でないデータを画像として扱う」ことで画像分析用の手法を活用するという考え方について紹介したいと思います。画像認識や画像処理のために開発された手法やツールを活用することで、画像でないデータの分析を簡単に、高精度に行うことができる場合があります。ビジネスにおいては、以下のような場面で活用できる可能性があります。 製造業、商業、公共交通機関等での音声による異常検知 時系列の金融データ分析 画像データとCNN 画像認識はAI機械学習の代表的なタスクのひとつであり、幅広く研究されています。ディープラーニングが注目されるきっかけの一つとなった画像認識コンペティションILSVRCはImageNetという大規模な写真データセットの分類精度を競うものでした。 ディープラーニングによる画像認識において、優れた性能を達成

    第2回:画像でないデータを画像として処理する
    sh19910711
    sh19910711 2024/05/05
    "「画像でないデータを画像として扱う」ことで画像分析用の手法を活用する / 音声データ以外にも、コンピュータ上のファイルのバイナリ配列を2次元配列に変換し、CNNでマルウェアを検出するという研究" 2021
  • 文字認識アルゴリズムのFOTSを実装したので,1から解説してみる(EASTも少し) - Qiita

    はじめに 例によって暇だったため,FOTS(Fast Oriented Text Spotting with a Unified Network)をPytorchで実装してみました.実装はこちら→https://github.com/jjjkkkjjj/pytorch.dlで,FOTS意外にも気まぐれでいろんなアルゴリズムを実装しています.今回の実装では,学ぶことも多かったので,アウトプットも含めてFOTSを1から解説してみたいと思います.また,FOTSはEAST(An Efficient and Accurate Scene Text Detector)から踏襲した部分も多いので,EASTの解説も含んでいると思います. ちなみに,以下が実装したFOTSの出力結果です.ところどころおかしいですが,いい感じですね〜. 入力画像 出力画像 FOTSとは FOTSとは,その名(Fast Orie

    文字認識アルゴリズムのFOTSを実装したので,1から解説してみる(EASTも少し) - Qiita
    sh19910711
    sh19910711 2024/05/05
    "SynthText: なんてことない画像に,人工的にあらゆる単語をあらゆるフォントで付与した画像のデータセット / 一定区間毎の特徴をSequenceとしてRecurrent Layers(Bidirectional LSTM)で文字を予測" 2020
  • metric learning のファッション分野における活躍

    この記事の目的は? ファッションの3つの研究分野において、 metric learning がどう使われているかを説明し、関連文献をいくつか紹介します。 metric learning やファッションの研究に興味を持たれた方が、研究を始めやすくなればと考えています。 street-to-shop image retrieval どんな研究か? ファッションアイテムの自撮り画像から、ECサイトで使われるような商品画像を検索 するための研究です。ファッションに限らない、一般的な呼び方だと cross-domain image retrieval と呼んだりもします。 図:自撮り画像の例 図:商品画像の例 出典: (M. Hadi Kiapour et al., 2015, ICCV) Where to Buy It: Matching Street Clothing Photos in Onl

    metric learning のファッション分野における活躍
    sh19910711
    sh19910711 2024/05/05
    "compatibility learning: デニムジャケットにはボーダーのTシャツが合う、というようなことを学習 + コーデの採点 / アイテム特徴量を reduce して得られる文脈ベクトルをスタイルとみなし + metric learning" arXiv:1707.05691 2020
  • Scenic: A JAX Library for Computer Vision Research and Beyond - stMind

    github.com Scenicは、TransformerベースのモデルにフォーカスしたオープンソースのJAXライブラリ。 最近、Transformerを適用した動画認識モデルの論文(ViViT, MTV, ObjectViViT)を読んでいる中で見かけていました。 研究のコードであっても、構造化され、実験しやすいことが、色々なアイデアを素早く検証できるベースになることを実感していて、 Scenicが気になっていました。 そこで、arxivに公開されているScenicの論文を読んでみたので、ここで内容をメモしておきます。 arxiv.org Abstract Scenicの目的は、新しいビジョンアーキテクチャやモデルの素早い実験、プロトタイピング、リサーチを促進すること。 Scenicは、マルチホスト、マルチデバイスの大規模学習のためのGPU/TPUサポートとともに、多様なビジョンタスク

    Scenic: A JAX Library for Computer Vision Research and Beyond - stMind
    sh19910711
    sh19910711 2024/05/04
    "構造化され、実験しやすいことが、色々なアイデアを素早く検証できるベースになる / Scenic: 抽象度を上げるよりもフォークやコピー + 複数のモデルやタスクに広く有用である場合のみ、library-levelに機能を加える"
  • 自然言語処理で活躍するTransformerを取り入れた物体認識モデルDETRの紹介 - ほろ酔い開発日誌

    はじめに 今回は、自然言語界隈に発展をもたらし、デファクトスタンダードとなったTransformerのモデルを物体認識に取り入れた論文(End-to-End Object Detection with Transformers 2020/05/26 on arXiv)を紹介します。 [2005.12872] End-to-End Object Detection with Transformers (記事中の図は特に言及がなければ論文のもの) こちらの論文はFacebook AIから出ており、blog記事も公開されています。概要がコンパクトにまとまっており、読みやすいです。概要だけ知りたい方にはおすすめです。 ai.facebook.com また、DL輪読会にて発表されたスライドもあるので、技術的内容を一通りさらいたい方におすすめです。 [DL輪読会]End-to-End Object D

    自然言語処理で活躍するTransformerを取り入れた物体認識モデルDETRの紹介 - ほろ酔い開発日誌
    sh19910711
    sh19910711 2024/05/02
    "DETR: 自然言語領域でよく用いられるTransformerを画像認識の領域に持ち込んだ / 物体認識をbboxの集合を予測する問題として捉え直し、それを最適化するような学習方法を提案 / encoderに画像を入れ + bboxの予測" arXiv:2005.12872 2020
  • 【令和最新版】画像分野のDeep Learning (Computer Vision) 初心者向け資料 - Qiita

    はじめに 記事は、2022年3月に修士課程を修了する私が学部4年から3年間で学んできた知識について経験的なイメージ(偏見)を携えて、修論とは別になんとなくまとめてみようとするものです。 記事は理論メインになります。 実装のプログラミングは多少話題にしてますが、そちらをしっかり学びたい方にはそれほど役に立たないと思います。ご了承ください。 一応、以下のような人をターゲットとして書いています。 新たに学び始める人 ざっくり分野の概要を知りたい人 知識のない人向けに講演などする予定があり参考にしたい人 とにかく何でもいいから読み物がほしい人 現在、入門書籍や入門記事はたくさんありますが、持論・体験・最新の研究についても触れながら書くつもりなので、少しでも良いなと思っていただければと考えています。 数学的な話も少し出ますが、中学・高校数学レベルがわかれば大丈夫です。 誤字脱字・間違った知識の報

    【令和最新版】画像分野のDeep Learning (Computer Vision) 初心者向け資料 - Qiita
    sh19910711
    sh19910711 2024/05/02
    "Convolution: 瞬時に理解できるように説明するのはサッカー知らない人にオフサイドを説明するぐらい難しい / Convolutionの層やAttentionをとにかく追加して接続してで論文が書けていた時代が落ち着きを見せてきており" 2022
  • 点群深層学習 Meta-study

    cvpaper.challenge2019のMeta Study Groupでの発表スライド 点群深層学習についてのサーベイ ( https://www.slideshare.net/naoyachiba18/ss-120302579 )を経た上でのMeta StudyRead less

    点群深層学習 Meta-study
    sh19910711
    sh19910711 2024/05/02
    "三次元点群の難しさ: 順不同な入力 + 画像のようには畳み込みができない / 入力点群の順序が変わっても出力が変わらないことが望ましい / PointNet: Symmetric Functionによって順不同な入力を扱う + 点ごとに独立した変換" 2019
  • 夏のトップカンファレンス論文読み会 / InnovationMeetup20170918csn_cvpr2k17

    夏のトップカンファレンス論文読み会(2017/09/18)での発表資料です。 - connpass: https://abeja-innovation-meetup.connpass.com/event/63466/ - 著者実装: https://github.com/andreasveit/…

    夏のトップカンファレンス論文読み会 / InnovationMeetup20170918csn_cvpr2k17
    sh19910711
    sh19910711 2024/05/01
    "類似度計算: 「似ている」は画像の属性ごとに計算できると嬉しい + 1つの基準につき、1つのモデルを用意するのは効率が悪い / ベクトルにマスクを適用 + 空間を分割することで複数の類似度計算を可能に" arXiv:1603.07810 2017
  • Metric LearningでTWICEのメンバー9人を見分けるPyTorch入門 - Qiita

    エンジニア&リサーチインターンの佐藤(Twitter: TodayInsane)です。 ABEJA Advent Calendarの21日目を担当します。 もうすぐクリスマスですね!"Merry&Happy"!!! 軽い自己紹介 今年の4月からフロントエンドのデザイン→Vue.js実装をメインの業務とし、半年間とあるプロダクトの開発・案件受注を長期インターンとしてお手伝いさせて頂いてました。記事と直接の関係はありませんが、このプロダクトの開発者兼ぼくのメンターさんによる思いとテックと面白さが詰まったABEJA Tech Blogも是非ご一読ください。そして9月に初案件が無事成功した話を、インターン体験記兼続編として執筆中です。 現在はエンジニア業務と同時並行で、10月から機械学習のリサーチインターンもしています。上述の人物認証を使ったプロダクトやABEJAのサービスであるInsight

    Metric LearningでTWICEのメンバー9人を見分けるPyTorch入門 - Qiita
    sh19910711
    sh19910711 2024/04/29
    "Person Re-Identification: 画像または映像を解析し、写っている人物が既知(登録済みの人)か未知かを判定 / domain gap: 「学習データセットの人たちは推論時には多分1人も出てこない」問題" 2019
  • 【論文読み】画像をグラフ構造として特徴抽出するVisionGNN - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 以下の論文の内容をまとめた。 Vision GNN: An Image is Worth Graph of Nodes 2022/06 https://arxiv.org/abs/2206.00272 Kai Han, Yunhe Wang, Jianyuan Guo, Yehui Tang, Enhua Wu パッチ化した画像でグラフを構築し、グラフニューラルネットワークで特徴抽出、画像分類や物体検出タスクに利用する。TransformerやMLPを使った画像処理の研究とコンセプトは似ている。 まとめ 前提/課題 CNN, trans

    【論文読み】画像をグラフ構造として特徴抽出するVisionGNN - Qiita
    sh19910711
    sh19910711 2024/04/17
    "VisionGNN: 画像をノードと見なせるいくつかのパッチに分割し、近傍のパッチを連結してグラフを構成 + GNNで特徴抽出、画像分類や物体検出 / 深層部では中心ノードの近傍はより意味的" arXiv:2206.00272 2022
  • irisで試す相互情報量の最大化による教師なし学習手法IIC - Qiita

    概要 実験結果のファイルをGitHubに保存しています 概要 未知ラベルの画像にノイズをのっけて、相互情報量を最大化するように学習することで画像のクラスタリングを行えるとのこと。 つまり、画像に対して事前のアノテーション(ラベリング)作業不要でクラスタリングが可能 詳細はarxiv読んでください。 Invariant Information Clustering for Unsupervised Image Classification and Segmentation(arxiv) xu-ji/IIC (家Gitリポジトリ) 教師あり学習の精度を超えた!?相互情報量の最大化による教師なし学習手法IICの登場! (日語解説) RuABraun/phone-clustering (比較的シンプルな実装例Gitリポジトリ) MNISTはいろんなひとが実装しているので、 画像ではなく、もっと

    irisで試す相互情報量の最大化による教師なし学習手法IIC - Qiita
    sh19910711
    sh19910711 2024/04/05
    "IIC: 未知ラベルの画像にノイズをのっけて、相互情報量を最大化するように学習 + 画像に対して事前のアノテーション作業不要でクラスタリング / バッチ正規化を利用しないと学習が進まない" arXiv:1807.06653 2020
  • CIFAR-10を疑似ラベル(Pseudo-Label)を使った半教師あり学習で分類する - Qiita

    TL;DR 半教師あり学習の1つの手法である、疑似ラベルをCIFAR-10で試した サンプル数が少ない場合は、疑似ラベルを使うことでテスト精度を引き上げることができた ただし、転移学習と比べると若干見劣りすることもある 元ネタ かなり平易に書かれた論文なので読みやすいと思います。 Dong-Hyun, Lee. Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks. 2013 http://deeplearning.net/wp-content/uploads/2013/03/pseudo_label_final.pdf 半教師あり学習とは 「教師あり学習」と「教師なし学習」の間の子。教師あり学習のように$(X, y)$とラベル付けされたデータと、教師

    CIFAR-10を疑似ラベル(Pseudo-Label)を使った半教師あり学習で分類する - Qiita
    sh19910711
    sh19910711 2024/03/06
    "疑似ラベルによる半教師あり学習: 未ラベルデータと、本物のラベルがついたラベル付データを混ぜて同時に訓練 / 訓練させるたびに、疑似ラベルを再度推論 / 本物のラベルと疑似ラベルの間のバランスが重要" 2018
  • 画像データに対するGraph Neural Network(GNN)入門 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに 最近、グラフニューラルネットワーク(Graph Neural Network; GNN)を用いた気象予測の論文が話題を呼んでいました。 Learning skillful medium-range global weather forecasting | Science https://www.science.org/doi/10.1126/science.adi2336 Google DeepMindの気象予測AI「GraphCast」、1分で前例ない精度の10日間予報を出力 https://www.techno-edge.

    画像データに対するGraph Neural Network(GNN)入門 - Qiita
    sh19910711
    sh19910711 2024/02/29
    arXiv:2206.00272 / "Vision GNN (Han et al. 2022): GNNで画像認識することで、Vision Transformer等の最新モデルを超えるパフォーマンス + 画像をいくつかのパッチに分割し、それらをノードと見なす" / 2023
  • BERTとResnetのマルチモーダルモデル「MMBT」を徹底解説 - Qiita

    はじめに 実務でECサイトのレコメンド精度改善のために、画像とテキストの両方を用いたマルチモーダル分類モデルを実装しました。 当初社内にマルチモーダル・ディープラーニングについての知見がなく、web記事を片っ端から漁りましたが執筆時点(2021年11月)には参考になるような日語記事はほとんど見当たりませんでした。 何とかしてマルチモーダルモデルを構築できないものかと調査したところMMBTの論文にたどり着きました。 そして、自社データを用いてモデル構築したところベースラインを上回る精度が出ましたのでここで紹介したいと思います。 これからマルチモーダルモデルに挑戦される方の参考になれば幸いです。 原論文:Supervised Multimodal Bitransformers for Classifying Images and Text github:MultiModal BiTransf

    BERTとResnetのマルチモーダルモデル「MMBT」を徹底解説 - Qiita
    sh19910711
    sh19910711 2024/01/18
    "データサイエンスVtuber アイシアさんの自然言語処理シリーズ / MMBT: BERTとResNet-152のベクトルを結合した後にさらにBERTに入力 / 判断根拠の可視化: nike,fear,airといった単語が注目され、画像側ではNikeのロゴマーク" / 2021
  • 機械学習を用いたIRIAM顔認識機能の改善の取り組み【DeNA TechCon 2023】

    youtube:https://youtu.be/9ScrFVsIKd4 概要: バーチャルライブ配信アプリIRIAMにおいて、配信者様に合わせてリアルタイムでキャラクターを動作させるためには、高速で高精度な顔認識が必要です。 iPhoneにおいてはApple製のARKitを用いることで高…

    機械学習を用いたIRIAM顔認識機能の改善の取り組み【DeNA TechCon 2023】
    sh19910711
    sh19910711 2023/03/07
    "TFLite変換: torch.onnx.exportでPytorch -> ONNX + Model OptimizerでONNX -> OpenVINO + openvino2tensorflowでOpenVino -> TFLite / OpenVINOを経由して最適化することで大幅に高速化 / onnx2tf: 2022/9に開発開始され、現在もアクティブ"
  • 深層学習を利用した食事画像変換で飯テロ - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに これは,NTTコミュニケーションズ Advent Calendar 2018 2日目の記事です.関連記事は目次にまとめられています.(更新したら12/3になってました...) ⚠ 魅力的な飯テロ画像をご用意し,圧倒的な飯テロを狙った記事となっていますので,夜中に見る場合はご注意ください. おまえだれ?! 普段の業務では,マルチモーダル深層学習や機械学習分析ツール開発などをメイン業務としていて,趣味はプロテインです. 学生時代,学部までは画像認識(モバイル+深層学習)をテーマに研究していまして,修士からは画像生成・画像変換を主に

    深層学習を利用した食事画像変換で飯テロ - Qiita
    sh19910711
    sh19910711 2022/12/07
    2018 / "GAN: pix2pix -> CycleGAN + ACGAN -> StarGAN の流れで調べていくとスムーズ / 「ラーメン」のカテゴリに至ってはその種類の多様性が他のカテゴリと比べて高かった / HoloLensと組み合わせて質素な見た目の料理を豪華な食事へ"
  • Web2.0時代の画像補完技術 - @IT

    2007/08/29 1万枚の写真を使ってできないことで、200万枚の写真ならできることがある。それは熟練したPhotoshopの使い手が1時間かかってやる写真加工の作業を、コンピュータ処理で自動化してしまうこと――。8月初頭に米国サンディエゴで開催された画像処理技術の祭典、SIGGRAPH 2007で発表されたシーン補完技術は、何百万枚もの写真をネットで集められるWeb2.0時代の画像処理技術だ。 写っている邪魔な対象物を自然に置換 「数百万枚の写真を使ったシーン補完」と題した論文と、その成果を発表したのは、カーネギーメロン大学のジェームズ・ヘイズ(James Hays)氏とアレクセイ・A・エフロス(Alexei A. Efros)氏。この補完技術のアイデアは、元となる写真に似た構図や配色の写真を、ネット上で集めた膨大な数の写真データベースから探し出し、元の写真の消したい部分、あるいは復

    sh19910711
    sh19910711 2022/10/13
    2007 / "画像の数を1万枚から200万枚に増やしたところ、クオリティが飛躍的に向上 / 世界のすべてを表現できるほど十分に大きなデータを集めることはできるか > 必要とされる画像の数は天文学的な数字にならないのでは"
  • PyTorchによる人工衛星画像から車の推定分布地図を作成してみる. - Qiita

    1. 概要. こちらの記事を読んだとき”この内容を理解し自分で実装できたらいいな〜”と憧れていました. Deep Learning で航空写真から自動車をカウントする こちらを自分で実装できることをターゲットに,PyTorchを学びました.ある程度できましたので,せっかくだから公開されている人工衛星の撮影画像に構築したモデルで車の台数を推量し,同様に車のマッピングを求めてみました. Copyright©2016DigitalGlobe. 学習用および検証用の画像データの取得,PyTorchでモデル化するためのDatasetおよびDataloader処理,学習,検証と人工衛星の撮影画像によるデモンストレーションを紹介します.Pytorchによる航空画像の建物セグメンテーションの作成方法.と同様に,PyTorchや画像分類が初めての方を対象としたため,かなり細かく紹介しています.そのため長文と

    PyTorchによる人工衛星画像から車の推定分布地図を作成してみる. - Qiita
    sh19910711
    sh19910711 2022/09/23
    2020 / "航空写真を用いた車の台数の推定モデルの構築 + 衛星画像の車の台数分布地図を作成 / 画像に写っている車の数を画像の模様(テクスチャー)として識別 + 画像分類にて車をカウント / アノテーションコストが低減"
  • DeepStream プラグイン入門1 〜サンプルプラグインを実行してみる〜 - 技ラボ

    DeepStream をきちんと使えるようになりたい!! ということで、オリジナルのプラグインを作ってストリーム処理に組み込むことを最終目標に DeepStream の勉強をしてみました。 まず今回は手始めに配布されているサンプルのプラグインを実行し動作確認、さらにそこから『何もしない』サンプルプラグインを作ってみます。 DeepStreamとは? NVIDIA DeepStream SDK NVIDIA が提供する IVA (Intelligent Video Analytics) 向けのライブラリ。GPU を使って高速に映像の入出力、物体検出等を行うことができます。 マルチメディアフレームワーク「GStreamer」がベースとなっていて、GStreamer のプラグインと合わせて使用することも可能です。 環境 シリーズ記事では、以下の環境で動作確認を行ってます。 Jetson Nan

    DeepStream プラグイン入門1 〜サンプルプラグインを実行してみる〜 - 技ラボ
    sh19910711
    sh19910711 2022/07/11
    2021 / "DeepStream: NVIDIA が提供する IVA (Intelligent Video Analytics) 向けのライブラリ。GPU を使って高速に映像の入出力、物体検出等を行うことができます"