並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 22 件 / 22件

新着順 人気順

OpenCVの検索結果1 - 22 件 / 22件

  • Sakana AI

    今回公開するモデルは、プロンプトから画像を生成するEvo-Ukiyoeと、古典籍の挿絵をカラー化するEvo-Nishikieモデルです。これらのモデルが、歴史や文化を学ぶための新たなコンテンツ作成に利用され、浮世絵に関する興味を増すことにつながり、日本や世界の人々が浮世絵や日本文化に興味を持つきっかけを生み出すことを期待しています。 概要 Sakana AIは、日本の美を学んだAIとして、浮世絵風画像生成モデルEvo-Ukiyoeと、浮世絵カラー化モデルEvo-Nishikieを公開します。Sakana AIが進化的モデルマージによって構築した日本語対応画像生成モデルEvo-SDXL-JPを基盤とし、浮世絵画像を大規模に学習することで、日本語に対応し、かつ浮世絵の特徴を学んだ画像生成モデルができました。 このリリースの要点は以下の通りです。 Evo-Ukiyoeは、日本語のプロンプトを入力

      Sakana AI
    • Sakana AI、浮世絵風画像生成モデル「Evo-Ukiyoe」と浮世絵カラー化モデル「Evo-Nishikie」公開

      Sakana AIは、日本語から浮世絵風画像を生成する「Evo-Ukiyoe」と単色浮世絵を多色化する「Evo-Nishikie」を公開しました。研究や教育を目的とし、日本文化の魅力を世界に広めます。 このAIニュースのポイント Sakana AI、浮世絵風画像生成AI「Evo-Ukiyoe」と浮世絵カラー化AI「Evo-Nishikie」を公開 日本語対応画像生成モデル「Evo-SDXL-JP」を基盤とし、立命館大学ARCの浮世絵デジタル画像24,038枚を使用した大規模学習によって構築 日本の伝統文化の魅力を世界に広め、教育などへの活用や古典籍の新しい楽しみ方を生むAIになることが期待 Sakana AIは、日本の美を学んだAIモデル「Evo-Ukiyoe」と「Evo-Nishikie」を公開しました。「Evo-Ukiyoe」は、日本語のプロンプトを入力すると浮世絵風の画像を生成し、「

        Sakana AI、浮世絵風画像生成モデル「Evo-Ukiyoe」と浮世絵カラー化モデル「Evo-Nishikie」公開
      • OpenCV、Dlibで顔のランドーマーク検出とまぶたを閉じる検出をやってみた - Atom's tech blog

        概要 コメント 環境条件 ランドマーク68箇所だけのイメージ 目を開いた状態のイメージ 目と口をトリミング 目を閉じた状態のイメージ ソースコード 概要 OpenCVとDlibを使って顔のランドマーク68箇所を検出し、68箇所の座標位置を活用して下記3つを実施。 目の中心位置を検出 目の開閉を検出 目、口部分をトリミング コメント 本ページに表示しているイメージは画像ファイルを読み込みし検出した結果。 ソースコードはカメラからキャプチャー後の検出となっているのでご注意を。 目の中心位置検出、目の開閉状態検出は他サイト(Eye blink detection with OpenCV, Python, and dlib)で公開している情報を参考にしている。 ランドマーク68箇所検出用のモデルファイル(shape_predictor_68_face_landmarks.dat) (http://

          OpenCV、Dlibで顔のランドーマーク検出とまぶたを閉じる検出をやってみた - Atom's tech blog
        • CQ出版が「Interface」2024年9月号を刊行|fabcross

          9月号の特集は「OpenCVで体験! 現場プロの画像処理77」だ。 第1部では、色や明るさの解析、領域の特定や形状認識、ひずみ補正などについて、画像処理ライブラリ「ABHB」を使用した画像処理の基礎を学習できる。 第2部では切り取りやシフト、反転、回転、色変換やぼかし、ノイズ付加やヒストグラムの平坦化、パースの変換や自由変形といった画像処理を「Google Colaboratory」で素早く実施できる方法について解説している。 また、第3部では、実践編として四角形状の認識と四角形頂点の点群マッチング、特徴点マッチングを使った物体検出などについて解説。第4部ではRaspberry Piを使用した現場の保守向け画像処理として、HSV表色系による赤さびの検出や、ヒストグラム平坦化で海の青みを除去する方法などについて取り扱う。 その他、連載企画「ESP32でPLC」では、テスト用のラダープログラム

            CQ出版が「Interface」2024年9月号を刊行|fabcross
          • C#で実行するOpenVINOによる手書き文字認識(MNIST) - Qiita

            はじめに この記事は、OpenVINOをC#で使うための記事です。 内容としては、過去に書いたC++で実行するOepnVinoによる手書き文字認識(MNIST)の内容を、最新バージョン(2021.2)向けに更新したものになっています。 また、それだけだとただの焼き直しになるので、C++とPythonのインターフェースしか用意されていないOpenVINOをC#から使えるようにしてみました。 説明はしていませんが、dllをC++から使うアプリも一緒に公開していますので、必要があればそちらも見てください。 構成 この記事は以下5つのパートに分かれます。 学習済みモデル(識別器)の生成 Kerasというフレームワークを使って学習済みモデルを生成します。 内容としてはC++で実行するOepnVinoによる手書き文字認識(MNIST)に沿っていますが、フレームワークをChainerからKerasに変更

              C#で実行するOpenVINOによる手書き文字認識(MNIST) - Qiita
            • 超速の高速化エンジニアリング。CUDA GPU : 2.45秒 C++ コンパイラ最適化 : 2.99秒 AVX-512命令で最適化: 0.20秒。GPUをぶっちぎった。 - Qiita

              超速の高速化エンジニアリング。CUDA GPU : 2.45秒 C++ コンパイラ最適化 : 2.99秒 AVX-512命令で最適化: 0.20秒。GPUをぶっちぎった。初心者ポエムChatGPT タイトル: 超速の伝説 ある未来の世界で、計算の神秘を解き明かす科学者たちは、時空を超える速度を追い求めていた。その中に、「アレックス」という若き科学者がいた。彼は数式とコンピュータの力を駆使して、全宇宙の謎を解明する夢を抱いていた。 アレックスの最新のプロジェクトは、宇宙の始まりに隠された「マンデルブロ集合」の深奥なパターンを解明することだった。これは、無限の複雑さを持ち、未知の美しさを秘めた数式の集まりだった。彼の目標は、このパターンを最速で計算し、宇宙の真実に迫ることだった。 アレックスは、最先端の技術を駆使してこの問題に取り組んでいた。彼は最新のコンピュータを用い、AVX-512命令とい

                超速の高速化エンジニアリング。CUDA GPU : 2.45秒 C++ コンパイラ最適化 : 2.99秒 AVX-512命令で最適化: 0.20秒。GPUをぶっちぎった。 - Qiita
              • 高速化アルゴリズム探検隊: 「マンデルブロ集合 の計算」CPU python : 103.63秒 C++ : 25.33秒 CUDA GPU : 2.45秒 ブロック最適化後: 2.08秒 - Qiita

                高速化アルゴリズム探検隊: 「マンデルブロ集合 の計算」CPU python : 103.63秒 C++ : 25.33秒 CUDA GPU : 2.45秒 ブロック最適化後: 2.08秒機械学習DeepLearningポエムChatGPTQwen ショートストーリー: 「アルゴリズム探検隊」 序章 ある日のこと、アルゴリズム探検隊のリーダーであるエミリーは、チームメンバーのジェームズ、ソフィア、そしてAIアシスタントのアルファと共に、新たなチャレンジに挑むことを決意しました。その課題は、マンデルブロ集合の計算を行い、様々な方法でその速度を比較することでした。 第一章: CPUによるPythonの冒険 「まずは基本から始めましょう」とエミリーは言いました。彼女はPythonでマンデルブロ集合の計算コードを書き、シンプルなCPUで実行しました。時間がかかることを予想していたエミリーは、コーヒ

                  高速化アルゴリズム探検隊: 「マンデルブロ集合 の計算」CPU python : 103.63秒 C++ : 25.33秒 CUDA GPU : 2.45秒 ブロック最適化後: 2.08秒 - Qiita
                • 超速の高速化エンジニアリング。CUDA GPU : 2.45秒 C++ コンパイラ最適化 : 2.99秒 AVX-512命令で最適化: 0.20秒。GPUをぶっちぎった。 - Qiita

                  超速の高速化エンジニアリング。CUDA GPU : 2.45秒 C++ コンパイラ最適化 : 2.99秒 AVX-512命令で最適化: 0.20秒。GPUをぶっちぎった。初心者ポエムChatGPT タイトル: 超速の伝説 ある未来の世界で、計算の神秘を解き明かす科学者たちは、時空を超える速度を追い求めていた。その中に、「アレックス」という若き科学者がいた。彼は数式とコンピュータの力を駆使して、全宇宙の謎を解明する夢を抱いていた。 アレックスの最新のプロジェクトは、宇宙の始まりに隠された「マンデルブロ集合」の深奥なパターンを解明することだった。これは、無限の複雑さを持ち、未知の美しさを秘めた数式の集まりだった。彼の目標は、このパターンを最速で計算し、宇宙の真実に迫ることだった。 アレックスは、最先端の技術を駆使してこの問題に取り組んでいた。彼は最新のコンピュータを用い、AVX-512命令とい

                    超速の高速化エンジニアリング。CUDA GPU : 2.45秒 C++ コンパイラ最適化 : 2.99秒 AVX-512命令で最適化: 0.20秒。GPUをぶっちぎった。 - Qiita
                  • 頭部入力デバイスを作ってみる その6|たくみ

                    AprilTagの利用ここまで既存の製品や技術について調査したところで、何か使えるものは無いかとM5StickV周りのドキュメントを眺めまわしていたところ、AprilTagというタグを認識するライブラリを見つけた。これを使えば、良い入力装置ができそうだ。 AprilTagとは AprilTagはアメリカ ミシガン大学の AprilTags Visual Fiducial System プロジェクトで開発された ARマーカー。機械学習などではなく、画像処理技術によるアルゴリズムでタグを認識する。 機械学習での物体認識と違い、対象の位置や姿勢も取得でき、高速で精度も高いのが特徴。 もともとはロボティクスのために開発された技術(?) https://april.eecs.umich.edu/software/apriltag ↑ こういうやつ ArUcoとの違い ArUcoじゃダメなの?と思った

                      頭部入力デバイスを作ってみる その6|たくみ
                    • 画像処理エンジニア検定エキスパートにどうにか合格できた - あひるのめも

                      はじめに CG-ARTS検定(文部科学省後援)のひとつである画像処理エンジニア検定について受験した感想をまとめてみたので、今後受験を検討されている方の参考になればと思います。 CG-ARTS検定とは CG-ARTS検定は2005年まで文部科学省認定の公的資格だった画像情報技能検定が民間資格になったものです。現在はマルチメディア検定、CGクリエイター検定、Webデザイナー検定、CGエンジニア検定、画像処理エンジニア検定の5つの検定にそれぞれベーシックとエキスパートがあります。試験はは夏と秋の年に二回実施されています。 私は当初2020年前期に受ける予定だったのですが、COVID-19の影響で夏の試験は中止となったため秋の2020年後期(11/29)に受験しました。 画像処理エンジニア検定とは 画像処理エンジニアに求められる役割とスキル測る検定です。(以下公式HPより引用) 産業や学術分野のさ

                        画像処理エンジニア検定エキスパートにどうにか合格できた - あひるのめも
                      • 変える、今ここから ~SORACOM Discovery 2024~|髙原豪介

                        皆さん、変わってますか? どうも、ユアスタンド株式会社プロダクトマネージャーの髙原です。 ユアスタンドといえばEV充電のコンサルテーションから集合住宅の理事会対応、設置工事、アプリでの運用とその保守までワンストップに手掛ける企業ですが、、、 実はEV充電器を制御するためにソラコム様のSIMやサービスを一部で利用しております。 本noteではそんな株式会社ソラコム様のアニバーサリーイベント、SORACOM Discovery2024の様子をお伝えします。 ※順不同、敬称略。 基調講演スライド照明や音響をふんだんに使って演出された基調講演はまさにスペクタクル! ソラコムのこれまでの歩みや新機能の発表、スズキ・ウェザーニューズ・三菱電機の各社の取り組み事例をプレゼンいただきました。 下記が基調講演で実際に使用されたスライドになります。(ページ送り可能なので試してみてください) 2週間に1回、新機

                          変える、今ここから ~SORACOM Discovery 2024~|髙原豪介
                        • imencodeとimdecodeによるメモリ上での画像圧縮

                          本記事はQrunchからの転載です。 画像をpngなどからjpgに変換したいときに、ぱっと思いつくのはファイルを読み込んで、それをjpgの拡張子で書き込みした後に再度読み込みなおすことです。 1度動かすならばそれでも良いのですが、何度も繰り返しおこなう場合にはファイルの読み書きの時間が気になります。 OpenCVではファイルへの読み書きをおこなうことなく、メモリ上でファイル形式を変更できる(jpgへの圧縮などができる)ような方法が提供されています。 流れとしては、imencodeでメモリ上にファイル形式を変更したバイト列を作成し、それをimdecodeで画像に変換するという流れになります。imencodeがファイルへの書き込み、imdecodeがファイルの読み込みに対応する感じになります。 imencode 画像を他のファイルを形式に変更するimencodeは次のようにして利用します。 1

                            imencodeとimdecodeによるメモリ上での画像圧縮
                          • OpenCVでOpenVinoの使い勝手が向上してきている - Qiita

                            注意:この記事は古くなっています。 最新の状況は随時、ネットワークで検索してください。 pip で openvinoがインストールできるようになっています。 https://pypi.org/project/openvino/ Ubuntu 18, Ubuntu20 でのaptを使うインストール手順 以下のリンクをたどってください。 概要 OpenCVの初期のリリースはIntelによってなされた。その後長いことIntelとは独立な状況が続いたが、近年またOpenCVにIntelが深く関与するようになった。 最近では、Intelが開発したOpenVinoがOpenCVで使いやすい状況になってきている。 OpenVinoとは、既存のフレームワークで学習済みのモデルを、再学習させることなしに軽量化し、ターゲットデバイスでの動作速度の向上させるものです。 そのOpenVinoで軽量化したモデルをタ

                              OpenCVでOpenVinoの使い勝手が向上してきている - Qiita
                            • ビルドツールのあれこれとGolang+Bazelの導入 - voicy tech blog

                              この記事は Voicy Advent Calendar 2021 3日目の記事です。 Voicyのバックエンドエンジニアの会沢です。 突然ですが、みなさんは、ビルドツールについて興味はありますか? あまり目立たないところですが、ビルドの待ち時間は開発の効率化に大きく影響する部分の一つなので、常にキャッチアップしていきたいところです。 前職では、OpenCVやQTやffmpegなどマルチプラットフォームの大規模ライブラリのカスタムコンパイル職人をさせられたりしていたので、今回は、各種のビルドツールを軽く振り返りつつ、最近注目のBazelをgolangでビルドする方法についてまとめてみました。 ビルドツールについて プログラミング言語の仕様は、本来、標準ライブラリとコンパイラの実装に依存します。 そのため環境環境が違えば異なるソースコードを書く必要があります。 しかし、C言語、C++、Cuda

                                ビルドツールのあれこれとGolang+Bazelの導入 - voicy tech blog
                              • 印刷物からスキャンした画像の網点除去 - burroの日記

                                古い写真のデジタル化を始めたのですが、卒業アルバムなどオフセット印刷による印刷物は細かい網状の点で色を表現していて、そのままスキャンすると撮像素子やディスプレイの解像度との関係でモアレ縞が発生したりして美しくありません。フォトショップなどの市販ソフトで網点の除去処理ができるようですが、PythonでOpenCVライブラリを使って市販ソフトと同じような処理ができないか試してみました。 import os import cv2 import glob import numpy as np import PIL from scipy.ndimage.filters import median_filter from tqdm import tqdm def cv2pil(image): new_image = image.copy() if new_image.ndim == 2: pass e

                                  印刷物からスキャンした画像の網点除去 - burroの日記
                                • Re-identification という名前の追跡手法 - Qiita

                                  他の人が書いてくださっている参照記事の方が丁寧に有意義な記事になっています。 物体検出と物体追跡は、動画処理において対で必要になる技術です。 検出ができていても、フレーム間での関連付けが必要 どんなに理想的な物体検出があっても、フレームの前後で、対象物がどう関連付けられるのかという点で、物体の追跡技術は必要です。 (実際には、物体検出技術は全フレーム処理をするには重くなりがちで、処理を減らすためにも追跡を使うのが推奨されている。) 古い時代の対応付けは、とても簡単なものだった。 直前のフレームの枠と、今のフレームの枠との検出枠の重なり(IoU = Intersection over Unit) が大きい対応関係の方が、もっともらしいとする。 直前のフレームの枠と、今のフレームの枠との輝度ヒストグラムが似ている側の対応関係の方が、もっともらしいとする。 いずれにしても、フレームの前後のでの検

                                    Re-identification という名前の追跡手法 - Qiita
                                  • ネコ型ホームロボット「Maicat」をMakuakeで販売|fabcross

                                    Macroactは、ネコ型ホームロボット「Maicat(マイキャット)」をMakuakeで、日本国内での先行販売を開始した。 強化学習と適応型AI、自律モーションコントロールとSLAM技術による位置マッピング、物体検出アルゴリズムによる障害物を避けながらの移動、ロボットオペレーティングシステム(ROS)とOpenCVライブラリを使用した複雑なタスクの効率的処理、バッテリー低下時に自動的に充電ステーションに戻るセルフ充電、簡単なカスタマイズとリモートモニタリングを可能にする専用アプリ「Maicatアプリ」などの機能を持つ。

                                      ネコ型ホームロボット「Maicat」をMakuakeで販売|fabcross
                                    • 猫型のAIスマートホームロボット「Maicat」をMakuakeで先行販売開始 最大44%割引きで購入可能 - ロボスタ ロボスタ - ロボット情報WEBマガジン

                                      韓国ソウルに本社を置くAIおよびロボット工学のスタートアップ企業Macroactは、日本国内に向けて同社が開発したAIスマートホームロボット「Maicat」(マイキャット)を「Makuake」での先行販売を開始した。超早割での購入した場合、最大で44%割引の価格で購入することが可能となる。価格は税込み99,900円から。 自律型AI猫型デザインロボット Maicatはモニタリング機能と適応型コンパニオンシップを統合した自律型AI猫型ロボット。 高度なAIアルゴリズムおよびコンピュータビジョン技術により、自律的に家全体を探索。転倒や侵入者のモニタリングを行い安全性を確保する。また、緊急時には即座にアラートを送信するほか、服薬リマインドなどの日常的な管理もサポート。さらに、Maicatは周囲の環境に適応し、ユーザーにサポートを提供するインタラクティブな機能も備えている。 同社は、Maicatは

                                        猫型のAIスマートホームロボット「Maicat」をMakuakeで先行販売開始 最大44%割引きで購入可能 - ロボスタ ロボスタ - ロボット情報WEBマガジン
                                      • すぐに使える!業務で実践できる! Pythonによる AI・機械学習・深層学習アプリのつくり方(クジラ飛行机、杉山陽一、遠藤俊輔) | 書籍 | ソシム

                                        深層学習や機械学習も環境が整ってきて、誰でも気軽に試せるようになってきました。 会社のサービスやアプリケーションに機械学習を組み込んだ例も頻繁に見かけるようになっています。 本書は、Pythonプログラマーが、、本書のために作られたサンプルプログラムを利用し、実際に体験しながら機械学習を業務や作業にどう組み込んでいくかを学習する解説書です。 機械学習や深層学習の奥は深く、利用できる範囲も広大ですが、まずはどういうものかを、本書で学んでください。 ◆本書で取り扱っている技術・サンプル例など AIで美味しいワイン判定、 顔にモザイクをかける、 手書き数字を判定、 郵便番号を自動認識、動画から特定の場面を検出 文章を単語に分割。単語、意味をベクトル化、文章を分類してみよう、自動作文に挑戦、SNSへのスパム投稿を判定 写真に写った物体を認識、ニュース記事を自動でジャンル判定、料理の写真からカロリー

                                          すぐに使える!業務で実践できる! Pythonによる AI・機械学習・深層学習アプリのつくり方(クジラ飛行机、杉山陽一、遠藤俊輔) | 書籍 | ソシム
                                        • TripoSR で1枚のカラー画像から3Dメッシュモデルを作成して表示するところまで - Qiita

                                          TripoSRとは https://github.com/VAST-AI-Research/TripoSR 1枚のカラー画像を入力すると3次元メッシュモデルを作成してくれる生成AIのオープンソースなモデルの一つ この記事は github の readme に記載されている通りに実行すればうまくいくと思っていたが、自分の環境ではいろいろとエラーが出てしまったのでdocker を使うなどの脇道に入ったので、それを記録します 実行環境 docker + nvidia container GPU RTX 3060 / 6GB 環境準備 docker build 時にモデルをダウンロードして保存して置きたいと思い、build時にも nvidia のコンテナが動作するように設定を変更する。以下の記事を参考にして /etc/docker/daemon.json を修正する https://qiita.c

                                            TripoSR で1枚のカラー画像から3Dメッシュモデルを作成して表示するところまで - Qiita
                                          • 4種類の顔検出を動かしてみた [ Haar+Cascade/ HOG+SVM/ CNN/ MTCNN ] - Atom's tech blog

                                            概要 コメント 環境条件 Haar 特徴量+Cascade 識別器 による顔検出 ■ 顔検出イメージ(Haar 特徴量+Cascade 識別器) ■ ソースコード(Haar 特徴量+Cascade 識別器) Dlib(HOG特徴量+SVM識別器)による顔検出 ■ 顔検出イメージ(Dlib) ■ ソースコード(Dlib) CNN(mmod_human_face_detector.dat.bz2)による顔検出 ■ 顔検出イメージ(CNN) ■ ソースコード(CNN) MTCNN(Multi-task Cascaded Convolutional Neural Networks for Face Detection)による顔検出 ■ 顔検出イメージ(MTCNN) ■ ソースコード(MTCNN)(2020/05/03)MTCNNを追加 顔検出時間 顔検出イメージ(Haar/Dlib/CNN/MTC

                                              4種類の顔検出を動かしてみた [ Haar+Cascade/ HOG+SVM/ CNN/ MTCNN ] - Atom's tech blog
                                            • 複数の画像からパノラマを作成 (OpenCV、Python)

                                              概要 OpenCV を用いて、複数の画像から一枚のパノラマ画像を作成します。内部パラメータが分かっているカメラを位置を変えずに回転させて画像を取得していき、各画像を取得した時点でのカメラの向きをもとに画像を重ね合わせる方法と、各画像における特徴点が一致するように画像を重ね合わせる方法の二つについて記載します。 キャリブレーションされたカメラを定位置で回転させる方法 あるワールド座標系における点 $(x, y, z)$ は、カメラ座標系において、カメラの外部パラメータである変換行列 $T$ を用いて $$X = T \begin{pmatrix} x \\ y \\ z \\ 1 \end{pmatrix} $$ となります。カメラで取得した画像内において $X$ に対応する点のピクセル座標 $x$ は、カメラの内部パラメータ $K$ を用いて以下のようになります。 $$x = K X $$

                                                複数の画像からパノラマを作成 (OpenCV、Python)
                                              1