【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)

2010年11月03日 Web上の膨大な画像に基づく自動カラリゼーション Tweet 以前『Web上の膨大な画像に基づく自動画像補完技術の威力』において、Web上の膨大な画像から欠損部分を自動的に補完する手法*1について紹介した(図1)。 図1:Scene Completion Using Millions of Photographs これは、Flickr等から大量にかき集めてきた画像から類似度の高い画像を自動的に抽出し、欠損部分にハメ込むことで違和感の無い補完画像を生成するアプローチであり、そのアイデアと、生成される補完画像のクオリティが話題になった。素材の量が質に変化する、まさにWeb時代に適したアプローチである。 本エントリでは同様の手法を用いて、失われた色を取り戻すカラリゼーション(colorization)について紹介したい。カラリゼーションとはコンピュータを用いたモノクロ画像
3日で作る高速特定物体認識システム (1) 物体認識とは(2009/10/18)の続きです。 今回は、画像からSIFT (Scale-Invariant Feature Transform) という局所特徴量を抽出するところを作ってみようと思います。 SIFT特徴量の抽出 まずは、局所特徴量の代表ともいえるSIFTを試してみます。OpenCVにはSIFTを抽出する関数がなかったのでRob Hess氏がC言語で実装したライブラリを試してみます。内部でOpenCVを使っているので事前にOpenCVのインストールが必要です。実装はOpenCV 1.1でされているみたいですが、2.0でもちょっと手直しすると動きました。Rob Hess氏のホームページからSIFT Feature Detectorのzip版を落とします。 (注)Hess氏のサイトが更新されたようで現在はGitHub上のOpenSIF
C++版のOpenCVを使ってカラーヒストグラムを用いた類似画像検索を実験してみました。バッチ処理などのスクリプトはPythonを使ってますが、PerlでもRubyでも似たような感じでできます。 指定した画像と類似した画像を検索するシステムは類似画像検索システムと言います。GoogleやYahoo!のイメージ検索は、クエリにキーワードを入れてキーワードに関連した画像を検索しますが、類似画像検索ではクエリに画像を与えるのが特徴的です。この分野は、Content-Based Image Retrieval (CBIR)と呼ばれており、最新のサーベイ論文(Datta,2008)を読むと1990年代前半とけっこう昔から研究されてます。 最新の手法では、色、形状、テクスチャ、特徴点などさまざまな特徴量を用いて類似度を判定するそうですが、今回は、もっとも簡単な「色」を用いた類似画像検索を実験してみます
【目次】 0.C言語基礎 0-1.本当の基礎 0-2.配列とポインタ 0-3.文字列操作・ファイル操作 1.画像基礎 1-1.画像フォーマット 1-2.テキストとバイナリ 1-3.配列とポインタ 2.画像処理基礎 2-1.エッジ処理 2-2.背景差分処理 3.グラフ描画基礎 3-1.gunplot 3-2.折れ線グラフ 3-3.ヒストグラム表示 4.アルゴリズム基礎 4-1.k-平均アルゴリズム 4-2.EMアルゴリズム 5.画像表示基礎 5-1.OpenGL 5-2.OpenGLによる二次元表示 5-3.OpenGLによる三次元表示 はじめに これから画像処理・認識の研究を始めようという人を対象とした入門書を作っています.対象は研究室に配属されたばかりの情報系大学の4年生を想定していますが,誰が読んでも分かるように心がけているつもりです.読み進めながら課題を解いていくうちに画像の基礎知識
類似画像検索に関する情報 目的 優れた画像類似検索エンジンを探しています。この手のものは今後重要性を増していくと思うのですが、現在のところ自由に使え、実用的、優れたものを見たことがありません。もし見つかればそれを使うつもりですが、無ければ自分で作ってみようと思っています。もしうまくいけばオープンソースとして公開したいな、と思っています。(画像処理の勉強にもなるし:-) 現在進行中 imgSeekが使いものになりそうなので、現在そのソースコードの一部を使用して、Windowsのコマンドラインで動作するものを作成中! ソフト 画像処理関連のソフトの一覧 ImageMagick 今ではWindows版もある。ImageMagickのわかりやすい紹介 imgSeek 画像管理・Viewer。類似画像検索には multi-resolution wavelet decomposition を使っている
この章では、現在のデータ圧縮・画像圧縮などで広く用いられているLZ法について説明します。 前章までで説明したハフマン圧縮では、個々のデータをハフマン符号に変換して圧縮を試みるというものでしたが、LZ法では、あるデータ列に着目して、それが以前に出現したことがあるかをチェックし、すでに出現したことがあるのならば、そのデータ列を示す何らかの符号(当然、データ列より短くなければなりません)に置き換える処理を行うことにより、圧縮を行っています。 LZ法には、いくつかの種類があり、その種類によってさらに名称が変わります。しかし、その違いは符号化の方法だけで、処理の内容については全て同じです。 LZ法は、Abraham LempelとJacob Zivの二人による共同開発によって、1977年に誕生しました。正式名称はZiv-Lempel codingですが、間違ってLZ法として紹介したことから、現在の
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く