■Xに投稿された誤認識の事例具体的なXの投稿は以下の通りだ。「コイツ100均の看板を道路標識と勘違いしてるwww」といった投稿だ。確かにセリアの看板にある100の数字を最高制限速度100キロの標識と誤認識しているようだ。 コイツ100均の看板を道路標識と勘違いしてるwww pic.twitter.com/Lh8gLsLfyD — CUE (@CueHhon) July 17, 2023
2023年7月12日に、国立国会図書館(NDL)が、OCR処理プログラム「NDLOCR」のver.2を、NDLラボ公式GitHubで公開しました。 NDLOCRは、NDLがデジタル化した資料から、全文テキストデータを作成することを目的に開発したものです。 2023年4月に公開したver.1が、全文検索用途が主目的の開発であるのに対し、ver.2は、視覚障害者等の読み上げ用途にも利用できるよう、読み上げ順序の推定等の機能の追加や文字認識性能の改善を行っています。 また、ver.2には、2022年度にNDLが外部委託して開発したver.2.0と、2023年4月~6月にNDLが改善作業を実施したver.2.1があります。 NDLOCR ver.2の公開について(NDLラボ, 2023/7/12) https://lab.ndl.go.jp/news/2023/2023-07-12/ NDLOCR
こんにちは。データサイエンスチームのtmtkです。 この記事では、可分なカーネルによる畳み込みと計算量の説明をします。 畳み込みとは はじめに畳み込みを復習します。 機械学習において、畳み込みとは以下のような処理です。いま、入力が2次元の場合を考えることにします。畳み込みカーネルをとするとき、入力に対するカーネルによる畳み込みは、に対して で定義されます。 畳み込みは、古典的な画像処理や最近流行りのディープラーニングでも用いられています。画像認識の本やディープラーニングの本に詳しいことが書かれています。 Pythonで書く畳み込み処理 Pythonで実際に畳み込み処理を書いてみます。コンピュータで処理するため、入力とカーネルは0-originなindexを持つとします。つまり、行列として表示すると となります。 いま、入力のサイズを、カーネルのサイズを、入力データを、カーネルをとします。
Motivation FCNN: Fourier Convolutional Neural Networks(http://ecmlpkdd2017.ijs.si/papers/paperID11.pdf )を読んでconvolutionをフーリエドメインで行うことに興味が湧いたのでnumpyで実際に挙動を確認してみました. 空間ドメインでconvolutionをnaiveに実装すると4重ループが出てきてこの計算は結構しんどいのですが, この演算をフーリエドメインで行うとただの要素積になります(スカラーなら通常の積, 行列はアダマール積). フーリエ変換&逆変換は線形変換なので結局ループ計算は出てくるのですが、対称性のある行列積なので、高速な計算方法が知られており、空間ドメインでのconvolutionの計算のループより高速に動作します. そこで、入力と畳み込みカーネルを共にフーリエ変換し
はじめに 身のまわりの顔認識 スマホアプリ SNOW は、カメラで顔を認識して顔にスタンプ画像を貼り付けたり、顔を変形させたり、他の人と顔を交換したりと、不思議な体験ができて人気です(iOS 用/Android 用)。スマホのカメラアプリやデジタルカメラには、顔を認識してピントを合わせたり、笑顔でシャッターを切る機能がついています。パソコンには、パスワードなしにログインできる顔認証機能が付いているものもあります。顔からユーザの年令や性別を判別する自動販売機もあります。運転手が居眠りやよそ見をしていたら警報を鳴らす装置が付いている自動車もあります。ロボットの Pepper はユーザの顔や表情を見ながら対話しています。 顔認識の方法 コンピュータでカメラの映像や画像から顔を認識する方法はいくつもありますが、基本は同じです。まず画像の中から「顔っぽい」部分を探します。顔っぽい部分が見つかったらさ
みんな大好きImageMagickは、入力画像のデフォルトの色空間はsRGBだとみなす一方、各種の画像加工のオペレータは対象となるデータの色空間がRGBであることを前提としている。したがって、色空間を明示的に変換しないで処理を行うと結果がおかしなことになるのだ。本家の記事にも書いてあるが、たとえリサイズであっても色空間の影響を受けてしまう。 リサイズを「convert old.jpg -resize 400x300 new.jpg」とかやるように書いているサイトが多い。それも間違いではないが、最適ではない。これからは「convert old.jpg -colorspace rgb -resize 400x300 new.jpg」ってやってほしい。 人間の視覚の特性として、暗いところの輝度の差には敏感だが、明るいところの輝度の差には鈍感だというのがある。暗い部屋で豆電球を点けると明るさが分か
モントリオール大学とMIT、トレースエラーなしにベクトル画像を自動生成するアルゴリズムを発表 2018-09-13 モントリオール大と学MITの研究者らは、ラスタ画像をトレースエラーなしにベクトル画像に自動変換するアルゴリズムを発表しました。 論文:Vectorization of Line Drawings via PolyVector Fields 著者:Mikhail Bessmeltsev, Justin Solomon 左:入力画像。右:本提案手法の出力結果。Credit:©Ivan Huska ロゴやイラスト、コンピュータグラフィックスなどにおいて、ベクトル形式は画像を劣化させることなく(同じ解像度を維持したまま)拡大縮小ができるので重宝されますが、自動ベクトル変換ツール等を使用すると、一部トレースエラーが発生し手動の修正が必要なのが現状です。 主な原因は、線と線が交わる交点の
最近、引越しをしたWebエンジニアの本間です。 引越しの作業は大変面倒でしたが、新しい街に来た時のワクワク感がやっぱりいいなーと感じております。 さて、弊社のサービスである「写真サービス るくみー」では、毎日たくさんの写真をアップロードしていただいているのですが、中には内容がほとんど同じ写真が入ってしまうことがあります。 これらの写真がそのまま販売されてしまうと、写真を選ぶ際に邪魔になったり、間違って複数枚購入してしまうことがあるため、可能な限り避けたい事象です。 「同じ内容」の写真を自動で判別する方法がないか調査していたところ「Perceptual Hash」という手法を見つけました。 Pythonでの画像処理の勉強も兼ねて、今回この手法を紹介してみようと思います。 Perceptual Hashとは ハッシュ値は、「あるデータをハッシュ関数に入れて得られる値」で「同じデータからは常に同
画像の類似度を計算する方法を調査していたところ、面白い手法を紹介している方がいたので、この場でシェアしたいと思います。 この手法は「Perceptual Hash」という、「比較可能なハッシュ」を生成するための一手法です。 一般的にMD5やSHA1などのハッシュ値は、1バイトでもデータが違えば、まったく違うハッシュ値を返してきますが、「Perceptual Hash」は似たようなデータには似たようなハッシュ値を返してきます。 元ネタのブログによれば、これから紹介する手法のことを、ブログのオーナーであるDr. Neal Krawetzさんは「Average Hash」と呼んでいるようです。 元ネタのブログ記事は、以下のリンクからたどることができます。 Looks Like It – The Hacker Factor Blog いたってシンプルな手法ではありますが、例えば高速で「それなりの精
P2VJ を公開してから1年以上経ったので、ラスター画像からベクター画像を作成するアルゴリズムの解説など 例なのでちょっと嘘が入っていますが、おおむねこんな感じで実現できます。 まずこのようなラスター画像があったとします。 多くのグラフィックスソフトウェアでは、3次のベジェ曲線が採用されています。数式で書くとこのようになります。 p = P0*(1-t)^3+3*P1*(1-t)^2*t+3*P2*(1-t)*t^2+P3*t^3; ...(1) 2次元画像のベジェ曲線を実現する場合、X 座標と Y 座標それぞれについて計算する必要があります t は、0 以上 1 以下の実数で、ベジェ曲線は t を 0 から 1 まで動かして得られた点 p を直線で繋いだものとして表されます。 このあたりの考え方は武蔵フォント武蔵システムさんのサイトを参考にさせていただきました。 http://opent
A free, online book for when you really need to know how to do Bézier things. Read this in your own language: English 日本語 (24%) 中文 (37%) Русский (24%) Українська (2%) 한국어 (9%) (Don't see your language listed, or want to see it reach 100%? Help translate this content!) Welcome to the Primer on Bezier Curves. This is a free website/ebook dealing with both the maths and programming aspects of Bezier
Over the past few years, there has been an increased interest in automatic facial behavior analysis and understanding. We present OpenFace – a tool intended for computer vision and machine learning researchers, affective computing community and people interested in building interactive applications based on facial behavior analysis. OpenFace is the first toolkit capable of facial landmark detection
ザリガニに挟まれて持ち上げられるなんてことがたまにあると思いますが、そんな時どれだけ激しい動きだったのか解析したい!なんてこともあるんじゃないでしょうか。 出典: ASIAN KUNG-FU GENERATION 『君の街まで』 (ソルファ リメイク記念) そうした(?)、画像間の動きを表現したものがOptical Flowです。Optical Flowは、2つの画像間で各点がどう動いたのかを表現します。これを計算することで、↑の図のように画像上の特徴点の動きを解析したりすることが可能になります。 本稿では、そのOptical Flowを計算するための理論的な背景と、Python/OpenCVを使った実装までを紹介していきたいと思います。 Optical Flowの位置づけ 画像間の動きの解析については、様々な目的とそれを実現する手法があります。ここでは、まずOptical Flowがその
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く