This browser is no longer supported. Upgrade to Microsoft Edge to take advantage of the latest features, security updates, and technical support.
ARとは iPhoneで盛り上がっているアプリケーションの分野に、AR (Augmented Reality)がある。日本語だと拡張現実感と呼ばれるもので、コンピュータの様々なセンサを使って現実の世界に情報を付加するものだ。iPhoneアプリの場合、カメラで取り込んだ映像に対して、店舗の情報などをオーバーレイ表示するものが多い。 ARアプリを実現するために必要な技術を考えてみる。ざっとこれだけの要素技術があるだろう。 カメラ画像のライブプレビュー その映像へのオーバーレイ表示 表示されているものを知るための画像認識 位置情報を取得するためのGPS デバイスの傾きを知るための加速度センサ 現在向いている方位を知るための電子コンパス 3D空間の表示 ハードウェアとして必要なものと、ソフトウェアで対応しないといけないものとがある。iPhoneは、ハードウェアとしては発売当初から、カメラ、GPS、
Perlから(も)使える静止画を対象としたアニメ顔検出ライブラリです。※Ruby版もできました。 ここは主に技術的な内容について紹介するページになっています。 ライブラリの使い方や機能の紹介は Perlでアニメ顔を検出&解析するImager::AnimeFaceにあります。この記事は僕自身が書いてます。 (画像はヤスヒロさん撮影の写真) もくじ アニメ顔検出とは? Imager::AnimeFaceとは? より詳しい説明 デモ ダウンロードとインストール アニメ顔検出とは? アニメ顔検出とは、無作為に提示されたひとつの画像データの中に存在する全てのアニメ顔の位置を見つけることです。多様なアニメ顔をひとつの顔クラスとし、画像上のさまざまな領域について『顔』と『顔以外』に正確かつ高速に分類する問題になります。 多くの場合、1枚の画像には0~20個程度の顔しか存在していません。これに対して顔以外
今、スマホアプリ「SNOW」で、顔写真に動物のパーツをデコったり複数人の顔を入れ替えて、おもしろい写真へ編集することが若い女性の間で流行っています。 このアプリには、画像から顔を検出できるフェイストラッキングという技術が使われています。この技術を使うと、画像から顔のパーツの位置や大きさを特定できるようになり、静止画やアニメーションを重ねるといった演出を加えられます。 フェイストラッキングの技術は昔からありましたが、高度な画像解析の知識が必要なため導入するにはハードルの高いものでした。今回は、JavaScriptライブラリを使って、HTML5でフェイストラッキングを実現する方法を紹介します。 Webテクノロジーでフェイストラッキングに挑戦しよう Webテクノロジーで簡単にフェイストラキングを実現するには、JSライブラリ「clmtrackr」がオススメです。このライブラリでは、負荷が高いフェイ
前の記事 失敗のすすめ:ジェームズ・ダイソンのコラム 「拡張視覚メガネ」で人込みから犯人を発見:ブラジル警察 2011年4月18日 IT社会 コメント: トラックバック (0) フィードIT社会 Christina Bonnington Photo: Flickr user Marcus Vegas ブラジル警察は、数週間以内に、人込みの中にいる犯罪者を特定できる「ロボコップメガネ」のテストを開始する。映画に登場するサイボーグが持つ、分析機能のある拡張視覚だ。 「裸眼には、2人の人間は同じように見えるかもしれない」と、サンパウロの憲兵隊長であるLeandro Pavani Agostini少佐は話す。しかしこの強力なサングラスならば、個人を特定して正確に一致させるバイオメトリクスのポイント4万6000点を利用して、約45メートル先にある複数の顔を、毎秒400個の速さでスキャンすることができ
あのGoogleが1度は買収に動いたといわれる画像認識技術のRiyaが画像(イメージ)をキーにした検索サービスの開発を計画という話については、以前にブログでお伝えした通りだが、この「Like.com」という新サービスのアルファ版がついに公開された。 この話を伝えるTechCrunchの記事には「はじめての本物の画像検索("First True Visual Image Search")」と書かれているが、これは、他の「画像検索」と称する各サービスが対象となる画像に付されたメタデータの文字情報を頼りに画像を見つけ出すのに対し、Like.comではメタデータのほか画像自体の(視覚的な)類似性を手がかりに検索する、ということを意味している。 現時点では、ジュエリー、シューズ、バッグ、洋服だけが検索の対象だが、同サイトではParis HiltonやJulia Roberts、Victoria Be
Apple's thinner new iPad Pros feature an M4 chip and "tandem" OLED displays
サービス終了のお知らせ NAVERまとめは2020年9月30日をもちましてサービス終了いたしました。 約11年間、NAVERまとめをご利用・ご愛顧いただき誠にありがとうございました。
前の記事 モバイルの「真のビジネス・チャンス」とは 『iPad 2』でメガネなし・リアルタイムの3D表示を実現 2011年4月13日 IT コメント: トラックバック (0) フィードIT Christina Bonnington 米Apple社『iPad 2』(日本語版記事)などのタブレットで3D画像を実現するには、専用ディスプレーなどの特別な対応は必要がないことが分かった。フランスの研究チームが、『iPad 2』のフロントカメラを利用したディスプレーの3D化に成功したのだ。 仏グルノーブル情報学研究所の人間・コンピューター相互作用エンジニアリング研究グループ(IIHM)のチームは、iPadに搭載されたフロントカメラを活かし、巧妙な頭部追跡ソフトウェアを利用して、メガネなし・リアルタイムの3D画像を実現させた。 このシステムは「頭部連結パースペクティブ」と名付けられており、ユーザーの頭の
■ ページが見つかりません 以下の項目についてもう一度お確かめください。 ・ URLは間違っていないか (大文字小文字などの入力ミス、参照ページの記載ミスなど) ・ リンクが切れていないか (引っ越しした、削除されたなど)
Badass JavaScript - Face Detection in JavaScript via HTML5 Canvas JavaScriptとHTML5 Canvasを使って顔認識するコードがすごいです。 ccv.jsとface.jsというファイルがGitHub上で公開されていて、認識自体をJavaScriptでやってしまっているようです。 JavaScriptが高速化するにつれ、WEBはもっと高速に、サーバにも優しくなっていく流れになっていきそうですね。 GitHubでは2つのJSと1枚のHTML、1つのPHPコードが配布されています。 ccv.jsがコアで、face.jsは定義ファイルっぽいです。 画像を外部から呼び出すためのプロクシ用にphpを使っていますがphpでOpenCVを使ったりはしていないようです。 関連エントリ PHPでOpenCVなしのピュアPHPで顔認識す
この記事はOpenCV Advent Calendar 2021の 23 日目の記事です。 はじめに 3 日目の記事で紹介されているように、OpenCV 4.5.4 では新しく顔検出/顔認識の API が実装されました。この記事ではこの顔検出 API をブラウザから呼んでみることにします。ブラウザから呼び出すにあたって、先にきちんとパフォーマンスを確認して使用する解像度を決めます。更に高速化のために SIMD とマルチスレッドを使った OpenCV の Wasm バイナリを作ります。その後、実用的な環境を想定して React のフロントエンドから呼び出すようにしてみます。ついでに WebRTC で実際に加工した画像が送信できることのデモまで行います。 OpenCV.js での新機能の扱い OpenCV.js で JavaScript から呼び出せる機能はホワイトリスト形式になっており、ビル
SAO The Beginningのαテストに落選したふじもと (@masaki_fujimoto) です。当選されたかたは、無事ログアウトできるといいですね (負け惜しみ感)。 相変わらず長い前置き それはそれとして、最近ディスプレイが余った (別のフロアに1台おきっぱにしてたのを回収してきた) ので、久々にデュアルディスプレイにしてみました。で、画面がひろびろとするのはいいのですが、なんか思ったより快適じゃない感じがしまして、なんでかなぁと思ったら、隣のディスプレイを見たときにアクティブなウィンドウをスイッチするのがかったるいんですよね。一応図にしてみるとこういう感じで: それぞれ27inchで結構大きいので、基本は左側のディスプレイを正面にみておしごとしてます。で、右側にはchatを表示させてて、通知きたらそっちみて、って感じでまぁありがちな感じですね。 で、それはいいんですが、問題
どうも、まさとらん(@0310lan)です! 今回は、親指サイズの超小型ボディにLinuxを搭載し、さらにAI開発エディタやカメラなども詰め込んだ強力なカメラモジュールをご紹介します。 手持ちのパソコンにあるUSBに挿すだけですぐに起動し、専用の開発エディタを使ってAIカメラを試したりトレーニングをしたりなどが簡単にできるのが特徴です。 さらに顔認識、オブジェクト分類、トラッキング、カラー検出…など10種類以上の機能がすぐに利用できるうえ、Jupyter Notebookでモジュールを制御できるので便利です。 AIを活用したい人やIoT開発に興味がある人も含めて、ぜひ参考にしてみてください! ■「M5Stack UnitV2 AI カメラ」とは モニターやセンサー類などが全部入りの小型マイコンモジュール「M5Stack」シリーズで知られる中国のスタートアップ企業をご存知でしょうか。 同社が
当通関士講座にお越しいただきありがとうございます。 この講座では、今オススメの通信講座はもちろんのこと、 通関士合格に必要なポイントを紹介しながら、話を進めていきます。 ところで、皆さんはどうして通関士の資格を取得しようと思ったのでしょうか? 「将来通関士になり輸出入の最前線で仕事がしたい」「貿易関係の会社に就職した」 など、それぞれ思うところがあると思います。 実際に通関士の資格を元に、様々な貿易に関する仕事に従事している方はたくさんいます。 皆さんも是非、その目標を叶えてください。 ですが、その前に考えなければいけないのが、 通関士の試験に合格する事です。 いくらこうしたいと言う目標があっても、 試験に合格しなければ意味がありません。 しかも出来るだけ短期間で合格して、目標までのスタートラインに 早く経つ事が必要です。 そのために、この通関士講座があります。 この講座を読み進めていくこ
2016 - 06 - 24 ディープラーニングを使わない顔認識 最近は様々なところで ディープラーニング が使われています。 ここで書く顔認識の分野でも主流となっています。 しかし、この記事ではあえてそれを使わない方法を説明します。 というか単に ディープラーニング がうまく扱えなくて、自己流で顔認識技術を改良して言っただけですが……。 ちなみにここでは、画像中から人の顔を見つけるのが顔”検出”、その顔が誰であるかを特定するのが顔”認識”ということにしておきます。 一昔前の顔認識ではeigen face、fisher faceやLBPなどが使われていました。 これらは OpenCV に実装されているので、簡単に利用することが出来ます。 しかし実際に試してみたところ、これらは精度があまり高くない気がしました。 他に良い方法がないか探していたら、ぱろすけさんがAV女優の顔認識に関する論文を書
安価な3次元センサー、マイクロソフトKinect™の赤外線深度カメラを開発したイスラエルのPrimeSense™社は、"Natural Interaction™"(自然なインタラクション)を利用したアプケーションをオープンに育成するための開発者組織OpenNI™をスタートさせました(注:Willow Garage社も創立メンバーとなっています)。 育成努力のはじめとして、プライムセンス社は、マイクロソフトKinect™やプライムセンス社の開発キット5.0(PSDK 5.0)やその他のデバイスに用いられているRGB-Dカメラ向けのオープンソース・ドライバーを公開し、OpenNIの開発者コミュニティ向けに、ハードウェアを提供することになりました。これは、開発元からのカメラやセンサーへの直接のサポートを可能にし、商用利用されている実際の方法が提供されることになります。また、低位ドライバー(画像と
新型Kinectは力の入り具合やパンチの速さまで認識可能。日本マイクロソフトの研究開発動向説明会でその実力の一端を披露 編集部:小西利明 2014年1月27日,Microsoftの日本法人である日本マイクロソフトは,都内にて同社の研究開発動向に関する報道関係者向け説明会を開催し,同社の技術研究部門「Microsoft Research」の動向説明と,Xbox Oneに付属する新型Kinectを使った動作デモを行った。日本ではいまだ発売日さえ明らかになっていないXbox Oneだが,新型Kinectがどのような認識能力を備えているのかその一端が披露されたので,簡単にレポートしたい。 Xbox One付属の新型Kinect(左)。東京ゲームショウ2013で見た人もいるだろうが,解像度の向上や新しい赤外線センサーの搭載などにより,Xbox 360用Kinectよりもかなり大型化している。背面には
With a massive $2 billion reported investment from Google, Anthropic joins OpenAI in reaping the benefits of leadership in the artificial intelligence space, receiving immense sums from the tech giant X, formerly known as Twitter, is introducing two new tiers for its subscription offering in order to bring in additional revenue. The social media giant is adding a new Premium+ tier that costs $16 p
GimmiQが開発したiPad用電子書籍リーダー『MagicReader』は、手を使わずに読書ができるアプリ。iPad 2以降に搭載のインカメラによって顔の動きを認識し、本を選んだり、ページを送ったりできます。 例えば、読書中に左を向くと、ページを左方向にめくります。右なら、右方向へ。上を向くと、本の選択画面へ戻ります。記事冒頭のプロモーション動画を見ていただければ、イメージはよりつかめるかと思います。 最初はうまく使えず戸惑いましたが、コツをつかめばしっかりページ送りできました。■認識してもらうには「顔の近さ」がカギ 顔認識モードをオンにすると、画面上部に2つの「★」マークが表れます。★がグレーから青に変わったら「認識できている」というサイン。この状態で顔を動かせば操作できます。 顔の動きをうまく認識してもらうには、どうやら「距離」が肝心のよう。試してみると、上の写真のように両手を軽く伸
TensorFlow + Kerasが便利 ディープラーニングをするとき、TensorFlowと合わせて使うと便利で有名なのがKerasというライブラリです。Kerasの使い方に関しては、ほけきよ(id:imslotterさん)の以下記事が非常に参考になります。 なので、基本的なことは上記記事を読んでもらうとして(激しい手抜き)、今回は、手っ取り早くKerasを使うとMacやRaspberry Piで画像認識がどれだけ簡単にできてしまうのかということを紹介してみたいと思います。 MacでTensorFlow + Kerasを使った画像認識 環境設定 必要なライブラリは以下です。 Python3(Anagonda3) TensorFlow 1.4.0 Keras 2.1.2 opencv-python 3.3.0.10 Python2でも出来た記憶がありますが、以下でh5pyをインストールし
ALIENTECH DUO 3 antenna signal booster range extender for DJI/Autel/Parrot/FPV drones DJI Phantom | Phanttom 4 / Inspire 1 /2 / MATRICE 600/600PRO/
国立情報学研究所(NII)は8月6日、カメラなどによる顔認識を防ぎ、着用者のプライバシーを守るという眼鏡型装具「プライバシーバイザー」が、福井県の企業によって商品化されると発表した。地域に根ざした企業への技術協力を通じ、地場産業の振興に寄与するとしている。 可視光を反射・吸収する素材をバイザーに貼付することで目の周りの明暗の特徴をなくし、デジタルカメラなどによる顔検出を妨害するバイザー。NIIが技術協力し、眼鏡用資材を扱う総合商社・ニッセイ(福井県鯖江市)が量産する。 従来の試作品は3Dプリンタを利用した樹脂フレームだったが、量産品はチタンフレームを採用。チタンは軽くて強度が高いため、通常の眼鏡より湾曲が大きいプライバシーバイザーのフレーム形状に対応できるという。 鯖江市が実施・運営しているクラウドファンディング事業「FAAVOさばえ」を活用して製作費の一部を調達する。支援者には金額に応じ
tomoe-0.6.0をリリースしました。 tomoe-0.5.xからの変更点: 簡体字中国語辞書の追加 (Red Hatの技術者の方々の成果です。ありがとうございました) 日本語辞書の拡張(JIX 0208 第2水準のサポート) ロケールに基づいてデフォルト辞書を自動選択 ただし、現在のところjaとzh_CNのみで、それ以外のロケールで使用すると辞書が有効にならず、またオンデマンドでの辞書の変更も実装されていません。起動時にロケールをセットするようにして下さい。 $ LANG=ja uim-tomoe-gtk $ LANG=ja scim-tomoe libtomoe-gtk を tomoe-gtk に名称変更 tomoe_gtk_init() と tomoe_gtk_quit() を追加 互換性確保のためにtomoe_gtk_window_new()で自動的にtomoe_gtk_i
モダンな深層距離学習 (deep metric learning) 手法: SphereFace, CosFace, ArcFaceDeepLearningMetricLearningFaceRecognition はじめに 顔認識 (face recognition) 等の個体識別問題において、距離学習は非常に重要です。ここで個体識別問題というのは、顔認識を例に取ると下記のようなものです。 2つの顔画像ペアが与えられた際にその顔画像ペアが同一人物のものであるかを判定する1:1認証 N人の顔画像データが予め与えられた状態で、個人が特定されていない顔画像が入力された際に、その顔画像がN人のうちどれであるか、またはどれでもないかを判定する1:N認証 何故距離学習が重要かというと、クラス分類問題とは異なりクラス数が不定で各クラスに属する画像を事前に得ることができず1、クラス分類問題として解くこと
実装 検証が終わっていないモデルの使用は気をつけてください cifar10の数値感覚 現時点で97%以上ではSoTAになると思います。僕が知っている限り、最高精度は96.69%です。そろそろcifar100か別のデータセットを評価の軸にするべきかもしれません。 最近の傾向 今年はResnetファミリーの年だったと思います。特徴的な点として、深さ=精度が終わった点です。googlenetなどは昔から主張していましたが、ある程度深いと、深さよりも幅を広くしたほうが精度が上がるということが、様々な論文の結果で今年は示されました。3月くらいから、Resnetの幅を広くしたほうが良いという結果は副次的にぞろぞろ出ていて、5月23日に出たWide Residual Netowrksで決定的になったような形だと思います。幅が大事といったことが、今年はっきりした点であるように思います。 論文を俯瞰してみる
5月30日、都内でIT・Webエンジニア向け転職サイトのGeekOutが画像認識をテーマにしたイベント「GeekOutナイト」を開催した。今回、取材の機会を得たので、きゅうり農家である小池誠氏の話を紹介する。 “慣れ”が必要なきゅうりの仕分け作業 小池氏は静岡県湖西市できゅうりを栽培しており、年間出荷量は60トンを超える。家業であるきゅうり農家を継ぐ前はエンジニアとして腕を鳴らしていた。 同氏は「近年、農業は機械化されているが、まだまだ手作業に頼ることが多い。特に、きゅうりやピーマン、トマトをはじめとした果菜類は機械化および大規模化が難しいため作業時間が長い」と指摘する。 きゅうり農家の小池誠氏 農林水産省によると、きゅうり栽培における作業別労働時間は収穫作業が全体の39.8%、次いで仕分けなどの出荷作業が22.1%を占める。同氏は、長さ・太さ・曲がり具合・色・ツヤを人間が目視で確認し、9
どうも、まさとらん(@0310lan)です! 今回は、人工知能を活用した高度な画像解析を、簡単なJavaScriptコードで実現できるWebサービスをご紹介します! 画像に写っている「顔」を認識させて、その人物の「感情」を読み取ったり、顔の座標データを取得するようなことが簡単にできるのでオススメです。 【 Kairos 】 ■「Kairos」の使い方! それでは、実際に「Kairos」を使いながら、どのような画像解析ができるのかを見ていきましょう! まず最初に、以下のリンクからユーザー登録を済ませておきます。 【 ユーザー登録ページ|Kairos 】 メルアドやパスワードなどを登録するだけで、誰でも利用可能です。(登録したメルアドにリンクが送られてくるので、それをクリックしてログインします) ログインしたら、自分専用の「ダッシュボード」が表示されます。 画面下に、「App ID」と「Key
リアルタイムに物体検出するのってどうやるんだろう?と思い調べてみたら、想像以上に高機能なモデルが公開されていたので試してみました。こんな感じです。 自動運転で良く見るようなリアルタイムの物体認識をしています。このモデルは「Single Shot MultiBox Detector(SSD)」という深層学習モデルで、Kerasで動いています。 環境さえ整えればレポジトリをクローンして簡単に実行できます。今回はデモの実行方法をまとめてみます。 環境 ちょっと古いiMacにUbuntu16.04を入れたものを使いました。詳しくはこのへんとかこのへんをご参照ください。 深層学習を利用したリアルタイムの物体検出は次々と新しい技術が公開されているようです。ざっと調べたところ、R-CNN、Fast R-CNN、Faster R-CNN…。どれだけ早くなるねん。って感じですが、とにかくどんどん早くなってい
TwitterやQiitaで話題になっていたので、けものフレンズを見た。 良かった。中でも、パークガイドロボットのボス(ラッキービースト)が良かった。ボスのポンコツ具合がとても良かった。 ボスは、アニメの中の描写を見る限り、いわゆる汎用人工知能と呼ばれるタイプのAIで、他の登場人物たちと自然に会話をしたり、「楽しかった」などの感情らしき表現を持ち合わせていることを考えると、相当高度な技術によって構成されていると考えられる。そして、パークガイドとしてジャパリバスを運転したり、動物の説明をしたり、天候をみて出発延期を提言したり、セルリアンとの戦いの中では自らを犠牲にして作戦を決行してフレンズを守るなど、その働きぶりはなかなかに有能である。 一方で、想定外の事態に陥ると容易にフリーズしたり、最終話でカバンの演技に簡単に騙されてしまうような、不完全な部分も持ち合わせているのだが、その様子がいかにも
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く