並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 18 件 / 18件

新着順 人気順

recognitionの検索結果1 - 18 件 / 18件

  • iOSで文字認識(Text Recognition)

    iOS 13以降で、待望だった「文字認識」機能が使えるようになりました。カメラなどで撮影した画像内にある文字を読み取る [1] ことができます。 iOS 9からあった「文字検出」との違い 文字認識は、Visionフレームワークの一機能として追加されました。 一方、Core ImageのCIDetectorというクラスでは、CIDetectorTypeTextというタイプを指定でき、テキストを検出することができます。 このCIDetectorTypeTextやCIFeatureTypeTextはiOS 9からあるものです。 しかしこちらは文字の「領域」を検出する機能です。何が書いてあるか、までは認識できませんでした。 そこで今まではTesseract[2]というオープンソースのOCRエンジンや、SwiftOCR[3]という(おそらく個人がメンテしている)OSSしか選択肢がなかったのですが、つ

      iOSで文字認識(Text Recognition)
    • GitHub - argmaxinc/WhisperKit: Swift native on-device speech recognition with Whisper for Apple Silicon

      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

        GitHub - argmaxinc/WhisperKit: Swift native on-device speech recognition with Whisper for Apple Silicon
      • 論文まとめ:2D/3D Pose Estimation and Action Recognition using Multitask Deep Learning - Qiita

        論文まとめ:2D/3D Pose Estimation and Action Recognition using Multitask Deep LearningMachineLearningDeepLearningCNNPoseEstimation はじめに CVPR2018 から 以下の論文 [1] D. C. Luvizon, et. al "2D/3D Pose Estimation and Action Recognition using Multitask Deep Learning", CVPR2018 のまとめ arXiv: https://arxiv.org/abs/1802.09232 著者らのコード: https://github.com/dluvizon/deephar Keras で実装されてる 現状では日本語でまとめた記事は見当たらない 概要 単眼 RGB 画像か

          論文まとめ:2D/3D Pose Estimation and Action Recognition using Multitask Deep Learning - Qiita
        • UniversalNER: Targeted Distillation from Large Language Models for Open Named Entity Recognition

          Large language models (LLMs) have demonstrated remarkable generalizability, such as understanding arbitrary entities and relations. Instruction tuning has proven effective for distilling LLMs into more cost-efficient models such as Alpaca and Vicuna. Yet such student models still trail the original LLMs by large margins in downstream applications. In this paper, we explore targeted distillation wi

          • Rite Aid Banned from Using AI Facial Recognition After FTC Says Retailer Deployed Technology without Reasonable Safeguards

            An official website of the United States government Here’s how you know The .gov means it’s official. Federal government websites often end in .gov or .mil. Before sharing sensitive information, make sure you’re on a federal government site. The site is secure. The https:// ensures that you are connecting to the official website and that any information you provide is encrypted and transmitted sec

              Rite Aid Banned from Using AI Facial Recognition After FTC Says Retailer Deployed Technology without Reasonable Safeguards
            • Automatic Content Recognition Market Size, Share 2030

              Automatic Content Recognition (ACR) Market Research Report Information By Solution (Audio, Video and Image Recognition, Voice, Real Time Content Analytics), By Service (Professional, Managed), By End User (IT & Telecommunication, Healthcare), And By Region (North America, Europe, Asia-Pacific, And Rest Of The World) –Market Forecast Till 2032. Automatic Content Recognition (ACR) Market Overview Au

              • GitHub - huggingface/distil-whisper: Distilled variant of Whisper for speech recognition. 6x faster, 50% smaller, within 1% word error rate.

                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

                  GitHub - huggingface/distil-whisper: Distilled variant of Whisper for speech recognition. 6x faster, 50% smaller, within 1% word error rate.
                • FaceCheck - Reverse Image Search - Face Recognition Search Engine

                  FaceCheck works extra hard to find and index faces of violent criminals, child rapists & molesters, sex offenders, kidnappers, abusers, murderers, hate crime perpetrators, burglars, gang members, fugitives, terrorists, online dating & romance scammers, and other fraudsters. Avoid Becoming a Victim Uncover catfish, romance scammer, or fake dating profile Avoid dating a swindler, convict, or deadbea

                  • face-api.js の「Face Expression Recognition(表情認識)」の公式デモ・利用可能なモデルの情報などを見てみた:ml5.js の FaceApi では使えない仕組みの部分 - Qiita

                    face-api.js の「Face Expression Recognition(表情認識)」の公式デモ・利用可能なモデルの情報などを見てみた:ml5.js の FaceApi では使えない仕組みの部分JavaScript機械学習p5.jsml5.jsface-api.js 前回、以下の記事を書いた際に扱った「face-api.js」の話です。 ●ml5.js の FaceApi(face-api.js の一部の機能を使える API)で扱える仕組み・モデルに関するメモ - Qiita https://qiita.com/youtoy/items/932c1868b032e3a4dfa8 その中でも、ml5.js の FaceApi では扱えない仕組みとなっていた「Face Expression Recognition(表情認識)」の情報を見ていこうと思います。 サクッと試す もし、fac

                      face-api.js の「Face Expression Recognition(表情認識)」の公式デモ・利用可能なモデルの情報などを見てみた:ml5.js の FaceApi では使えない仕組みの部分 - Qiita
                    • Amazon Comprehend(Entity recognition)を試してみた - Qiita

                      背景・目的 最近、ドキュメントからテキストマイニングからインサイトを得る事に興味があります。 そこで、Amazon Comprehend(以降、Comprehendと言います。)を使用して実践してみようと思います。 まとめ Comprehendは、自然言語処理を使用してドキュメントの内容に関するインサイトを抽出することが可能です。 エンティティ、キーフレーズ、言語、感情、その他の共通要素を認識することでインサイトを得ることが可能です。 2023/11/04時点でComprehendが提供されているリージョンは下記のとおりです。 アジアパシフィック (ムンバイ) 欧州 (ロンドン) 欧州 (アイルランド) アジアパシフィック (ソウル) アジアパシフィック (東京) カナダ (中部) アジアパシフィック (シンガポール) アジアパシフィック (シドニー) 欧州 (フランクフルト) 米国東部

                        Amazon Comprehend(Entity recognition)を試してみた - Qiita
                      • Whisper-based Real-time Speech Recognition:コードプラグイン - UE マーケットプレイス

                        説明レビュー質問Demo video: Link Documentation: Link Free Demo project (exe): Link This plugin allows you to recognize speech in 99 languages, just by adding one component to your blueprint, without relying on any separate servers or subscriptions. The machine learning model used in this plugin is based on OpenAI's Whisper, but has been optimized to run on the ONNX Runtime for best performance and to mini

                          Whisper-based Real-time Speech Recognition:コードプラグイン - UE マーケットプレイス
                        • Multiview Transformer for Video Recognitionを読んだまとめ

                          はじめに こんにちは。ZENKIGENのデータサイエンスチームに所属しております、脇山拓也と申します。 弊社は自己PR動画を解析するAI「harutaka EF」や、企業と候補者の面接を解析し、面接品質の向上をサポートするAI「harutaka IA」などのサービスを提供しており、動画データの利活用を目指しております。 その中で、DSチームでは採用/職場領域の、画像(動画)・音声・テキストデータを使い、モデル開発やデータ分析といった業務をしております。 今回は画像領域(コンピュータビジョン領域)で話題となっているVisionTransformerの派生系モデル(以下MTV)を提案している論文について紹介します。 このモデルは、viewと呼ばれる動画特徴量(video representation)を異なるサイズで並列処理することで、短時間での細かな動きや長時間かけて変化する動きを捉えやすく

                            Multiview Transformer for Video Recognitionを読んだまとめ
                          • Construction and Evaluation of a New Speech Corpus of Japanese Super-elderly Speech Recognition |情報処理学会・学会誌「情報処理」

                            Construction and Evaluation of a New Speech Corpus of Japanese Super-elderly Speech Recognition 2022年度研究会推薦博士論文速報 [音声言語情報処理研究会] 福田 芽衣子 (徳島大学 研究員) 邦訳:日本人超高齢者音声認識のための音声コーパス構築 ■キーワード 超高齢者音声コーパス(EARS)/音声認識/加齢による音響特徴量の変化 【背景】加齢による音響特徴量の変化により音声認識率が低下する 【問題】超高齢者のための音声認識モデル学習用データがない 【貢献】超高齢者音声コーパス(EARS)を収集・分析し,改善を確認した スマホやPCなどの普及によって,音声認識などの音声情報処理技術が広く普及してきている.特に近年では,深層学習(ディープラーニング)の登場によって,音声情報処理の精度が飛躍的に向

                              Construction and Evaluation of a New Speech Corpus of Japanese Super-elderly Speech Recognition |情報処理学会・学会誌「情報処理」
                            • movie chapter recognition oss github - Google 検索

                              Recognizing actors in a movie clip or image, using OpenCV, DeepLearning and Python. - divya21raj/Actor-Recognition-In-Movies.

                              • 【論文5分まとめ】AdaFace: Quality Adaptive Margin for Face Recognition

                                この記事は、論文の内容を5分くらいで読めるようにまとめた記事です。そのため、前提となる知識や関連研究に関する説明は大幅に省略しています。 基本的には筆者の備忘録ですが、面白そうと思ったら是非ご自身でも読んでみてください。 概要 顔認識の4つのデータセットでSoTAを更新したAdaFaceは、訓練サンプルの品質を反映できる適応的なマージン損失関数を提案している。 顔認識は、監視カメラなどの映像に映った顔が誰であるかを特定するタスクである。監視カメラなどの低解像度の画像などが訓練サンプルに含まれており、そのようなサンプルは訓練中にハードサンプルとなる。一方で、サングラスやマスクを使用している顔画像、あるいは特殊なアングルから撮影された顔画像もハードサンプルとなりうる。しかし、高解像度のハードサンプルと、低解像度のハードサンプルは、その難しさの質が異なっている。 下図に示すように、低品質(低解像

                                  【論文5分まとめ】AdaFace: Quality Adaptive Margin for Face Recognition
                                • face_recognition による顔のクラスタリングを行う Python プログラム(Dlib,ageitgey/face_recognition,Python を使用)(Windows 上)

                                  【サイト内の関連ページ】 説明資料: Dlib の機能概要 [PDF], [パワーポイント] 顔情報処理の Python プログラム(Dlib,face_recognition を使用) について: 別ページ »にまとめ Windows で動く人工知能関係 Pythonアプリケーション,オープンソースソフトウエア): 別ページ »にまとめている. 【用語説明】 Dlib Dlibは,数多くの機能を持つ C++ ライブラリ.機能には,機械学習,数値計算,グラフィカルモデル推論,画像処理,スレッド,通信,GUI,データ圧縮・一貫性,テスト,さまざまなユーティリティなどがある.Python API もある. 【関連する外部ページ】 ageitgey/face_recognition のページ: https://github.com/ageitgey/face_recognition 前準備 Gi

                                  • python venvの仮想環境で構築する顔認証(face_recognition)windows環境 - Qiita

                                    ■ 概要 ・Windows11。 ・pythonの仮想環境venvで構築。 ・モジュールは、opencv-python、face_recognition、configを使用。 ・外部カメラ使用(USB WEBカメラ) ・物体検知で、ディレクトリ(image_jp)内にある画像と一致したら、パスワードを入力する。 ■ 完成画面 ■ ディレクトリ構成 ./app/以下 ■仮想環境の作成と、モジュールのインストール ・仮想環境 作成 $ python -m venv venv ・仮想環境を起動して、入る。 $ /venv/SCripts\activate.bat ・モジュールのインストール $ pip install opencv-python $ pip install face_recognition $ pip install config ■ ソースコード ・main_001.py im

                                      python venvの仮想環境で構築する顔認証(face_recognition)windows環境 - Qiita
                                    • Python - 顔認識ライブラリ Face Recognition で顔認証を行う方法 - pystyle

                                      Warning: Undefined variable $position in /home/pystyles/pystyle.info/public_html/wp/wp-content/themes/lionblog/functions.php on line 4897

                                        Python - 顔認識ライブラリ Face Recognition で顔認証を行う方法 - pystyle
                                      1