  • A Visual History of Interpretation for Image Recognition

    Image recognition (i.e. classifying what object is shown in an image) is a core task in computer vision, as it enables various downstream applications (automatically tagging photos, assisting visually impaired people, etc.), and has become a standard task on which to benchmark machine learning (ML) algorithms. Deep learning (DL) algorithms have, over the past decade, emerged as the most competitiv

      A Visual History of Interpretation for Image Recognition
    • GitHub - davidsandberg/facenet: Face recognition using Tensorflow

        GitHub - davidsandberg/facenet: Face recognition using Tensorflow
      • Google、顔認証技術のPittsburgh Pattern Recognitionを買収 | ネット | マイコミジャーナル

        顔認証ソフトウェアを開発する米Pittsburgh Pattern Recognition(PittPatt)は、米Googleに買収されたことを発表した。買収金額などの詳細は明かされていない。 Pittsburgh Pattern Recognitionは、カーネギーメロン大学のロボット研究所(Robotics Institute)からスピンアウトするかたちで2004年に設立された企業。画像および映像から顔を認識し、人物を同定する技術を有する。 同社Webサイトには、Googlでは視覚系技術が画像検索、YouTube、Picasaなどの各種サービスのコア技術となっていることを挙げたうえで、「PittPattはGoogleに自然と適合する企業であり、これまでの研究成果が多くのユーザーに利益をもたらすだろう」とコメントとしている。 Pittsburgh Pattern Recognition

        • Emotient - Facial Expression Recognition Software

          Emotient is the leading authority on facial expression recognition and analysis technologies that are enabling a future of emotion aware computing. Emotient API provides software developers an industry leading, real-time expression recognition and analysis solution. Our software is based on expert research and analysis of extensive data sets that describe various real emotional states..

            Emotient - Facial Expression Recognition Software
          • GitHub - julius-speech/julius: Open-Source Large Vocabulary Continuous Speech Recognition Engine

              GitHub - julius-speech/julius: Open-Source Large Vocabulary Continuous Speech Recognition Engine
            • CS 598 LAZ: Cutting-Edge Trends in Deep Learning and Recognition

              CS 598 LAZ: Cutting-Edge Trends in Deep Learning and Recognition Instructor: Svetlana Lazebnik  (slazebni -at- illinois.edu) Lectures: T TH 12:30-1:45, 216 Siebel Instructor office hours: Tuesdays 2-3PM or by appointment, 3308 Siebel TA: Arun Mallya (amallya2 -at- illinois.edu) TA office hours: Mondays 2-3PM, Wednesdays 3-4PM, 3340 Siebel Always check announcements on Piazza for short-notice chang

                CS 598 LAZ: Cutting-Edge Trends in Deep Learning and Recognition
              • 【iOS10】Speech Recognition API(音声認識API)の制約まとめ - Qiita

                WWDC2016のSpeech Recognition APIをまとめてみました。 といっても、実装やできることなどはこちらの記事などで触れられていますので、 主に制約などを調べてみました。 インターネット接続はほぼ必須 セッションの03:30あたりで言及していますが、インターネット接続は必要です。 SiriやKeyboard Dictationと同じ技術要素を使っているので、当然といえば当然です。 ただし、except some some language and device modelsとも言っているため、オフラインでも使える端末と言語の組み合わせはあるようですが、それは明らかにされていません。 回数制限あり 09:30あたりのBest Practiceのスライドで言及していますが、以下の回数制限があるようです。 端末につき、1日あたりの回数制限が設定されている アプリについても同様

                  【iOS10】Speech Recognition API(音声認識API)の制約まとめ - Qiita
                • [PDF] Real-Time Human Pose Recognition in Parts from Single Depth Images

                  We propose a new method to quickly and accurately predict 3D positions of body joints from a single depth image, using no temporal information. We take an object recognition approach, designing an intermediate body parts representation that maps the difficult pose estimation problem into a simpler per-pixel classification problem. Our large and highly varied training dataset allows the classifier

                    [PDF] Real-Time Human Pose Recognition in Parts from Single Depth Images
                  • Speech Recognition Is Not Solved

                    Ever since Deep Learning hit the scene in speech recognition, word error rates have fallen dramatically. But despite articles you may have read, we still don’t have human-level speech recognition. Speech recognizers have many failure modes. Acknowledging these and taking steps towards solving them is critical to progress. It’s the only way to go from ASR which works for some people, most of the ti

                    • Bonusly | Fun and Smart Employee Recognition and Rewards

                      Give managers resources and insights to create high-performing teams

                        Bonusly | Fun and Smart Employee Recognition and Rewards
                      • GitHub - mudcube/MIDI.js: :musical_keyboard: Making life easy to create a MIDI-app on the web. Includes a library to program synesthesia into your app for memory recognition or for creating trippy effects. Convert soundfonts for Guitar, Bass, Drums, ect.

                        🎹 Making life easy to create a MIDI-app on the web. Includes a library to program synesthesia into your app for memory recognition or for creating trippy effects. Convert soundfonts for Guitar, Bass, Drums, ect. into code that can be read by the browser. Supports multiple simultaneous instruments and perfect timing.

                          GitHub - mudcube/MIDI.js: :musical_keyboard: Making life easy to create a MIDI-app on the web. Includes a library to program synesthesia into your app for memory recognition or for creating trippy effects. Convert soundfonts for Guitar, Bass, Drums, ect.
                        • IBM Watson の Visual Recognition(画像認識)サービスにマンホール画像を学習させる : まだプログラマーですが何か?

                          この認識結果として表示されている候補のテキスト("Tiger" や "Wild_Cat")それぞれのことを classifier(分類カテゴリ)と呼びます。Visual Recognition API にはあらかじめ複数の classifiers が学習済みで用意されており、カスタマイズする前であれば、あらかじめ学習済みの内容だけを対象に認識・識別を行います。 Visual Recognition API V2 で新たに追加された機能とは、この classifier を独自に追加できるようになる、というものです。追加の際には以下の3つの情報が必要となります: (1) 追加する classifier の名前(上記の "Tiger" や "Wild_Cat" に相当する部分) (2) 追加する classifier に分類される画像例 (3) classifier に分類されない画像例 (1)

                            IBM Watson の Visual Recognition(画像認識)サービスにマンホール画像を学習させる : まだプログラマーですが何か?
                          • Tsujii Lab. Enshu3 -- Named Entity Recognition

                            固有表現抽出 Named Entity Recognition 目次 背景 演習の流れ 参考文献 背景 大量の言語データから情報抽出を行う際の中心的な技術として固有表現抽出が知られています[1][2](デモ例1[7], デモ例2[8]).固有表現とは,組織名(会社名,団体名など),人名,地名,製品名などであり,言語データ中のどの部分が固有表現に対応しているかを解析することが固有表現抽出のタスクとなります.これらの抽出された固有表現を利用して,文の意味解析などさらに高度なアプリケーションを作ることが可能となります. 例えば,”今日は本郷で山田教授と田中さんからThinkpadの使い方を教えてもらいました.”,の文から固有表現として人名,地名,製品名を取り出す場合は,”本郷”(地名),”山田”,”田中”(人名),”Thinkpad”(製品名)が固有表現として抽出されることになります.そして,

                            • Pattern Recognition and Machine Learning - Microsoft Research

                              This leading textbook provides a comprehensive introduction to the fields of pattern recognition and machine learning. It is aimed at advanced undergraduates or first-year PhD students, as well as researchers and practitioners. No previous knowledge of pattern recognition or machine learning concepts is assumed. This is the first machine learning textbook to include a comprehensive coverage of rec

                                Pattern Recognition and Machine Learning - Microsoft Research
                              • ArcFace: Additive Angular Margin Loss for Deep Face Recognition

                                Recently, a popular line of research in face recognition is adopting margins in the well-established softmax loss function to maximize class separability. In this paper, we first introduce an Additive Angular Margin Loss (ArcFace), which not only has a clear geometric interpretation but also significantly enhances the discriminative power. Since ArcFace is susceptible to the massive label noise, w

                                • CS231n Convolutional Neural Networks for Visual Recognition

                                  Table of Contents: Setting up the data and the model Data Preprocessing Weight Initialization Batch Normalization Regularization (L2/L1/Maxnorm/Dropout) Loss functions Summary Setting up the data and the model In the previous section we introduced a model of a Neuron, which computes a dot product following a non-linearity, and Neural Networks that arrange neurons into layers. Together, these choic

                                  • Optical Character Recognition (OCR) in 34 languages - Docs Blog

                                    Optical Character Recognition (OCR) in 34 languages Monday, February 28, 2011 Labels: document list, Google Apps Blog Last June, we introduced the ability to upload documents into Google Docs using Optical Character Recognition (OCR). OCR analyzes images and PDF files, typically produced by a scanner (or the camera of a mobile phone), extracts text and some formatting and allows you to edit the do

                                    • How does Shazam work? Music Recognition Algorithms, Fingerprinting, and Processing | Toptal®

                                      How does Shazam work? Music Recognition Algorithms, Fingerprinting, and Processing You hear a familiar song in the club or the restaurant. You listened to this song a thousand times long ago, and the sentimentality of the song really touches your heart. You desperately want to heart it tomorrow, but you can’t remember its name! Fortunately, in our amazing futuristic world, you have a phone with mu

                                        How does Shazam work? Music Recognition Algorithms, Fingerprinting, and Processing | Toptal®
                                      • TensorFlow Speech Recognition Challenge | Kaggle

                                        Can you build an algorithm that understands simple speech commands?

                                        • Why It’s Been Impossible to Establish Privacy Rules for Facial Recognition Technology

                                          Why I Walked Out of Facial Recognition Negotiations Industry lobbying is shutting down Washington’s ability to protect consumer privacy. And it’s come a long way since this: A 3-D facial recognition program is demonstrated during the Biometrics 2004 exhibition and conference on Oct. 14, 2004, in London. Photo by Ian Waldie/Getty Images June 2, 2015, was a great day for privacy. June 16 was not. On

                                            Why It’s Been Impossible to Establish Privacy Rules for Facial Recognition Technology
                                          • Augmented Reality World (AR) 拡張現実の世界 Qualcomm Vuforia: Object Recognition for Toys - Vuforiaに形状認識技術が新たに追加される

                                            • STN-OCR: A single Neural Network for Text Detection and Text Recognition

                                              Detecting and recognizing text in natural scene images is a challenging, yet not completely solved task. In re- cent years several new systems that try to solve at least one of the two sub-tasks (text detection and text recognition) have been proposed. In this paper we present STN-OCR, a step towards semi-supervised neural networks for scene text recognition, that can be optimized end-to-end. In c

                                              • 未来的プレゼン。手振りでスライドを操作する·Webcam-based gesture recognition with reveal.js MOONGIFT

                                                Webcam-based gesture recognition with reveal.jsは手振りの認識をWebカムで行い、スライドを操作できるソフトウェアです。 Webカムを使って何か面白いことができないかな…そう思っている方に見て欲しいソフトウェアがWebcam-based gesture recognition with reveal.jsです(名前が決まっていないようです)。その名の通り、Webカムでジェスチャー認識を行うプレゼンテーションソフトウェアです。 スライド一覧です。 Webカムの前で手を振って操作できます。ちなみにここでは見えませんが実際にはうっすらと自分の姿が映し出されています。 スライドにはreveal.jsを使っており、そこにWebカム認識を合わせることで手振りの認識を行い、スライドを上下左右に切り替えています。認識率は悪くありませんが、ちょっと手を動かした瞬

                                                  未来的プレゼン。手振りでスライドを操作する·Webcam-based gesture recognition with reveal.js MOONGIFT
                                                • F# Implementation of BackPropagation Neural Network for Pattern Recognition(LifeGame) - Bug Catharsis

                                                  この記事は、F# Advent Calendar 2011の21日目です。 きっかけは、11月19日に札幌で行われた第64回CLR/H勉強会で、愛甲健二さん(@07c00)がお話してくれた「コンピューターに萌えを教えてみたよ」というセッションです。「アダルトサイトの検知」のメカニズムだったり、愛甲さん自身の"萌えの嗜好"をコンピューターに学習させてみるという少しアレゲなテーマでのお話しでしたが、内容はとても真面目で面白かった。見慣れない数式など、その全てを理解することはできませんでしたが、ニューラルネットワークの雰囲気や概要がわかりました。オライリーの「集合知プログラミング」でニューラルネットワークについて少し読んだことがあったり、何となく見聞きしたことはありましたが、基本的な考え方を知ったのはそのときがはじめてです。とても面白くもっと知りたいと思ったので、勉強会の後にモクモクとニューラル

                                                    F# Implementation of BackPropagation Neural Network for Pattern Recognition(LifeGame) - Bug Catharsis
                                                  • Language-Independent Named Entity Recognition (II)

                                                    Named entities are phrases that contain the names of persons, organizations, locations, times and quantities. Example: [ORG U.N. ] official [PER Ekeus ] heads for [LOC Baghdad ] . The shared task of CoNLL-2003 concerns language-independent named entity recognition. We will concentrate on four types of named entities: persons, locations, organizations and names of miscellaneous entities that do not

                                                    • Image Recognition Software, ML Image & Video Analysis - Amazon Rekognition - AWS

                                                      Quickly add pre-trained or customizable computer vision APIs to your applications without building machine learning (ML) models and infrastructure from scratch. Analyze millions of images, streaming, and stored videos within seconds, and augment human review tasks with artificial intelligence (AI).

                                                        Image Recognition Software, ML Image & Video Analysis - Amazon Rekognition - AWS
                                                      • IIIF Curation Viewer with Hentaigana Image Recognition

                                                        人文学オープンデータ共同利用センターにより公開されている「IIIF Curation Viewer」(MIT License)に、2SC1815Jにより公開されている「変体仮名の画像認識システム」Web API利用機能を組み込んだカスタム版ビューワです。 ビューワ左上の黒四角ボタンまたはsキーを押下し、変体仮名(1文字分)を選択すると、文字認識結果がダイアログ表示されます。 また、「日本古典籍データセット」(国文学研究資料館所蔵・人文学オープンデータ共同利用センター配信)をはじめとして、「国立国会図書館デジタルコレクション」など、任意のIIIF配信画像を閲覧できるように機能を拡張しています。 以下のテキストボックスにIIIF配信資料のmanifestファイルURLを入力し「閲覧」ボタンを押下すると、当該資料を閲覧できます。 (例:http://codh.rois.ac.jp/pmjt/bo

                                                        • Diversity Recognition

                                                            Diversity Recognition
                                                          • Real-time Mobile Recipe Recommendation System Using Food Ingredient Recognition

                                                            • Web Worker を使ってブラウザ上でポケモンの画像を解析したい! / Pokemon recognition from screenshots in browser using web worker

                                                              Universal な Worker を用意しだしたのは良いけれど、なんやかんやで最後 worker_threads が要らなくなって Web Worker オンリーに完全移行したまでがオチです。 社内発表タイトルは「ブラウザ上でポケモンの画像を解析したい!」です。 2020/05/11 に LINE 社内でやった GW の自由研究の成果発表 LT 大会の資料です。 社内の話は一部削除し、外部向けに数枚追記しています。 5分の中ではプロダクトの説明が精一杯だったので、SSR/SPA の技術的な話はまたどこかで。

                                                                Web Worker を使ってブラウザ上でポケモンの画像を解析したい! / Pokemon recognition from screenshots in browser using web worker
                                                              • レコード間の名寄せ(Entity Recognition/Deduplication)を省力化・自動化できるかもしれない入門~ - Qiita

                                                                レコード間の名寄せ(Entity Recognition/Deduplication)を省力化・自動化できるかもしれない入門~自然言語処理機械学習名寄せデータクレンジング Introduction 皆様、"Enitity Matching""Deduplication"したことありますか? おそらく多くのエンジニアの方は、 なんじゃいって感じになるかと思います。 しかし簡単に言えば、テーブル内・テーブル間のレコードの名寄せです。 多くの人が経験したことがあるでしょう。 一言に言うと、表記ゆれとかあっても"fuzzyにjoin/distinct"する事です。 SQLのJOINで扱えるレベルなら、簡単です。 しかし表記ゆれや誤りを考慮に入れた途端、厄介になります。 今回はそんな名寄せについて自動化・省力化するために、 まずその概要をまとめました。 Notice 概要です。各論は個別記事を追加

                                                                  レコード間の名寄せ(Entity Recognition/Deduplication)を省力化・自動化できるかもしれない入門~ - Qiita
                                                                • Deep Speech 2: End-to-End Speech Recognition in English and Mandarin

                                                                  We show that an end-to-end deep learning approach can be used to recognize either English or Mandarin Chinese speech--two vastly different languages. Because it replaces entire pipelines of hand-engineered components with neural networks, end-to-end learning allows us to handle a diverse variety of speech including noisy environments, accents and different languages. Key to our approach is our app

                                                                  • Which whale is it, anyway? Face recognition for right whales using deep learning - deepsense.ai

                                                                    Right Whale Recognition was a computer vision competition organized by the NOAA Fisheries on the Kaggle.com data science platform. Our machine learning team at deepsense.ai has finished 1st! In this post we describe our solution. The challenge The goal of the competition was to recognize individual right whales in photographs taken during aerial surveys. When visualizing the scenario, do not forge

                                                                      Which whale is it, anyway? Face recognition for right whales using deep learning - deepsense.ai
                                                                    • QoS - NBAR(Network-Based Application Recognition)とは

                                                                      ◆ NBAR(Network-Based Application Recognition)とは NBAR(ネットワークベースのアプリケーション識別)とは、Cisco IOSに組み込まれたインテリジェントな 分類エンジンのことです。NBARは、プロトコル検出、トラフィックの分類、トラフィックの統計情報の収集 を可能とすることから、NBARを利用することで、TCP/UDPのポート番号を使用したトラフィックの識別や HTTPトラフィックのURLによる識別が可能になります。つまり、NBARでは「L4 ~ L7の分類」が行えます。 ◆ NBAR - PDLM(Packet Description Language Module)とは NBARでは、PDLM機能によってIOSリリースのアップグレードやルータのリロードを行うとなく、新しい プロトコルでNBARをサポートできるようになります。つまり、PD

                                                                      • Phone number format recognition (Windows)

                                                                        Internet Explorer 11 automatically turns phone numbers into clickable links. This feature works when you have an app that can handle phone numbers, such as Skype. Here's the developer's perspective phone number detection, including the HTML elements that enable this feature by default and how to turn the feature off when necessary. Understanding phone number detection When Internet Explorer in the

                                                                          Phone number format recognition (Windows)
                                                                        • GitHub - sdkcarlos/artyom.js: A voice control - voice commands - speech recognition and speech synthesis javascript library. Create your own siri,google now or cortana with Google Chrome within your website.

                                                                          Due to abuse of users with the Speech Synthesis API (ADS, Fake system warnings), Google decided to remove the usage of the API in the browser when it's not triggered by an user gesture (click, touch etc.). This means that calling for example artyom.say("Hello") if it's not wrapped inside an user event won't work. So on every page load, the user will need to click at least once time per page to all

                                                                            GitHub - sdkcarlos/artyom.js: A voice control - voice commands - speech recognition and speech synthesis javascript library. Create your own siri,google now or cortana with Google Chrome within your website.
                                                                          • AWSLambdaFace: serverless face recognition

                                                                            TL;DR: Serverless compute platforms such as Amazon Web Services (AWS) Lambda were intended to be used for web microservices and to handle asynchronous events generated by other Amazon web services (DynamoDB, S3, SNS, etc.). However, AWS Lambda also allows users to upload arbitrary linux binaries along with their lambda functions. These binaries can be executed during a lambda invocation, effective

                                                                              • Simple Audio Recognition  |  TensorFlow

                                                                                The script will start off by downloading the Speech Commands dataset, which consists of over 105,000 WAVE audio files of people saying thirty different words. This data was collected by Google and released under a CC BY license, and you can help improve it by contributing five minutes of your own voice. The archive is over 2GB, so this part may take a while, but you should see progress logs, and o

                                                                                  Simple Audio Recognition  |  TensorFlow
                                                                                • Google Group Members to Use Facial Recognition to Identify London Rioters | TechCrunch

                                                                                  Google Group Members to Use Facial Recognition to Identify London Rioters A new Google Group called “London Riots Facial Recognition” has appeared online, in the wake of the riots that rocked the U.K. capital over the weekend. The group’s goal is to use facial recognition technologies to identify the looters who appear in online photos. The group appears to be thoughtfully considering its actions,

                                                                                    Google Group Members to Use Facial Recognition to Identify London Rioters | TechCrunch