並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 7587件

新着順 人気順

computer_visionの検索結果161 - 200 件 / 7587件

  • コンピュータ・ビジョンの業界動向 | gihyo.jp

    あけましておめでとうございます。以前このgihyo.jpで「OpenCVで学ぶ画像認識」というタイトルで連載をさせていただいた皆川です。 今回、技術評論社様から「コンピュータ・ビジョンの今」についての執筆依頼をいただきました。私が普段ウォッチしている業界や技術分野には偏りがあるため、俯瞰的な形での解説は難しいかもしれませんが、私の独断と偏見で最近の動向についてまとめてみたいと思います。 ここでは、主に以下の3点について述べさせていただければと思います。 ビジネスでの動向 アカデミックでの動向 コミュニティでの動向 「コンピュータ・ビジョンってなに?」という方は、「⁠OpenCVで学ぶ画像認識」の第1回をお読みください。 ビジネスでの動向 拡張現実感(AR) 昨年、IT業界で間違いなく一つの流行語となったのは“⁠拡張現実感(AR: Augmented Reality)⁠”でしょう。ARは現実

      コンピュータ・ビジョンの業界動向 | gihyo.jp
    • Python 科学技術関連のパッケージ一覧 | トライフィールズ

      PyPIで公開されているパッケージのうち、科学技術関連のパッケージの一覧をご紹介します。 具体的には、次のフィルターによりパッケージを抽出しました。 Intended Audience :: Science/Research Topic :: Scientific/Engineering 英語での説明文をgoogle翻訳を使用させていただき機械的に翻訳したものを追加しております。 パッケージを探す参考にしていただければ幸いです。 パッケージ確認日:2024/06/01 パッケージ数:7085 a2pm(1.2.0) Adaptative Perturbation Pattern Method 適応的摂動パターン法 aaanalysis(0.1.5) Python framework for interpretable protein prediction 解釈可能なタンパク質予測のためのP

      • 最近の画像認識の実力~MS の最先端の研究成果 Computer Vision API を Python で使ってみた - Qiita

        最近、Computer Vision API を触っていて使い方を把握できてきたと共に、予想以上の性能の高さに驚いたのでせっかくだからまとめてみることにしました。 Computer Vision API とはそもそも何なのか、なぜすごいのか、実際使ってみるとどれほどの実力を叩きだすのかをご紹介した後、コードもお見せしたいと思います。 この記事を通して、コードを数行書くだけで手軽にこんなにパワフルな画像認識機能が使えるんだということが伝わり、ぜひ試していただけたらと思います。 そもそも、Computer Vision APIって何? Microsoft が出している、REST で画像を投げると JSON 形式で画像を分析した結果を返してくれる API サービスのことです。 画像に写っている物体を認識しタグを出力するのはもちろん、画像上の物体の状態や状況を動詞や形容詞でタグとして出力してくれま

          最近の画像認識の実力~MS の最先端の研究成果 Computer Vision API を Python で使ってみた - Qiita
        • 簡単、OpenCV+Javaで「顔認識プログラム」を作ってみよう! - レベルエンター山本大のブログ

          OpenCVで顔認識をするのが、いろんな言語で流行ってるけど、Javaでやってるのはあんまり見かけません。 と言うことで顔の部分を認識して四角で囲むってのをやってみます。 出来上がりはこんな感じ。 ハマったところはあったけど、出来上がってみると簡単。 OpenCVとは まずOpenCVをしらない人のために簡単に説明。 OpenCV(おーぷんしーぶい)とはインテルが開発・公開しているオープンソースのコンピュータビジョン向けライブラリ。 http://ja.wikipedia.org/wiki/OpenCV ただし、提供されているのはC++のライブラリなのでJavaなどから利用するのはちょっと手間です。 以下のサイトで、Javaから利用できるOpenCVのブリッジライブラリが提供されているのでここを参考にしてサンプルを作ってみます。 ただし、現時点ではまだOpenCVのすべての機能を、このライ

            簡単、OpenCV+Javaで「顔認識プログラム」を作ってみよう! - レベルエンター山本大のブログ
          • openFrameworks – addon を使う 3 : OpenCVを利用した映像認識

            今回は、OpenCVという映像解析の技術を応用して、ライブ映像を用いたインタラクティブな表現に挑戦します。 「OpenCV」とは、「Open Computer Vision Library」の略で、オープンソースでコンピュータビジョンの技術を利用可能なライブラリです。米Intel社で開発され、画像処理・画像認識用のC/C++言語のライブラリとして配布されています。商用・非商用を問わず無料で使用することが可能です(BSDライセンス)。 OpenCVのコアとなる技術「コンピュータビジョン」とは、ひとことで言うと「ロボットの目」を作るという研究分野です。「コンピュータビジョン」の実現のために、画像のセンシングのためのハードウェアの研究から情報を認識するための人工知能の研究まで、広範囲な分野の研究が行われています。 OpenCVは、この「コンピュータビジョン」の研究の中でソフトウェアを用いて画像処

              openFrameworks – addon を使う 3 : OpenCVを利用した映像認識
            • OPENCV \ library

              Processing and Java Library OpenCV is an open source computer vision library originally developed by Intel. It is free for commercial and research use under a BSD license. The library is cross-platform, and runs on Mac OS X, Windows and Linux. It focuses mainly towards real-time image processing, as such, if it finds Intel's Integrated Performance Primitives on the system, it will use these commer

              • Resource for Computer Graphics - Ke-Sen Huang's Home Page

                I got my Ph. D from the Department of Computer Science of National Tsing-Hua University, Taiwan. My research interests include: animation synthesis, animation summarization, and motion retrieval. My Web Changelog Paper Collection / Resources Open Access to ACM SIGGRAPH-Sponsored Content: For both SIGGRAPH and SIGGRAPH Asia, conference content is freely accessible in the ACM Digital Library for a o

                • DERiVE - DERiVEはコンピュータビジョン(Computer Vision)に関するブログです。コンピュータビジョンとは、画像動画を使った人間の視覚をコンピュータで再現する技術全般を指す

                  1. When you know that somebody is attempting to hurt you, the primary thing you should state is “Stop”. Allow me to sit unbothered. Try not to contact me.“ You need to state this in an uproarious, commanding way. View your face that matches the steadiness in your voice. You can rehearse this before the mirror at home, yet you might need to ensure no one is around so they don’t start to scrutinize

                    DERiVE - DERiVEはコンピュータビジョン(Computer Vision)に関するブログです。コンピュータビジョンとは、画像動画を使った人間の視覚をコンピュータで再現する技術全般を指す
                  • code.flickr.com

                    Last week the world celebrated Safer Internet Day, a day used to call upon stakeholders to join together to make the internet a safer and better place for all, and especially for children and young people. Here at Flickr, we believe in creating spaces on the internet that take into account the safety of all of our contributors, especially our youngest and most underrepresented. So, to celebrate th

                    • 大規模言語モデルのFine-tuningによるドメイン知識獲得の検討 - Preferred Networks Research & Development

                      本記事は、2023年夏季インターンシッププログラムで勤務された竹田悠哉さんによる寄稿です。 はじめに 2023年度のPFN夏季インターンに参加した、東京大学大学院工学系研究科の竹田悠哉と申します。学部では画像生成の研究をしていましたが、技術の社会実装をより俯瞰的に学びたいと思い、現在は技術経営戦略学専攻で教育工学の研究をしています。 インターンでは「機械学習技術の社会実装」をテーマに、LLM(Large Language Model)にドメイン知識を習得させることに取り組みました。様々な設定において、主に英語で学習されたモデルであるLLaMA2に対して日本語のデータでのFine-tuningを行い、LoRAやInstruction Tuning、ドメイン知識の習得に関する知見を得ることができたと思います。本記事では、そこで利用した技術の紹介と、日本語におけるドメイン知識の習得に関する実験、

                        大規模言語モデルのFine-tuningによるドメイン知識獲得の検討 - Preferred Networks Research & Development
                      • Python案件のイマがわかる!知って見つかる最適案件

                        インターネット上にあるサイトは様々なプログラミング言語と組み合わせられて作られています。従来は言語としてJavaやPerl、PHPなどが使われていましたが、最近はRubyやPython、Scalaなどの言語を使用したWEBサービスも増え、大きな注目を集めています。 今回はその中でも、GoogleやFacebookなど数々の大手海外ウェブサービスに採用されているPythonにおけるフリーランス案件について紹介します。データ分析や人工知能にも活用される言語ですので、そちらに興味のある方も必見です。 なお、本記事はフリーランスのエンジニアに案件を紹介するサービス「ポテパンフリーランス」がお届けしています。 いますぐにPython案件を探したい!今後、Python案件に参画することを考えている!という方はお気軽に下記からお気軽に登録してください。すぐに、ポテパンフリーランスの担当エージェントからメ

                          Python案件のイマがわかる!知って見つかる最適案件
                        • CS231n Convolutional Neural Networks for Visual Recognition

                          Table of Contents: Architecture Overview ConvNet Layers Convolutional Layer Pooling Layer Normalization Layer Fully-Connected Layer Converting Fully-Connected Layers to Convolutional Layers ConvNet Architectures Layer Patterns Layer Sizing Patterns Case Studies (LeNet / AlexNet / ZFNet / GoogLeNet / VGGNet) Computational Considerations Additional References Convolutional Neural Networks (CNNs / Co

                          • Face Detection in JavaScript via HTML5 Canvas

                            Badass JavaScriptA showcase of awesome JavaScript that pushes the boundaries of what's possible on the web, by @devongovett. You have probably seen face detection at work in programs like iPhoto and Picasa, but what if you could do that performantly in JavaScript?  Chinese developer Liu Liu has done the honors, and implemented the algorithm using the canvas element. The algorithm is implemented on

                              Face Detection in JavaScript via HTML5 Canvas
                            • Georg Klein Home Page

                              Introduction From Oct 2005 to August 2009 I was a post-doctoral research assistant in the Active Vision Group of the Oxford University Engineering Department. I worked under the supervision of Prof. David Murray. I was formerly a PhD student at the Machine Intelligence Laboratory of the Cambridge University Engineering Department, under the supervision of Dr. Tom Drummond. Originally from Austria,

                              • Recommending music on Spotify with deep learning

                                This summer, I’m interning at Spotify in New York City, where I’m working on content-based music recommendation using convolutional neural networks. In this post, I’ll explain my approach and show some preliminary results. Overview This is going to be a long post, so here’s an overview of the different sections. If you want to skip ahead, just click the section title to go there. Collaborative fil

                                  Recommending music on Spotify with deep learning
                                • 深層学習のセキュリティ課題と論文まとめ - Qiita

                                  最終更新 2021/11/24 本質的な内容は変化していないものの,最新の研究動向に対して本記事で取り上げた論文はかなり古くなっているので注意してください. 本記事より良くまとめられているオープンアクセスの日本語文献があるので,そちらを参照するほうがよいと思います. 深層学習技術のセキュリティ課題についてはこちら 森川 郁也(富士通株式会社), "機械学習セキュリティ研究のフロンティア" 電子情報通信学会 基礎・境界ソサイエティ Fundamentals Review, Vol.15 No.1, 2021 https://www.jstage.jst.go.jp/article/essfr/15/1/15_37/_article/-char/ja 深層学習技術のハードウェアセキュリティ課題についてはこちら 吉田 康太, 藤野 毅(立命館大学), "エッジAIデバイスのハードウェアセキュリテ

                                    深層学習のセキュリティ課題と論文まとめ - Qiita
                                  • Artificial Intelligence: A Modern Approach, 4th US ed.

                                    Artificial Intelligence: A Modern Approach, 4th US ed. by Stuart Russell and Peter Norvig The authoritative, most-used AI textbook, adopted by over 1500 schools. Table of Contents for the US Edition (or see the Global Edition) Preface (pdf); Contents with subsections I Artificial Intelligence 1 Introduction ... 1 2 Intelligent Agents ... 36 II Problem-solving 3 Solving Problems by Searching ... 63

                                    • グラフってこんなにすごい!深層学習との融合をレビュー

                                      3つの要点 ✔️ GNNの表現力の強さから、急速にアプリケーションが進んでいる。 ✔️ GNNの柔軟かつ複雑な構造への、従来深層学習手法の展開についてのレビュー ✔️ 一方で、深層学習に共通、グラフに固有の課題も継続中 Graph Neural Networks: A Review of Methods and Applications written by Jie Zhou, Ganqu Cui, Shengding Hu, Zhengyan Zhang, Cheng Yang, Zhiyuan Liu, Lifeng Wang, Changcheng Li, Maosong Sun (Submitted on 20 Dec 2018 (v1), last revised 9 Apr 2021 (this version, v5)) Comments: Published on AI O

                                        グラフってこんなにすごい!深層学習との融合をレビュー
                                      • パラメータ数を激減させる新しい畳み込み「MixConv」解説!

                                        3つの要点 その1  パラメータ数を激減させる新しい畳み込みMixConvを提案 その2  MixConv層を含んだモデルをAIに自動生成(=NAS)させることでMixNetを開発 その3  MixNetはMobileNet-V3やMnasNetなどの小型画像認識モデルのみならずResNet-153に対してはパラメータ数1/9程度で性能を凌いだ MixConv: Mixed Depthwise Convolutional Kernels written by Mingxing Tan, Quoc V. Le (Submitted on 22 Jul 2019 (v1), last revised 1 Dec 2019 (this version, v3)) Journal reference: BMVC 2019 Subjects: Computer Vision and Pattern

                                          パラメータ数を激減させる新しい畳み込み「MixConv」解説!
                                        • カルバック・ライブラー情報量 - Wikipedia

                                          カルバック・ライブラー情報量(カルバック・ライブラーじょうほうりょう、英: Kullback–Leibler divergence)は2つの確率分布の差異を計る尺度である。 確率論と情報理論で利用され様々な呼び名がある。以下はその一例である: カルバック・ライブラー・ダイバージェンス(KLダイバージェンス) 情報ダイバージェンス(英: information divergence) 情報利得(英: information gain) 相対エントロピー(英: relative entropy) カルバック・ライブラー距離 ただしこの計量は距離の公理を満たさないので、数学的な意味での距離ではない。 応用上は、「真の」確率分布 P とそれ以外の任意の確率分布 Q に対するカルバック・ライブラー情報量が計算される事が多い。たとえば P はデータ、観測値、正確に計算で求められた確率分布などを表し、Q

                                          • 画像認識システムの落とし穴となる「ExifのOrientation属性」とは?

                                            通常、デジタルカメラで撮影した画像データには、撮影したカメラの機種や撮影条件、画像の向きなどの情報がExif(Exchangeable image file)という形式のメタデータで埋め込まれます。このExifが「画像処理をスムーズに行うための足かせになっている」と、機械学習エンジニアのAdam Geitgey氏が解説しています。 The dumb reason your fancy Computer Vision app isn’t working: Exif Orientation https://medium.com/@ageitgey/the-dumb-reason-your-fancy-computer-vision-app-isnt-working-exif-orientation-73166c7d39da デジタルカメラやスマートフォンで撮影すると、カメラを縦に構えたか横に構

                                              画像認識システムの落とし穴となる「ExifのOrientation属性」とは?
                                            • ChatGPTによって世の中の「AI」の理解がすすんだ - きしだのHatena

                                              もうなんかどこもかしこもChatGPT、という感じで流行ってますね。といいつつ、ぼくも割とChatGPTのブログ書いてます。だっておもしろいもん。 そして、多くの人が触って、今のAIの特性みたいなものに気づく人が多くなってるように思います。 世の中でAIが流行りだして画像認識だったり音声認識だったり、データ認識系がまず流行りました。 画像に映ってるものがなにかを識別してくれるというのは当時はすごいなと思ったものの、その結果をみても「うまく認識できないものもあるね」という感じでした。 「あぁこういう間違いするんだ」というのもあったけど「錯覚しやすいのね」くらいの感じだったと思います。「錯覚」するのがすごかったりするのだけど。 そもそもとして、画像認識や音声認識を実際に直接触るのは技術者くらいのものなので、普通の人は「alexaがテレビの声に反応してる」みたいなアプリケーションが失敗するという

                                                ChatGPTによって世の中の「AI」の理解がすすんだ - きしだのHatena
                                              • Stable Diffusionの内容を理解するための情報・書籍 - karaage. [からあげ]

                                                Stable Diffusion完全に理解した 画像生成AIで話題のStable Diffusion、完全に理解した状態になりたいですね。私もです。夜な夜な、Stable Diffusion睡眠不足になりながらの自分の理解は以下です。 Stable DiffusionというAIモデルは、上記のように、2つのモデルで構成されています。凄いのがDiffusion Modelとよばれるもので、これはランダムノイズ的な画像から、クオリティの高い絵を生成することができます。 ただ、このままだとどんな絵が生成されるか分からないので、絵をコントロールするために、プロンプト(自然言語)をCLIPと呼ばれるTransformerのモデルに入力して、埋め込みベクトルに変換します。このベクトル情報をDiffusion Modelに入れてやることで、自分の好きな画像を生成することができます。 無理やりカメラとの対

                                                  Stable Diffusionの内容を理解するための情報・書籍 - karaage. [からあげ]
                                                • MIT Deep Learning 6.S191

                                                  MIT 6.S191 Introduction to Deep Learning MIT's introductory program on deep learning methods with applications in computer vision, robotics, medicine, language, game play, art, and more! Description An efficient and high-intensity bootcamp designed to teach you the fundamentals of deep learning as quickly as possible! MIT's introductory program on deep learning methods with applications to natural

                                                    MIT Deep Learning 6.S191
                                                  • これが天才か…MacBookを1ドルでタッチスクリーン化するアイデアがすごすぎる

                                                    Anish Athalye @anishathalye We turned a MacBook into a touchscreen with $1 of hardware: anishathalye.com/2018/04/03/mac… (by me, @antimatter15, @biject, and @logan_engstrom) 2018-04-04 01:04:24 リンク cat /var/log/life Turning a MacBook into a Touchscreen with $1 of Hardware We turned a MacBook into a touchscreen using only $1 of hardware and a little bit of computer vision. 44 users 630

                                                      これが天才か…MacBookを1ドルでタッチスクリーン化するアイデアがすごすぎる
                                                    • RNNからTransformerまでの歴史を辿る ~DNNを使ったNLPを浅く広く勉強~ - arutema47's blog

                                                      Amazon Prime 一ヶ月無料 Seq2seqからBERTまでのNLPモデルの歴史をざっとまとめる。 DNNは知ってるけどTransformerってなんだかわからない、って人におすすめです。 Abst. 画像認識にもTransformerが使われることが多く、DeepRLやGPT-3といったNLPモデルも身近になってきています。"Attention is 何?"と言えなくなってきたので勉強しました。 Feedforward NetworksからSeq2Seq, Attention機構からTransformer登場、そしてBERT GPTといった最新モデルまでの流れを広く浅く記述する予定。 またKaggle NLPコンペの上位解法から利用例を探る。 Tl;DR TransformerはSelf-Attentionという機構でデータ内の時系列的特徴を抽出でき、従来のRNNを始めとするNN

                                                        RNNからTransformerまでの歴史を辿る ~DNNを使ったNLPを浅く広く勉強~ - arutema47's blog
                                                      • Bag of Visual Words - n_hidekeyの日記

                                                        Bag of visual words (BoVW)は、一般物体認識において現在最も広く普及している画像特徴表現で、画像中の多数の局所特徴をベクトル量子化しヒストグラムにしたものです。最近はOpenCVなどのツールの普及により使いやすくなってきましたが、実際に使ってみようとすると細かい部分でつまづくことも多いのではないでしょうか。最新の研究では認識精度が飛躍的に向上していますが、局所特徴抽出などの細かいノウハウの蓄積による部分もかなり大きいと思います。 (そのような部分は学術的な新規性は低いため、論文ではさらりと書いてあることが多いのですが) 以下、自分が把握しているノウハウをまとめてみたいと思います。ただし、私自身の経験や主観に基づくものであり、絶対的なものではないことにご注意ください。 また、BoVWについて基本的な知識があることを前提としています。 画像サイズ まず、そもそも画像はど

                                                          Bag of Visual Words - n_hidekeyの日記
                                                        • Earth Mover's Distance (EMD) - 人工知能に関する断創録

                                                          Earth Mover's Distance (EMD) について調べたことを整理しておきます。EMDは、ユークリッド距離のような距離尺度の一つで、二つの分布の間の距離を測ることができます。言語処理ではあまり聞いたことなかったのですが、画像処理や音声処理では比較的有名な距離尺度のようです。 EMDが使える問題設定は下図のようになります。 EMDは特徴量と重みの集合(シグネチャと呼ぶ)で与えられる分布Pと分布Qの間の距離です。ここで、特徴量間では距離 が定義されているのが前提です。特徴量がベクトルのときはユークリッド距離、特徴量が確率分布のときはカルバック・ライブラー距離(情報量)などです。EMDは、特徴量の集合が2つ与えられたときに、1個1個の特徴量間の距離をもとに、特徴量集合間の距離を求められるんですね。これはすごい。 重みは具体的な応用によって使い方が変わりますが、その特徴量の重要度を

                                                            Earth Mover's Distance (EMD) - 人工知能に関する断創録
                                                          • The Neural Network Zoo - The Asimov Institute

                                                            With new neural network architectures popping up every now and then, it’s hard to keep track of them all. Knowing all the abbreviations being thrown around (DCIGN, BiLSTM, DCGAN, anyone?) can be a bit overwhelming at first. So I decided to compose a cheat sheet containing many of those architectures. Most of these are neural networks, some are completely different beasts. Though all of these archi

                                                              The Neural Network Zoo - The Asimov Institute
                                                            • Paper Gestalt - n_hidekeyの日記

                                                              明けましておめでとうございます。 お正月ということで、ちょっと変わった楽しい論文(?)を紹介したいと思います。 Carven von Bearnensquash, "Paper Gestalt", Secret Proceedings of Computer Vision and Pattern Recognition, 2010. http://vision.ucsd.edu/sites/default/files/gestalt.pdf 2010年のCVPRで参加者に配布されたジョーク論文で、UCSDの学生が書いたようです。もちろんこんな名前の人は実在しません。 ビジョン業界の査読の傾向を皮肉る内容で、「中身なんて読まなくても見た目の印象でアクセプト・リジェクトが判断できるぜ!」というのを実際に画像認識で実験してみたものです。論文自体はネタですがやってる実験はおそらくガチです。 著者は

                                                                Paper Gestalt - n_hidekeyの日記
                                                              • John Resig - JavaScript Programmer

                                                                John Resig is best known as an expert in the JavaScript programming language and the creator of the most popular JavaScript library in the world: jQuery. He’s created numerous JavaScript projects that continue to be integral parts of modern day web development. He’s also the author of the popular JavaScript books: Secrets of the JavaScript Ninja, Pro JavaScript Techniques, and The GraphQL Guide. J

                                                                • Y. Sato Laboratory | Sato Lab./Sugano Lab.

                                                                  We are working on various research topics in the field of computer vision with a particular focus on two areas: sensing and understanding of human activities, and modeling and understanding of object appearances. For Prospective StudentsOur group is affiliated with two graduate schools of the University of Tokyo: Department of Information and Communication Engineering, Graduate School of Informati

                                                                    Y. Sato Laboratory | Sato Lab./Sugano Lab.
                                                                  • PyTorch vs TensorFlow in 2023

                                                                    Should you use PyTorch vs TensorFlow in 2023? This guide walks through the major pros and cons of PyTorch vs TensorFlow, and how you can pick the right framework. PyTorch and TensorFlow are far and away the two most popular Deep Learning frameworks today. The debate over which framework is superior is a longstanding point of contentious debate, with each camp having its share of fervent supporters

                                                                      PyTorch vs TensorFlow in 2023
                                                                    • ネット上の画像・ムービーから機械学習アルゴリズムが全自動で3Dモデルを作る恐るべきプロジェクト「VarCity」

                                                                      「機械学習」技術によって画像やムービーなどの大量のデータを処理して、3Dモデルを作ることが可能です。チューリッヒ工科大学の研究チームは、SNSを中心としたインターネット上に公開されている写真やムービーのデータから都市の3Dモデルを構築するというプロジェクト「VarCity」を立ち上げています。VarCityのすさまじいところは、画像データを放り込めば、あとは全自動で3Dモデリングしてくれるアルゴリズムを開発しているところです。 VarCity - semantic and dynamic 3D city modelling, Computer Vision Laboratory, ETH Zurich https://varcity.ethz.ch/index.html VarCityプロジェクトで、公開情報から全自動で都市の3Dモデルを作る様子は以下のムービーで確認できます。 VarCi

                                                                        ネット上の画像・ムービーから機械学習アルゴリズムが全自動で3Dモデルを作る恐るべきプロジェクト「VarCity」
                                                                      • 日常にある機械学習の応用例 | POSTD

                                                                        機械学習とは何でしょうか? 機械学習の信頼できる定義(翻訳) を読むことはできますが、実際のところ、機械学習とは解決される問題によって定義されるものです。だから、機械学習を理解するには、いくつか問題の実例を見てみるのが一番です。 この記事では、まずは現実の世界でよく知られよくわかっている機械学習問題の実例を見ていきます。それから、標準的な機械学習問題の分類法 (ネーミング・システム) を見て、それらの標準的なケースの一つとして問題を識別する方法を学びましょう。これは価値のあることです。なぜなら私たちは、直面している問題のタイプを知ることでどんなデータが必要なのか、どのタイプのアルゴリズムを試すべきかを考えられるからです。 機械学習、10の応用例 機械学習の問題はたくさんあります。それらは、あなたが毎日ウェブ上やパソコン上で使うソフトウェアの中核や難しい部分を構成しています。Twitter上

                                                                          日常にある機械学習の応用例 | POSTD
                                                                        • MIT、人種差別的と批判された大規模画像データセット「Tiny Images」をオフラインに

                                                                          米マサチューセッツ工科大学(MIT)は6月29日(現地時間)、多数のAIシステムのトレーニングに利用されてきた8000万点以上の画像を集めたデータセット「Tiny Images」をオフラインにしたと発表した。カテゴライズの用語に差別的なものがあると指摘されたため。 MITのアントニオ・トラルバ教授は声明文で、「影響を受けた可能性のある人々に謝罪する」と語った。 問題を指摘したのはプライバシー関連の米新興企業UnifyIDのチーフサイエンティスト、ビナイ・プラブー氏とアイルランド国立大学ダブリン校のアベバ・ビルハネ教授。両氏は6月25日、「Large image datasets: A pyrrhic win for computer vision?」(リンク先はPDF)という匿名の論文(7月1日に正式版を公開)で、Tiny Imagesに女性の画像に「売春婦」というラベルが付いていたり、黒

                                                                            MIT、人種差別的と批判された大規模画像データセット「Tiny Images」をオフラインに
                                                                          • ぼやけた顔写真から最大64倍鮮明な画像を生成するAIツールを開発、デューク大研究チーム

                                                                            デューク大学の研究チームは、ぼやけて被写体が特定できない顔写真から、これまでの方法よりも精細な、極めて本物に近い画像をコンピュータで生成できるAIツール「PULSE」(Photo Upsampling via Latent Space Exploration)を開発した。 研究チームは、2020年6月14~19日の会期でオンラインで開催中の2020 Conference on Computer Vision and Pattern Recognition(CVPR)で、PULSEのプレゼンテーションを行った。 これまでの方法では、顔写真の解像度は最大8倍にしか高めることができなかった。デューク大学のチームは少数のピクセルからなる顔写真画像の解像度を最大64倍に高める方法を考案した。 研究チームを率いたデューク大学のコンピュータ科学者シンシア・ルーディン氏は「このような低解像度の画像を用いて

                                                                              ぼやけた顔写真から最大64倍鮮明な画像を生成するAIツールを開発、デューク大研究チーム
                                                                            • Deep Reinforcement Learning: Pong from Pixels

                                                                              This is a long overdue blog post on Reinforcement Learning (RL). RL is hot! You may have noticed that computers can now automatically learn to play ATARI games (from raw game pixels!), they are beating world champions at Go, simulated quadrupeds are learning to run and leap, and robots are learning how to perform complex manipulation tasks that defy explicit programming. It turns out that all of t

                                                                                Deep Reinforcement Learning: Pong from Pixels
                                                                              • Building a deeper understanding of images

                                                                                Posted by Christian Szegedy, Software Engineer The ImageNet large-scale visual recognition challenge (ILSVRC) is the largest academic challenge in computer vision, held annually to test state-of-the-art technology in image understanding, both in the sense of recognizing objects in images and locating where they are. Participants in the competition include leading academic institutions and industry

                                                                                  Building a deeper understanding of images
                                                                                • 日本語OCRによる文字認識 ~WPFなどの.NET FrameworkアプリやUWPアプリからWindows 10のOCRエンジンを使う

                                                                                  ※適用バージョン:Windows 10 version 1507(build 10240)以降 はじめに OCR機能を組み込めたら、どんなアプリが作れるでしょう? 名刺や葉書からデータを取り込む住所録アプリ レシートや領収書などからデータを取り込む家計簿アプリ 印刷された書類などをテキストデータ化するアプリ 商品名を読み取って通販サイトを検索するアプリ 電柱などの住所表示を読み取って現在地を検索するアプリ いろんなアプリのアイデアが浮かんでくることでしょう。でも、市販されている日本語OCRライブラリは、けっこうなお値段がするので、個人開発者のレベルではちょっと使いにくいのです。そのようなライブラリは、辞書を使って読み取り精度を高めていたり、帳票の罫線を認識して誤認識を減らす工夫がしてあったりと、魅力的ではあるのですが。あるいは、最近になってメジャーどころも参入してきたOCRのWebサービス

                                                                                    日本語OCRによる文字認識 ~WPFなどの.NET FrameworkアプリやUWPアプリからWindows 10のOCRエンジンを使う