並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 1704件

新着順 人気順

recognitionの検索結果161 - 200 件 / 1704件

  • 【初学者必見】 CNN の過去のモデルから紐解いて学ぶと理解が深まった話 - Qiita

    はじめに はじめまして。株式会社キカガクの河原です。 キカガクは、「AI を含めた先端技術の研修」を行っている会社です。 さっそくですが、CNN の構造ってどのように決めるのか、難しいと感じた方も多いのではないでしょうか。 フィルタのサイズは、なぜ $3\times3$ が多いのか Convolution と Pooling は何回繰り返したらいいのか Convolution を何度も繰り返すと、計算量膨大になるのでは みなさん、様々な疑問を抱いてるかと思います。 私自身、学び初めの頃は、どのように CNN のアーキテクチャを構成すればいいのか、理解出来ずにいました。 そこで、CNN の過去のモデルから紐解いて学ぶ事によって、上記の疑問が解消された背景から、本記事を書いていきます。 本記事を通して、皆様の抱いていた疑問が少しでも解消されれば幸いです。 本記事を参考にして欲しい方 ニューラル

      【初学者必見】 CNN の過去のモデルから紐解いて学ぶと理解が深まった話 - Qiita
    • 「前歯を舌でタップ」「舌をかむ」 VRヘッドセットを“舌操作” 米Microsoftが開発

      このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米ジョージア工科大学と米Microsoft Researchに所属する研究者らが発表した論文「TongueTap: Multimodal Tongue Gesture Recognition with Head-Worn Devices」は、VR/ARヘッドセットなどで、口を閉じたまま舌を使って操作するインタフェースに関する研究報告である。 頭部装着型デバイスにおける舌を使った操作は、ハンズフリーだけでなく、唇や顎を最小限に動かし、口を閉じたままで操作できる利点がある。外部から気付かれにくいため、公共の場でも使用しやすい。 しかし、過去の舌

        「前歯を舌でタップ」「舌をかむ」 VRヘッドセットを“舌操作” 米Microsoftが開発
      • 画像検索のwebアプリを雑に作ってみる - Re:ゼロから始めるML生活

        可愛かったのでアイキャッチ画像にしました ちょっと画像検索が必要になることがあり、良い機会なので復習しようということになりました。 過去にはこんなのをやってみたりしました。 www.nogawanogawa.com 今回は改めて、主にこちらの資料を参考に画像検索に関して復習してみました。 docs.google.com 今回はこちらを参考にアプリを作ってみたのでそのメモです。 画像検索 TBIRとCBIR CBIRの実現方法 画像検索として使用する特徴量 RGB Histgram Average Hash Perceptual Hash SIFT SURF NN Embedding 類似度の評価方式 Bag of keypoints Earth Mover's Distance SVM ハミング距離 コサイン類似度 要するに 作ってみる 対象画像 画面まわり 検索周り pHash - ハミ

          画像検索のwebアプリを雑に作ってみる - Re:ゼロから始めるML生活
        • 新世代CPUアーキテクチャ「Zen 5」完全解説。Ryzen 9000シリーズはどのように進化したのか[西川善司の3DGE]

          新世代CPUアーキテクチャ「Zen 5」完全解説。Ryzen 9000シリーズはどのように進化したのか[西川善司の3DGE] ライター:西川善司 2017年の初登場以来,改良と進化を継続してきたAMDの「Zen」マイクロアーキテクチャ。その最新版となる「Zen 5」を採用するデスクトップPC向けCPU「Ryzen 9000」が,7月31日に発売となる(関連記事)。 当初のラインナップとして発表となったのは,以下に示す4製品だ。 2024年7月31日に発売予定のRyzen 9000シリーズのラインナップ AMDは,2022年に投入した「Zen 4」マイクロアーキテクチャ世代のRyzen 7000シリーズから,デスクトップPC向けCPUは「Socket AM5」(以下,AM5)プラットフォームに移行しているが,今回のRyzen 9000シリーズも,引き続きAM5向けとなっている。なお,AMDは

            新世代CPUアーキテクチャ「Zen 5」完全解説。Ryzen 9000シリーズはどのように進化したのか[西川善司の3DGE]
          • LLM時代のデータ基盤 : 非構造化データを扱うETLプロセスの重要性 #ベッテク月間 - LayerX エンジニアブログ

            こんにちは!LayerXのバクラク事業で機械学習・データ周りを担当しております、たかぎわ (@shun_tak) と申します。 みなさま、ChatGPTの登場に衝撃を受け、これを日々の生活やビジネスに活用されていることかと思います。わたしも社内でChatGPT活用の勉強会を開催したところ、大変大きな反響をいただきました。 tech.layerx.co.jp ChatGPTの登場以来、AIを前提としたユーザー体験の構築、すなわちAI-UXの実現を目指すことがLayerX社内の共通認識になりました。LayerXは、プロダクトだけでなくあらゆるビジネスプロセスにおいて、ユーザー体験をAIを前提に再構築するAI Transformation (AX) を推進することで、生産性革命を実現しようとしています。 comemo.nikkei.com AI-UXやAXの実現を通じて、仕事や暮らしの中にある摩

              LLM時代のデータ基盤 : 非構造化データを扱うETLプロセスの重要性 #ベッテク月間 - LayerX エンジニアブログ
            • Modern IDEs are magic. Why are so many coders still using Vim and Emacs? - Stack Overflow

              Developers are a finicky bunch. Like a dog refusing to walk on wet grass, there always seemed to be a bit of resistance to changing up a routine. We love what we grew up with, be it Star Trek jokes, Vim, or Emacs. The origins of this war harken back to Usenet groups in the 1980s, a time when Vi and Emacs were the primary tools used for coding. Emacs, as we well know, is a “maze of twisty little pa

                Modern IDEs are magic. Why are so many coders still using Vim and Emacs? - Stack Overflow
              • コンピュータビジョン分野における世界最高峰の国際会議CVPR2022の論文紹介(後編) - NTT Communications Engineers' Blog

                目次 目次 はじめに 論文紹介 The Norm Must Go On: Dynamic Unsupervised Domain Adaptation by Normalization OcclusionFusion: Occlusion-aware Motion Estimation for Real-time Dynamic 3D Reconstruction EPro-PnP: Generalized End-to-End Probabilistic Perspective-N-Points for Monocular Object Pose Estimation Cascade Transformers for End-to-End Person Search TrackFormer: Multi-Object Tracking With Transformers Global T

                  コンピュータビジョン分野における世界最高峰の国際会議CVPR2022の論文紹介(後編) - NTT Communications Engineers' Blog
                • UIデザインのための10のヒューリスティクスについて改めて考えてみた|i3DESIGN Designers

                  はじめにこんにちは。i3DESIGNデザイナーチームです。 「ユーザーインタフェースデザインのための10のユーザビリティヒューリスティクス(10 Usability Heuristics for User Interface Design)」をご存知ですか? https://www.nngroup.com/articles/ten-usability-heuristics/ 1994年にヤコブ・ニールセンによって提唱され、現在も多くのデザイナーが使用している、良いUIデザインの原則をまとめたリストのようなものです。 ヒューリスティック(heuristic)は、日本語では「発見的手法」と訳されます。これは、経験や先入観によって直感的に正解に近い答えを得ることができる、という思考法のことです。 ニールセン自身も、これは“経験則”であり、“ユーザビリティガイドライン”ではないとしています(上記U

                    UIデザインのための10のヒューリスティクスについて改めて考えてみた|i3DESIGN Designers
                  • 最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you

                    こんにちは。@shunk031 です。 普段は最先端の技術が大好きなパソコンのオタクですが、京都へ旅行して古き良き日本の文化に感化されました。 この記事は 法政大応情 Advent Calendar 2020 21 日目の記事です。 From http://codh.rois.ac.jp/ 今回は日本古典籍の分類タスクについて取り組んでみようと考え、近年の日本古典籍における「くずし字認識」に着目して調査をしました *1。 日本古典籍といった古文書に対して、OCR 等の文字認識技術によって文字情報をデジタル化し、それらの情報をもとに解析を行う流れは現代では自然だと考えています。 しかしながら、一般的に OCR は難しく、また古文書を機械に解析させることはさらなる困難があるのは容易に想像できます。 くずし字認識に対して、近年の取り組みでは ROIS-DS 人文学オープンデータ協働センターが K

                      最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you
                    • たった2行で画像認識モデルの精度向上!?新しいDataAugmentation自動最適化手法「RandAugment」解説!

                      3つの要点 ✔️ ランダムにData Augmentationの手法を選択するRandAugmentを提案 ✔️ 従来のAutoAugmentと比べ探索空間を$10^{-30}$にも削減し計算量を激減させたことで実践で使えるようにしただけでなく、CIFAR-10/100やImageNet, COCOなどのデータセットにおいて有用性が確認できた ✔️ ImageNetのSoTAであるNoisyStudentにも使われており、関数は2行で実装できるため読者の方も容易に使うことができる。 RandAugment: Practical automated data augmentation with a reduced search space written by Ekin D. Cubuk, Barret Zoph, Jonathon Shlens, Quoc V. Le (Submitted

                        たった2行で画像認識モデルの精度向上!?新しいDataAugmentation自動最適化手法「RandAugment」解説!
                      • GitHub - google-research/tuning_playbook: A playbook for systematically maximizing the performance of deep learning models.

                        This document is for engineers and researchers (both individuals and teams) interested in maximizing the performance of deep learning models. We assume basic knowledge of machine learning and deep learning concepts. Our emphasis is on the process of hyperparameter tuning. We touch on other aspects of deep learning training, such as pipeline implementation and optimization, but our treatment of tho

                          GitHub - google-research/tuning_playbook: A playbook for systematically maximizing the performance of deep learning models.
                        • UI = f(statesⁿ)

                          “UI is a function of state” is a pretty popular saying in the front-end world. In context (pun intended), that’s typically referring to application or component state. I thought I’d pull that thread a little further and explore all the states that can effect the UI layer… First-party application states Every application whether it’s a to-do list or a shopping cart or some radically complex app wil

                          • 【和訳】J.K.ローリングの声明文(6月10日付)※追記あり - 54023通りの空論

                            JKローリングの声明文、適当な日本語訳がなかったのでざっくり訳しました。 日本語圏でも「JKRはTERF」「JKRはTERFじゃない」と色々言われていますが、英語の読めないJKローリングファンにものすごくアンフェアな状況では?と思ったので…。 あまり推敲していないので、訳抜け・誤字脱字等ありましたら恐縮です。もう疲れたよパトラッシュ…… ※ですます調でうっかり訳しちゃったので、死ぬほど長いです。14000字くらい。原文は3600 wordくらいなので、そこまで長くないです。 ※6/15 13:41 menstrator、people with vulvaについて追記しました。 ※11/11 23:52 しばらく「下書き」に下げてたのですが、やはり日本語の訳がないと日本の読者が不便かなと思い、再度公開します。何度読み返しても「さすがプロの小説家だなあ」と感慨深くなるお上手な物言いで「トランス

                              【和訳】J.K.ローリングの声明文(6月10日付)※追記あり - 54023通りの空論
                            • Yann LeCun’s Deep Learning Course at CDS is Now Fully Online & Accessible to All

                              CDS is excited to announce the release of all materials for Yann LeCun’s Deep Learning, DS-GA 1008, co-taught in Spring 2020 with Alfredo Canziani. This unique course material consists of a mix of close captioned lecture videos, detailed written overviews, and executable Jupyter Notebooks with PyTorch implementations. The course covers the latest techniques in both deep learning and representation

                                Yann LeCun’s Deep Learning Course at CDS is Now Fully Online & Accessible to All
                              • 色々な生成AIモデルをColabで動かして今年を振り返る - ABEJA Tech Blog

                                こんにちは、ラボで研究開発をしたりプロトタイプを作っている藤本(X(Twitter))です。ABEJAアドベントカレンダー2023の21日目の記事です。ここ近年、生成AIの勢いが凄いです。最近は一夜明けたら世界が変わっているみたいなことがしょっちゅう起きています。そんな状況なので、なかなか世の中についていくのが難しいのではないかと思います。そこで今回は、これまでに色々と出てきた生成モデルを振り返りつつ、ひたすら思いつく限りColabで動かしまくってみる企画をやってみようかと思います。流石に全部Colabで動かすのは大変でした・・・。 まずは言語を対象として日本語モデルを含む様々なモデルを対象に推論実験を行います。続いて高速化の実験、更にSFTによるInstructionチューニングや、RLHFもやってみます。最後に、ソースコード生成もやってみましょう。次に、画像を対象として、言語同様に色々

                                  色々な生成AIモデルをColabで動かして今年を振り返る - ABEJA Tech Blog
                                • GoogleがLLMで「非構造化文書」高精度テキスト抽出するOCR『LMDX』発表 | AIDB

                                  ★AIDB会員限定Discordを開設いたしました! 会員登録/ログインの上、マイページをご覧ください。 Googleは、非構造化文書(例えばレシートなど)から高精度にテキストを抽出するOCR(Optical Character Recognition)技術『LMDX(Language Model-based Document Information Extraction and Localization)』を発表しました。この技術は、特にGoogleの大規模な言語モデル「Bard」と、Google DriveやGmailなどのサービスとの連携をさらに強化する可能性もあります。 参照論文情報 タイトル:LMDX: Language Model-based Document Information Extraction and Localization 著者:Vincent Perot, K

                                    GoogleがLLMで「非構造化文書」高精度テキスト抽出するOCR『LMDX』発表 | AIDB
                                  • LogLog Games

                                    The article is also available in Chinese. Disclaimer: This post is a very long collection of thoughts and problems I've had over the years, and also addresses some of the arguments I've been repeatedly told. This post expresses my opinion the has been formed over using Rust for gamedev for many thousands of hours over many years, and multiple finished games. This isn't meant to brag or indicate su

                                    • 顔誤認は冤罪が怖い! IBMに続きAmazon、マイクロソフトも捜査利用停止宣言

                                      顔誤認は冤罪が怖い! IBMに続きAmazon、マイクロソフトも捜査利用停止宣言2020.06.12 23:0010,437 satomi こちらの写真、見分ける自信ありますか? これ、黒人の方が見ると全然別人に見えるのだけど、白人の方が見るとほぼ同一人物に見えることがあるそうなんですよ? 人間の苦手分野はAIも苦手というわけで、IBMが8日、「監視、人種識別、人権と自由の侵害に顔認識などのテクノロジーを使うのは断固反対!」と米議会宛ての書簡で宣言し、顔認識技術の研究、開発、広告、販売の終了を発表したのに続き、10日にはAmazon(アマゾン)も自社の顔認識システム「Recognition」の捜査利用を1年禁じることを表明。Microsoft(マイクロソフト)も法が整備されるまでは警察への販売を控えることを誓いました。 アメリカで沸き起こっている警察による人種差別抗議デモを受けた動きですが

                                        顔誤認は冤罪が怖い! IBMに続きAmazon、マイクロソフトも捜査利用停止宣言
                                      • コンピュータビジョンの最新論文調査 2D Human Pose Estimation 編 | BLOG - DeNA Engineering

                                        はじめに こんにちは、AIシステム部でコンピュータビジョンの研究開発をしている加藤です。我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回は 2D Human Pose Estimation 編として加藤直樹 ( @nk35jk ) が調査を行いました。 本記事では 2D Human Pose Estimation に関する代表的な研究事例を紹介するとともに、2019年10月から11月にかけて開催されたコンピュータビジョンのトップカンファレンスである ICCV 2019 に採録された 2D Human Pose Estimation の最新論文を紹介します。 過去の他タスク編については以下をご参照ください。 Human Recognition 編 (2019/04/26) 3D Vision 編 (2019/06/04) キーポイント検

                                          コンピュータビジョンの最新論文調査 2D Human Pose Estimation 編 | BLOG - DeNA Engineering
                                        • 感染・伝播性の増加や抗原性の変化が懸念される 新型コロナウイルス(SARS-CoV-2)の新規変異株について (第6報)

                                          国立感染症研究所 2021年2月12日18:00時点 PDF 要約 ウイルスのヒトへの感染性・伝播のしやすさや、すでに感染した者・ワクチン接種者が獲得した免疫の効果に影響を与える可能性のある遺伝子変異を有する複数の新型コロナウイルス(SARS-CoV-2)の新規変異株として、特にVOC-202012/01, 501Y.V2, 501Y.V3の流行が懸念されている。いずれも感染性・伝播のしやすさに影響があるとされるN501Y遺伝子を有するが、特にVOC-202012/01については、2次感染率の増加や、死亡リスクの増加の可能性が疫学データから示唆されている。501Y.V2と501Y.V3については、さらに抗原性に影響を与える可能性があるE484K変異も有する。特に501Y.V2については、過去の感染によって得られた免疫や承認されているワクチンによって得られた免疫を回避する可能性が指摘されてお

                                          • 新たな活性化関数「FReLU」誕生&解説! - Qiita

                                            オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 他にも次のような記事を書いていますので興味があればぜひ! 【2020決定版】スーパーわかりやすい最適化アルゴリズム -損失関数からAdamとニュートン法- 画像認識の定番データセットImageNetはもう終わりか パラメータ数を激減させる新しい畳み込み「MixConv」解説! 自然言語処理の王様「BERT」の論文を徹底解説 【基本編】画像認識に使用されるData Augmentationを一挙にまとめてみた! 画像認識に特化させた新たな活性化関数FReLU解説&実装! 今やあらゆる分野で驚くべき結果を残し続けているニューラルネットワークですが、そのニューラルネットに無くてはならないものこそが活性化関数で

                                              新たな活性化関数「FReLU」誕生&解説! - Qiita
                                            • ウクライナ危機でアフリカが見せた“怒り”のスピーチ 世界中で大きな反響

                                              ロシアの軍事侵攻をアフリカ諸国はどうみているのでしょうか。 ロシアによるウクライナへの軍事侵攻開始からおよそ1週間。世界からロシアに対し、批判の声が向けられるなか、あるスピーチが話題を集めています。 先月21日、アメリカで開催された国連の緊急会合。ケニアのキマニ国連大使のスピーチです。 この日、ロシアのプーチン大統領はウクライナ東部のドネツク州とルガンスク州の一部地域の独立を承認、この地域への軍の派遣を命令していました。 かつて、イギリスを始めとした欧州列強による植民地支配を受け、国境を決められ分断された過去を持つアフリカ。 軍事力を振りかざし、一方的に独立を承認したロシアの行動に対し、キマニ氏はアフリカの歴史と照らし合わせ、憤りをあらわにしました。 ケニア共和国・キマニ国連大使: 「This situation echoes our history. Kenya、 almost ever

                                                ウクライナ危機でアフリカが見せた“怒り”のスピーチ 世界中で大きな反響
                                              • はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場

                                                前回は BERT についてその概要と使い方を紹介しました。今回は自然言語処理ライブラリである spaCy と spaCy をフロントエンドとする日本語NLPライブラリの GiNZA について紹介します。 1. 始めに 本記事では欧米で有名な自然言語処理ライブラリである spaCy とリクルートと国立国語研究所の共同研究成果である日本語NLPライブラリ GiNZA について紹介します。記事の前半では、spaCy と GiNZA の概要と日本語を処理する際の基本的な機能/操作について説明します。後半では、spaCy で提供される文章分類機能について、前回までに紹介した手法も含めて精度を比較してみます。 2. spaCy と GiNZA の概要 spaCy は Explosion AI 社の開発する Python/Cython で実装されたオープンソースの自然言語処理ライブラリで MIT ライセ

                                                  はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場
                                                • ついに出た!本当にDETR! 物体検出の革新的なパラダイム

                                                  3つの要点 ✔️ ついにTransformerを物体検出に応用 ✔️ End-to-endなモデルを実現し、人手による設計を削減 ✔️ 物体検出を直接的な集合予測問題として再定義 End-to-End Object Detection with Transformers written by Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko (Submitted on 26 May 2020 (v1), last revised 28 May 2020 (this version, v3)) Comments: Published by arXiv Subjects: Computer Vision and Pattern Reco

                                                    ついに出た!本当にDETR! 物体検出の革新的なパラダイム
                                                  • 失敗から学ぶ機械学習応用~Another Story~ - Qiita

                                                    はじめに 機械学習をどう学んだか by 日経 xTECH ビジネスAI② Advent Calendar 2019 13日目の記事です。 本記事はSlideShareで公開した勉強会資料「失敗から学ぶ機械学習応用」 のあとがき的な位置づけの記事です。 おそらく機械学習の勉強法やおすすめ書籍、Kaggle参戦などの話題は他の方がまとめていると思うので、私は機械学習のプロジェクトに関わる中で得た学びを中心に書いていこうと思います。 機械学習をどう学んだか はじめに私が機械学習テーマに配属されてから勉強会発表にいたるまでの遍歴と学び、そしてお世話になった教材をざっくりと振り返ってみます。 ※明確な期間や時期は伏せますが、全体で約4、5年くらいのスパンです。 1.前任者の異動により機械学習テーマを引き継ぐ 機械学習テーマを担当していた前任者が異動し、素人だった私がそのテーマを引き継ぐことになる。

                                                      失敗から学ぶ機械学習応用~Another Story~ - Qiita
                                                    • End-to-End音声認識の計算量を削減した話

                                                      ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、音声処理黒帯(黒帯はヤフー内のスキル任命制度)の藤田です。今日のブログでは、音声認識技術の研究開発におけるヤフーの最新の取り組みを紹介します。 特に、近年注目されているTransformerという手法に基づく、End-to-End音声認識の計算量を削減した研究を紹介します。この研究は、難関国際会議IEEE ICASSP2020に投稿し、採択されました。また、arXivでプレプリントを公開しています。そして、ESPnetというEnd-to-Endモデルのツールキット上でソースコードも公開しています。興味のある方はぜひ、こちらもご参照ください。 音声認識で用いられるEnd-to-Endモデルとは? 音声認識技術は音声をテキ

                                                        End-to-End音声認識の計算量を削減した話
                                                      • 拡散モデルを用いた2Dバーチャル試着技術について - BASEプロダクトチームブログ

                                                        はじめに こんにちは。BASEのデータ分析チーム(Data Strategy Team)で不正対策を行ったり、機械学習モデルを触ったりしている竹内です。 先日チーム内の論文読み会でニューラルネットを用いた画像合成によるバーチャル試着技術というトピックに触れる機会があったので、その最近のトレンドについて改めてブログという形でまとめてみました。 バーチャル試着は画像生成モデルの実用的なユースケースの一つとして今現在データセットの拡充やアーキテクチャの検証が進んでいる分野の一つであり、個人的には非常にアツいトピックだと感じています。 バーチャル試着とは バーチャル試着(Virtual Try On)とは、ある人物がある衣服を着用した状態を画像や3Dモデルなどの情報をもとに仮想的に実現し、どのように見えるか可視化する技術のことです。 ネットショップの普及により、店頭に出向かずともPCやスマートフォ

                                                          拡散モデルを用いた2Dバーチャル試着技術について - BASEプロダクトチームブログ
                                                        • Kaggleで学ぶ系列データのための深層学習モデリング

                                                          最近は画像コンペではモデリングの余地があまりないことが多いが、系列データのコンペはデファクトの(pretrain)モデルが確立しておらずモデリングで勝敗が分かれることが多い。ここで系列データとは、時系列データ、センサデータ、RNA等のシーケンスデータのようなデータを意図している。 このような背景のもと、これまでの系列データを扱ったKaggleコンペティションとその上位解法を振り返りながら、系列データの深層学習モデリングを俯瞰する。 紹介しているコンペ: - IceCube - Neutrinos in Deep Ice - Google - American Sign Language Fingerspelling Recognition - Stanford Ribonanza RNA Folding - HMS - Harmful Brain Activity Classifica

                                                            Kaggleで学ぶ系列データのための深層学習モデリング
                                                          • Stanford CS229: Machine Learning Full Course taught by Andrew Ng | Autumn 2018

                                                            Led by Andrew Ng, this course provides a broad introduction to machine learning and statistical pattern recognition. Topics include: supervised learning (gen...

                                                              Stanford CS229: Machine Learning Full Course taught by Andrew Ng | Autumn 2018
                                                            • 描写の哲学において写真は個別の議論を必要とするのか? - obakeweb

                                                              「描写の哲学」研究ノートです。 「描写の哲学ビギナーズガイド」で言えば、「1.描写の本性:描写とはなにか? 画像とはなにか?」と「6.写真の特性:写真のなにがそんなに特別なのか?」にまたがる話題。 写真(photographs)は画像の一種だが、とりわけ特殊な性格を持った画像である。 ごく素朴な直観において、「絵画は間違いうるが、写真は嘘をつかない」「絵画は主観的な表現だが、写真は客観的な伝達である」と思われる。 描写の哲学は基本的に「画像」一般の本性に迫ろうとする分野だが、絵画のような手製(hand-made)の画像と写真を分けて論じるべきかどうかについては、意見が別れている。 すなわち、「絵画と写真は区別して論じるべきだ/論じざるを得ない」と考える陣営と、「なんらかのひとつの原理によって画像一般を包括的に説明すべきだ」と考える陣営がある。適当に、前者を区別派、後者を包括派と呼んでおこう

                                                                描写の哲学において写真は個別の議論を必要とするのか? - obakeweb
                                                              • テスラの「完全自動運転をAIチームディレクターが解説」を翻訳とともに解説 - EVsmartブログ

                                                                『CVPR2021』というコンピュータービジョンのイベントで、テスラのAIチームシニアディレクターであるAndrej Karpathy氏が登壇。テスラが進める完全自動運転への取り組みを解説しました。はたして、テスラはどこまで進んでいるのか。テスラオーナーで翻訳家の池田篤史氏が翻訳しつつ解説します。かなり専門的ながら、興味深い内容です。 ※冒頭画像はCVPRウェブサイトより引用。 はじめに 2021年6月下旬に開催されたCVPR(Computer Vision and Pattern Recognition)に、昨年に続きテスラのAIチームシニアディレクター、アンドレイ・カーパシー氏が登壇し、カメラからの入力のみで自動運転機能を達成する取り組みについて解説しました。この記事ではそれに加え、テスラハッカーとして有名なGreentheonly氏にも取材をして、アンドレイ氏が表向き言えないようなこ

                                                                  テスラの「完全自動運転をAIチームディレクターが解説」を翻訳とともに解説 - EVsmartブログ
                                                                • 機械学習チームで論文読み会を実施してみました(A ConvNet for the 2020s解説) - BASEプロダクトチームブログ

                                                                  BASEの機械学習チームで論文読み会を実施してみました こんにちは。BASEのDataStrategy(DS)チームでエンジニアをしている竹内です。 DSチームではBASEにおける様々なデータ分析業務をはじめ、機械学習技術を利用した検索、推薦機能のサポート、商品のチェックや不正決済の防止などに取り組んでいます。 先日、チーム内で最新の機械学習技術についての知見を相互に深めるための試みとして、各々興味のある機械学習系の論文を持ち寄って紹介し合う、いわゆる論文読み会というものを実施してみました。 この記事では、その会で私が発表した内容の一部を紹介したいと思います。 ※ 中身は論文読み会用から本記事用に一部修正を加えています。 A ConvNet for the 2020s 紹介する論文について タイトル: A ConvNet for the 2020s 著者: Zhuang Liu, Hanz

                                                                    機械学習チームで論文読み会を実施してみました(A ConvNet for the 2020s解説) - BASEプロダクトチームブログ
                                                                  • ついに誕生!期待の新しい活性化関数「Mish」解説

                                                                    3つの要点 ✔️ ReLU、Swishに次ぐ新たな活性化関数Mishを提案 ✔️ MNISTやCIFAR-10/100などでReLUとSwishを圧倒 ✔️ 論文筆者実装のGitHubレポは早速600以上のスターを持ち、非常に簡単に使える Mish: A Self Regularized Non-Monotonic Neural Activation Function written by Diganta Misra (Submitted on 23 Aug 2019 (v1), last revised 2 Oct 2019 (this version, v2)) Subjects: Machine Learning (cs.LG); Computer Vision and Pattern Recognition (cs.CV); Neural and Evolutionary Comp

                                                                      ついに誕生!期待の新しい活性化関数「Mish」解説
                                                                    • RWKVについて解説

                                                                      本記事では、RWKVとよばれるモデルのアーキテクチャについて詳しく説明します。 はじめに 自然言語処理の分野において、Transformer[1]の登場以前に一般的に使用されてきたRNN[2]はいくつかの課題を抱えており、その課題を克服する新たな手法として、RNNとは完全に異なるアプローチを取るTransformerが登場しました。しかし、Transformerにも解決すべき問題が存在しています。そこで、これらのアプローチを結びつけて進化させていく必要が出てきました。 まず、RNNの利点と欠点を見てみましょう。RNNは、文章の長さにほとんど制約がなく、計算コストも比較的小さいという利点があります。しかし、以前の入力を正確に記憶することが難しく(長期依存性を捉えられない)、学習を高速化することも難しい(学習並列化が困難)という欠点も存在します。 一方、Transformerは長期依存性を捉え

                                                                        RWKVについて解説
                                                                      • What is Image-to-Text? - Hugging Face

                                                                        Image to text models output a text from a given image. Image captioning or optical character recognition can be considered as the most common applications of image to text. Use Cases Image Captioning Image Captioning is the process of generating textual description of an image. This can help the visually impaired people to understand what's happening in their surroundings. Optical Character Recogn

                                                                          What is Image-to-Text? - Hugging Face
                                                                        • GitHubがWebAuthn対応を開始。MacのTouch IDやWindows Helloの指紋認証などを2要素認証に利用可能に[訂正あり]

                                                                          GitHubがWebAuthn対応を開始。MacのTouch IDやWindows Helloの指紋認証などを2要素認証に利用可能に[訂正あり] GitHubは、Web標準仕様「WebAuthn」への対応開始を発表しました。 Remember when fingerprint authentication seemed like the future? Starting today, secure access to your code with a fingerprint, facial recognition, and more. Two-factor authentication that's more secure and easier than ever to usehttps://t.co/VUEQenjERD — GitHub (@github) August 21, 201

                                                                            GitHubがWebAuthn対応を開始。MacのTouch IDやWindows Helloの指紋認証などを2要素認証に利用可能に[訂正あり]
                                                                          • 100+ Best GitHub Repositories For Machine Learning

                                                                            There are millions of github repos and filtering them is an insane amount of work. It takes huge time, efforts and a lot more. We have done this for you. In this article we’ll share a curated list of 100+ widely-known, recommended and most popular repositories and open source github projects for Machine Learning and Deep Learning. So without further ado, Let’s see all the hubs created by experts a

                                                                              100+ Best GitHub Repositories For Machine Learning
                                                                            • Designed to Deceive: Do These People Look Real to You? (Published 2020)

                                                                              The creation of these types of fake images only became possible in recent years thanks to a new type of artificial intelligence called a generative adversarial network. In essence, you feed a computer program a bunch of photos of real people. It studies them and tries to come up with its own photos of people, while another part of the system tries to detect which of those photos are fake. The back

                                                                                Designed to Deceive: Do These People Look Real to You? (Published 2020)
                                                                              • 「なぜ私が死ななければならないのですか」

                                                                                Imagine a situation in which a patient asks a doctor “Why must I die?” and the doctor stands there stunned. Physicist Schrödinger claimed that scientists unconsciously put “I” as the subject of recognition outside the objective world. Both doctor and patient put “I” as the subject of recognition outside the objective world. In medicine as a science, doctors eliminate the fact that each patient is

                                                                                • What to know about Threads

                                                                                  Today, Meta is launching its new microblogging platform called Threads. What is noteworthy about this launch is that Threads intends to become part of the decentralized social web by using the same standard protocol as Mastodon, ActivityPub. There’s been a lot of speculation around what Threads will be and what it means for Mastodon. We’ve put together some of the most common questions and our res