並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 2232件

新着順 人気順

computer_visionの検索結果81 - 120 件 / 2232件

  • “イルカ”から始まったマイクロソフトのAIサービスの現在地 学習済みAIを使える「Azure Cognitive Services」でできること

    “イルカ”から始まったマイクロソフトのAIサービスの現在地 学習済みAIを使える「Azure Cognitive Services」でできること Microsoft の AI 関連サービスと、コミュニケーション領域での活用事例の紹介 #1/2 2019年12月4日、DIGITAL Xが主催するイベント「DIGITAL X DAY 2019 コミュニケーションAIが実現する新しい接客のカタチ」が開催されました。インターネットの普及と発達により、顧客との対話方法が多様化している昨今。AIが顧客とのコミュニケーションにどのように生かされているのか、さまざまな企業が実際の活用事例を語ります。プレゼンテーション「Microsoft の AI 関連サービスと、コミュニケーション領域での活用事例の紹介」に登壇したのは、日本マイクロソフト株式会社 Azureビジネス本部 プロダクトマネージャーの竹

      “イルカ”から始まったマイクロソフトのAIサービスの現在地 学習済みAIを使える「Azure Cognitive Services」でできること
    • コンピュータビジョン分野における世界最高峰の国際会議CVPR2022からワークショップの模様を紹介(前編) - NTT Communications Engineers' Blog

      目次 目次 はじめに CVPR2022概要 Workshop on Image Matching: Local Features & Beyond SuperPoint and SuperGlue: Lessons Learned Large-scale 3D reconstruction Deployment - Successes, Challenges, Open Problems Unstructured Object Matching using Co-Salient Region Segmentation Nerfels: Renderable Neural Codes for Improved Camera Pose Estimation Feature Query Networks: Neural Surface Description for Camera Pose Re

        コンピュータビジョン分野における世界最高峰の国際会議CVPR2022からワークショップの模様を紹介(前編) - NTT Communications Engineers' Blog
      • Data2vec: The first high-performance self-supervised algorithm that works for speech, vision, and text

        The first high-performance self-supervised algorithm that works for speech, vision, and text Self-supervised learning — where machines learn by directly observing the environment rather than being explicitly taught through labeled images, text, audio, and other data sources — has powered many significant recent advances in AI. But while people appear to learn in a similar way regardless of how the

          Data2vec: The first high-performance self-supervised algorithm that works for speech, vision, and text
        • 凛世の自転周期を計測する - Qiita

          ■緊急告知■ 杜野凛世フィギュア 100時間連続配信をYoutubeで実施します!! GW中、回転台の上に乗せた凛世のフィギュアを100時間放送し続けるだけの配信です。 開始時間は明日2日(土)の11時!#シャニマス #凛世100時間配信 ⬇️待機所⬇️https://www.youtube.com/watch?v=kZZt3OCrbDU&feature=youtu.be pic.twitter.com/khhkrddmTc — amiami_product (@amiami_products) May 1, 2020 【シャニマス】杜野凛世フィギュア 100時間耐久配信!! 〈amiami〉 体験版: 【シャニマス】杜野凛世フィギュア 30分間ミニ耐久配信!! 〈amiami〉 いえ、プロデューサーさまに、お喜びいただく…… それだけが、凛世の幸せなのです いや、なんていうか…… ちょっ

            凛世の自転周期を計測する - Qiita
          • ZOZOの新卒1年目MLエンジニアが行くCVPR 2024 参加レポート - ZOZO TECH BLOG

            はじめに こんにちは、推薦基盤ブロック、新卒1年目の住安宏介です。普段は推薦システムの開発・運用を担当しています。 2024年6月に開催されたコンピュータビジョン・パターン認識分野において世界最高峰の国際会議の1つであるCVPR(Conference on Computer Vision and Pattern Recognition)2024に参加しました。参加レポートとして発表内容や参加した感想を紹介いたします。また、最後にZOZO NEXTが行っているワークショップのスポンサー活動についてZOZO Researchの清水から紹介いたします。 目次 はじめに 目次 CVPR とは 開催地のシアトルについて 学会のスケジュール 企業展示ブースの様子 ポスターセッションの雰囲気 採択数増加に伴うポスターセッションの懸念とその実際 特に、印象に残った研究発表 SLICE: Stabilize

              ZOZOの新卒1年目MLエンジニアが行くCVPR 2024 参加レポート - ZOZO TECH BLOG
            • AIによる風景の†異世界変換† - Qiita

              おわかり、いただけたでしょうか。 こちらはGAN(敵対的生成ネットワーク)を活用し、写真に「ホラー」の特徴を与え、変換しています。 原理についてはひとまず置いておいて、まずはGANの可能性をご覧ください! 季節変換、オーロラ変換、花火変換 変換前 変換後 これらはCycleGAN[1]を利用して「夏と春」「雲とオーロラ」「空と花火」などのペアで特徴の入れ替えを行っています。 ただ色彩を変えるわけでなく、言わば「画像の翻訳(変換)」のように原型を保ちながら変換が行われています。 CycleGANの原理について詳しく知りたい方は、こちらの記事を参考にしてください。私も大変お世話になりました。 今回、私はこの技術を写真の「風景変換」に……否!! 「†異世界変換†」に活用しました!! 4ヶ月に渡る奮闘と、その成果をご覧ください。 †ファンタジー変換† まずは†ファンタジー変換†です。 「風景(鹿児

                AIによる風景の†異世界変換† - Qiita
              • AI vs 人間!顔認識技術の限界にチャレンジしてみた - karaage. [からあげ]

                古くて新しい顔検出技術 顔認識技術は、顔の位置を検出する技術です。デジタルカメラやスマートフォンのカメラ機能などでおなじみの、顔に四角い枠が出てピントが合うやつです。有名ですよね。 より正確には顔の位置を示すのが「顔検出」で、誰の顔かを見分けるのは「顔識別」「顔判別」「顔認証」と区別されます。今回の記事では、便宜上一般的に馴染みのある「顔認識」=「顔検出」という定義で説明いたします(専門家の方、石投げるのはご勘弁を)。 顔認識技術は、興味ある人も多いようで、当ブログで過去に顔認識技術を扱った記事も、古いわりに今だに人気のある記事になります。 拙作の 「からあげ先生のとにかく楽しいAI自作教室」でも、顔認識技術は少し扱っているのですが、書籍の主題から外れるので、詳細は割愛しておりました。書籍の補足的な位置付けもこめて、今回は顔認識技術に関して、楽しみながらより深く理解できる記事として、顔認識

                  AI vs 人間!顔認識技術の限界にチャレンジしてみた - karaage. [からあげ]
                • Project Overview ‹ λ-2D: An Exploration of Drawing as Programming Language, Featuring Ideas from Lambda Calculus – MIT Media Lab

                  The area of non-verbal programming languages has not been unexplored. There are ASCII-based languages such as Befunge and asciidots, as well as image-based ones such as Piet, just to name a few. Both inspired and challenged by these work, I set the following goals for my new language: To take advantage of the fact that the program is drawn, to include features that is otherwise unfeasible with tex

                    Project Overview ‹ λ-2D: An Exploration of Drawing as Programming Language, Featuring Ideas from Lambda Calculus – MIT Media Lab
                  • Twitterで振り返る2019年のDeep Learning論文(前編) - Qiita

                    はじめに みなさんどうやってDeep Learningの最新論文をフォローしているでしょうか。私は特に工夫することもなくarXivをチェックする毎日です。基本的に自分の専門分野であるコンピュータビジョンに関連するComputer Vision and Pattern Recognitionの新着だけを見ています。大体1日に50〜100件くらいの新規投稿があります。タイトルと著者(の所属)とアブストラクトをざっと見て、気になったものはもうちょっと読みます。で、たまにその紹介をツイートします。 さて、2019年も終わりということで、ツイートした論文紹介からピックアップして補足する形で2019年のDeep Learning論文の振り返りをしてみようと思います。ピックアップにはTwitter公式のアナリティクスを使いました。といっても単に各ツイートのインプレッション1を取得し、インプレッションが高

                      Twitterで振り返る2019年のDeep Learning論文(前編) - Qiita
                    • Microsoft Azure、「Computer Vision API」のOCR機能が日本語に対応、パブリックプレビューとして

                      マイクロソフトは、Microsoft Azureの機械学習を用いた画像処理「Computer Vision API」の光学式文字認識(OCR)機能が日本語に対応したことを発表しました。 Computer VisionのOCR機能は、JPEG、PNG、BMP、TIFFなどの画像フォーマットもしくはPDFによるドキュメントファイルを入力することで、その内容からテキスト、手書きのテキスト(英語のみ)、数字、通貨記号などを読み取り、抽出することができます。 ファイルサイズは50MB未満(Freeレベルの場合は4MB)、寸法は50x50ピクセル以上 1万x1万ピクセル以下である必要があり、 PDFファイルとTIFFファイルの場合は最大2000ページ(Freeレベルの場合は最初の2ページのみ)が処理されます。 日本語への対応は最新の「Read 3.2」バージョンでパブリックプレビューとなりました。これ

                        Microsoft Azure、「Computer Vision API」のOCR機能が日本語に対応、パブリックプレビューとして
                      • GPU1枚、1日未満で学習!超高速学習GAN、「Lightweight GAN」

                        3つの要点 ✔️ Skip-Layer Excitationとself-supervised Discriminatorを提案し、パラメータの大幅削減に成功 ✔️ 少量データでも学習可能 ✔️ 1024×1024の画像もGPU1枚、数時間で学習可能 Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis written by Anonymous (Submitted on 29 Sep 2020) Comments: Accepted at ICLR2021 Subjects: Computer Vision and Pattern Recognition (cs.CV); Image and Video Processing (eess.IV) Comm 概要 これまでのG

                          GPU1枚、1日未満で学習!超高速学習GAN、「Lightweight GAN」
                        • GitHub - eugeneyan/applied-ml: 📚 Papers & tech blogs by companies sharing their work on data science & machine learning in production.

                          Curated papers, articles, and blogs on data science & machine learning in production. ⚙️ Figuring out how to implement your ML project? Learn how other organizations did it: How the problem is framed 🔎(e.g., personalization as recsys vs. search vs. sequences) What machine learning techniques worked ✅ (and sometimes, what didn't ❌) Why it works, the science behind it with research, literature, and

                            GitHub - eugeneyan/applied-ml: 📚 Papers & tech blogs by companies sharing their work on data science & machine learning in production.
                          • AI Paper Recommendations from Experts

                            See part two with new experts here. After the 'top AI books' reading list was so well received, we reached out to some of our community to find out which papers they believe everyone should have read! All of the below papers are free to access and cover a range of topics from Hypergradients to modeling yield response for CNNs. Each expert also included a reason as to why the paper was picked as we

                              AI Paper Recommendations from Experts
                            • 40+ Modern Tutorials Covering All Aspects of Machine Learning - DataScienceCentral.com

                              Home » Uncategorized40+ Modern Tutorials Covering All Aspects of Machine Learning CapriGranville733December 10, 2019 at 3:30 am This list of lists contains books, notebooks, presentations, cheat sheets, and tutorials covering all aspects of data science, machine learning, deep learning, statistics, math, and more, with most documents featuring Python or R code and numerous illustrations or case st

                                40+ Modern Tutorials Covering All Aspects of Machine Learning - DataScienceCentral.com
                              • コンピュータビジョン分野のトップカンファレンスであるECCV2022からワークショップの模様を紹介(前編) - NTT Communications Engineers' Blog

                                目次 目次 はじめに ECCV2022概要 Workshop Instance-Level Recognition Workshop Keynote talk: Image Search and Matching Kaggle Google Universal Image Embedding Challenge Keynote talk: Few-Shot Learning for Object Aware Visual Recognition Language Assisted Product Search Granularity aware Adaptation for Image Retrieval over Multiple Tasks Where in the World is this Image? Transformer-based Geo-localization in t

                                  コンピュータビジョン分野のトップカンファレンスであるECCV2022からワークショップの模様を紹介(前編) - NTT Communications Engineers' Blog
                                • TechCrunch

                                  The European Union will apply its flagship market fairness and contestability rules to Apple’s iPadOS, the Commission announced today — expanding the number of Apple-owned platforms regula

                                    TechCrunch
                                  • 産総研:大量の実画像データの収集が不要なAIを開発

                                    発表・掲載日:2022/06/13 大量の実画像データの収集が不要なAIを開発 -数式からAIが自動学習、人の判断を経た学習と同程度以上の認識精度を実現- NEDOの「人と共に進化する次世代人工知能に関する技術開発事業」において、今般、産総研は、数式から自動生成した大規模画像データセットを用いて人工知能(AI)の画像認識モデル(学習済みモデル)を構築する手法を世界で初めて開発しました。 本手法は、AIが学習で使用する大量の実画像やそのプライバシーの確保、ラベル付けコストなど商業利用の際の課題を解消するとともに、実画像や人の判断を経た教師ラベルを用いる現在の手法と同程度以上の画像認識精度を実現しています。今後、自動運転や医療、物流などさまざまな環境のAI構築で応用が期待できます。 また産総研は、この技術の詳細を、2022年6月19日から24日まで米国・ニューオーリンズで開催される国際会議IE

                                    • AIカンパニー内に新たに設置された「Computer Vision Lab」が目指す未来

                                      LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog 2021年11月10日・11日の2日間にわたり、LINEのオンライン技術カンファレンス「LINE DEVELOPER DAY 2021」が開催されました。特別連載企画「DEVDAY21 +Interview」では、登壇者たちに発表内容をさらに深堀り、発表では触れられなかった関連の内容や裏話などについてインタビューします。今回の対象セッションは「LINEのコンピュータビジョン研究-その現状と将来」です。 音声認識や音声合成、自然言語処理などのAI技術について研究開発を進めているLINE AIカンパニーは、画像認識に特化したR&D部門である「Computer Vision Lab」を2021年7月に立ち上げました。Computer

                                        AIカンパニー内に新たに設置された「Computer Vision Lab」が目指す未来
                                      • A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT

                                        Pretrained Foundation Models (PFMs) are regarded as the foundation for various downstream tasks with different data modalities. A PFM (e.g., BERT, ChatGPT, and GPT-4) is trained on large-scale data which provides a reasonable parameter initialization for a wide range of downstream applications. BERT learns bidirectional encoder representations from Transformers, which are trained on large datasets

                                        • 顔特徴量の関係性を規定しない新しい顔認識アルゴリズム「BioMetricNet」とは?

                                          3つの要点 ✔️ ユークリッド距離や角度距離など特徴量間の関係性を事前に定める必要がない新しいアルゴリズム「BioMetricNet」を提案 ✔️ 代わりに、マッチングと非マッチングが事前に定められたそれぞれの分布に従うよう学習 ✔️ 顔認識で高精度を達成している手法(CosFace、ArcFace、SphereFace)と比べて、一貫して高い精度を報告 The Effect of Wearing a Mask on Face Recognition Performance: an Exploratory Study written by Arslan Ali, Matteo Testa, Tiziano Bianchi, Enrico Magli (Submitted on 13 Aug 2020) Comments: Accepted at ECCV2020 Subjects: Com

                                            顔特徴量の関係性を規定しない新しい顔認識アルゴリズム「BioMetricNet」とは?
                                          • ニューラルネットワークのPruningの最新動向について - Ridge-institute R&D Blog

                                            こんにちは.株式会社Ridge-iの@zawatsky_rと@machinery81です. 本記事ではPruningと呼ばれるニューラルネットワークの軽量化手法を紹介します. TL;DR Pruningとは? Pruning手法の概要 手法の違いのポイント Structure Scoring Scheduling Fine-Tuning Pruningに関する論文の紹介 Unstructured Pruning Structured Pruning 自動モデル圧縮 Amc: AutoML for Model Compressionとその亜種 AutoPruner The Lottery Ticket Hypothesis メタ研究 To Prune, or Not to Prune: Exploring the Efficacy of Pruning for Model Compressi

                                              ニューラルネットワークのPruningの最新動向について - Ridge-institute R&D Blog
                                            • 深層距離学習(Deep Metric Learning)各手法の定量評価 (MNIST/CIFAR10・異常検知) - Qiita

                                              各組み合わせにつき、上図で表した10テストケースをそれぞれ実施して統計をとっています。 まとめ: 10テストケースでは、正常・以上に割り当てる具体的なクラスを入れ替える。 8つのセットで評価の条件を組み合わせ、各条件で10テストケースすべてを実施した上で統計をとった結果を出している。 1.3 評価方法 ひとつの組み合わせは10テストケース実施それぞれで、①AUC、②各クラスサンプルの平均距離を得た。 ひとつのテストケースの評価手順 通常のCNN分類器(ResNet18)に、手法を組み込む。(Conventionalのときは何もせずそのまま使う) 学習は、「正常」に割り当てたクラスだけで構成する学習データセットを使い、転移学習によって行う。学習データは、各データセットで元々trainセットに入っているサンプルのみ利用する。 評価データの距離を得る。 正常・異常を問わずすべてのクラスから評価デ

                                                深層距離学習(Deep Metric Learning)各手法の定量評価 (MNIST/CIFAR10・異常検知) - Qiita
                                              • 画像の中の文字を見つけるのって今どんな感じなの?まとめてみたんご - Qiita

                                                AdventCalender論文2日目担当のCurryです! 今回は画像の中の文字を見つける技術の昔と最新をまとめました。 意外と文字検出の論文紹介ってないんじゃね!?っていう 画像は参照サイト(各章の先頭のURL)、論文中から引っ張ってきてます 文字検出 画像の中の文字を見つけるのは 文字検出 と呼ばれます。英語では Text Detection とか Text Localization という。 つまりこんなタスク。オレンジ線が文字を囲めてるので、検出ができたと判断できる。 入力画像 出力 文字検出の難しさは、以下のようによく言われる。(いわゆる論文のイントロの謳い文句) 1. 文字の多様性 2. 文字の色 3. 文字のコントラストや背景との混同 4. 文字の大きさが違う 5. 文字の方向(いわゆるアルファベットが斜めになっていたり) ちなみに、、、 文字認識 は文字を判別することなの

                                                  画像の中の文字を見つけるのって今どんな感じなの?まとめてみたんご - Qiita
                                                • FractalDB を作ってみよう(理論編) - ANDPAD Tech Blog

                                                  はじめに どうも. terasaki です. 機械学習の PoC を黙々やっています. テックブログを書く当番がやってきました. どうしよっかな? 何かこうかな? 行っている業務や扱っているデータの性質上, やってることをなかなか社外にオープンに出せないし 面白いこと書きたいよね? 面白いってなんだろう? 白い犬は尻尾も白いはずだから面白いよね! と考えてるうちに社内で書いた下書きがいっぱいできてしまったのでそろそろ真面目に書くとします. 今回のトピックは FractalDB と呼ばれる幾何学模様の人工データを生成するロジックを Julia で書いたというお話です. 結果として既存のコードよりも高速に生成できたよって話です. 何を作ったの? IFS (反復関数系, Iterated Function System) による人工データを作っていました. 下記のようなフラクタル画像を生成するプ

                                                    FractalDB を作ってみよう(理論編) - ANDPAD Tech Blog
                                                  • GitHub - everythingishacked/Semaphore: A full-body keyboard using gestures to type through computer vision

                                                    View a fuller demo and more background on the project at https://youtu.be/h376W93gQq4 The next iteration of this project, designed as a full-body game controller, is also available at https://github.com/everythingishacked/Gamebody Semaphore uses OpenCV and MediaPipe's Pose detection to perform real-time detection of body landmarks from video input. From there, relative differences are calculated t

                                                      GitHub - everythingishacked/Semaphore: A full-body keyboard using gestures to type through computer vision
                                                    • みんなの首里城デジタル復元プロジェクト

                                                      初めて首里城に行ったのは、今から19年前の職場旅行のことでした。 それまで日本の城しか知らなかった私にとっては、あの鮮やかな赤色の正殿はものすごく目を引くものでした。 その職場旅行がきっかけで沖縄が好きになり、これまで何度となく首里城にも訪れました。 行く度に少しずつ建物が復元されていく様子を見るのは本当に嬉しく、特に今年の2月に正殿奥の建物が 復元された時には大変感動したことを覚えています。(46歳男性) We are happy to visit the castle and are proud of our-shurijo. We hope that the castle will be born again like a phoenix.(54歳女性) 首里城を初めて見たとき本土で見る城とデザイン配色装飾が明らかに違う、正しく琉球王国、異国の城だと感じ驚いた、沖縄戦の生んだ多くの悲

                                                        みんなの首里城デジタル復元プロジェクト
                                                      • 機械学習で「似ているヘアスタイル」を見つける手法 〜 Yahoo! BEAUTYでの実装事例

                                                        ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。CTO直下のR&D組織であるテックラボにて、メディア処理系の研究開発に取り組んでいる志賀と三浦です。本記事ではYahoo! BEAUTYにおける「似ているヘアスタイル」表示機能の性能を改善した方法を紹介いたします。 Yahoo! BEAUTYと「似ているヘアスタイル」 Yahoo! BEAUTYは「好みのヘアスタイルからスタイリストを探せて出会えるサービス」として2019年12月にスタート。ヘアスタイルに関する検索、ヘアスタイル写真、スタイリスト情報、ヘアサロン情報などの機能やコンテンツを提供しています。 ユーザーが好みのヘアスタイルを見つけるための機能のひとつとして提供されているのが、ヘアスタイル詳細画面で表示された

                                                          機械学習で「似ているヘアスタイル」を見つける手法 〜 Yahoo! BEAUTYでの実装事例
                                                        • 画像認識の最新SoTAモデル「Noisy Student」を徹底解説!

                                                          3つの要点 ✔️ その1  ImageNetでTop-1 Acc. 88.4 %を叩き出し、SoTAモデル。おまけに高いロバスト性を兼ね備える。 ✔️ その2  Self-trainingにおいてStudentに強いノイズをかけ、反復的にTeacherとStudentを入れ変える。 ✔️ その3  TeacherおよびStudentのベースモデルはEfficientNet(解説)を使用し、EfficentNet-L2という拡張モデルでSoTA Self-training with Noisy Student improves ImageNet classification written by Qizhe Xie, Minh-Thang Luong, Eduard Hovy, Quoc V. Le (Submitted on 11 Nov 2019 (v1), last revised 7

                                                            画像認識の最新SoTAモデル「Noisy Student」を徹底解説!
                                                          • Inpaintingからディープラーニング、最新のGAN事情について学べる本を書いた - Qiita

                                                            3~4ヶ月かけてA4・195ページの薄くない薄い本を書きました。タイトルは『モザイク除去から学ぶ 最先端のディープラーニング』です。TensorFlow2.0全対応です。 Inpaintingとは 画像の一部を塗りつぶしてもっともらしく画像を復元するタスク。画像全体ではなく、白く塗りつぶした部分の生成を目標とします。 画像:https://github.com/JiahuiYu/generative_inpaintingより 関連: * GLCICで無かったことにしたいアレコレ(GANを使った画像生成を Globally and Locally Consistent Image Completion で理解してみる) * 【論文読み】Image Inpainting for Irregular Holes Using Partial Convolutions ※Inpaintingという言

                                                              Inpaintingからディープラーニング、最新のGAN事情について学べる本を書いた - Qiita
                                                            • Understanding Large Language Models

                                                              Large language models have taken the public attention by storm – no pun intended. In just half a decade large language models – transformers – have almost completely changed the field of natural language processing. Moreover, they have also begun to revolutionize fields such as computer vision and computational biology. Since transformers have such a big impact on everyone’s research agenda, I wan

                                                                Understanding Large Language Models
                                                              • 画像から説明文を生成するShow and Tellの論文要約 - Qiita

                                                                Show and Tell: A Neural Image Caption Generator Oriol Vinyals, Alexander Toshev, Samy Bengio, Dumitru Erhan 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) https://arxiv.org/abs/1411.4555 本記事で読んだのはv2 ひとことまとめ どんなもの? 画像を入力して,画像の内容を説明した自然言語の文章を生成するネットワークNICの提案 先行研究と比べてどこがすごい? 画像のエンコードにCNN,デコードにRNNを使っていて,従来手法より性能が高い 技術や手法のキモはどこ? CNNとRNNを直接つなげることで,CNNからの視覚特徴と,RNNが扱う言語特徴を同じ埋め込み空間に

                                                                  画像から説明文を生成するShow and Tellの論文要約 - Qiita
                                                                • API Diffsから見るiOS 14の新機能 - 新フレームワーク編 #WWDC20 #iOS14 - その後のその後

                                                                  本日からはじまったWWDC 2020、まだ基調講演しか見てないのですが(SOTUも後で見ます)、ドキュメントは公開されたので、明日から始まるセッションでどのあたりをチェックするか当たりをつけるべく、例年通りAPIの差分を見て気になった新APIをピックアップしていきます。 まずは新フレームワークから。今年の新規追加フレームワーク1は21個。 ML Compute ニューラルネットワークの学習とバリデーションを行うためのフレームワーク、とのこと。 Accelerate training and validation of neural networks using the CPU and GPUs. macOS用かな?と思いきやiOSでも利用可。 ML Compute utilizes the high performance BNNS primitives made available by

                                                                    API Diffsから見るiOS 14の新機能 - 新フレームワーク編 #WWDC20 #iOS14 - その後のその後
                                                                  • 機械学習のためのデータ収集に新たな希望!?半教師学習の最前線!

                                                                    3つの要点 ✔️ 一部のクラスにラベルが付与されていないデータセットで学習する半教師学習の手法 ✔️ Consistency regularizationと呼ばれる手法で仮ラベルを付与し精度を向上 ✔️ 既存のデータセット(CIFER-10)で95%の識別精度を達成 FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence written by Kihyuk Sohn,David Berthelot,Chun-Liang Li,Zizhao Zhang,Nicholas Carlini,Ekin D. Cubuk,Alex Kurakin,Han Zhang,Colin Raffel (Submitted on 21 Jan 2020) Comments: Published by arXi

                                                                      機械学習のためのデータ収集に新たな希望!?半教師学習の最前線!
                                                                    • Pythonの数値計算ライブラリ「NumPy」をRubyで動かす

                                                                      こんにちは。 GMOアドマーケティングの石丸です。 以前こちらのブログで「OpenCVをRubyで動かす方法」について紹介させていただきました。 こんにちは。GMOアドマーケティング、16新卒エンジニアのT.Iです。今年4月に入社し、配属後の7月からは主にRuby on Railsを使った開発を行っていますが、学生の頃は画像処理プログラミングを行っていたため、今回はこれまでの経験を活かしてRubyとOpenCVを活用した基本的な画像処理プログラミングを紹介致します。OpenCVとは?OpenCV(Open Source Computer Vision Library)は1998年にIntelが開発を始め、その後Willow GarageやItseezに開発が引き継がれている無償のオープンソース映像/画像処理ライブラリ集。BSDライセンスで配布さ... 今回は「◯◯をRubyで動かすシリーズ

                                                                        Pythonの数値計算ライブラリ「NumPy」をRubyで動かす
                                                                      • ジョージア工科大学でコンピュータサイエンスを学び始める話 - Qiita

                                                                        目次 はじめに 何故出願したか 何故ジョージア工科大学か どうやって準備したか おわりに はじめに 既に先人たちが書かれている記事も多々ありますが、2023年3月にジョージア工科大学のコンピュータサイエンス修士過程に出願して合格しました。8月から授業が始まるので忘れない内に何故出願したのか、どのように出願準備したのかについてまとめようと思います。働きながら米国のコンピュータサイエンス大学院進学を考えている方々の参考になりますと幸いです。 Acceptance Letter ー 合格証 何故大学院に出願したか ジョージア工科大学に出願した理由をざっくりまとめると、下記の3点です。 「Data&AI周辺への理解を深めて顧客からの技術的信頼度を上げたい」 「学問を続けられる環境に身を置きたい。加えて学位が欲しい」 「世界中どこでも働けるポータブルスキルを持った人材になりたい」 詳細は下記にプロフ

                                                                          ジョージア工科大学でコンピュータサイエンスを学び始める話 - Qiita
                                                                        • 再計算でニューラルネット学習時のメモリ消費を減らす - Preferred Networks Research & Development

                                                                          エンジニアの楠本です。深層学習で再計算と呼ばれる手法を使って学習時のメモリ消費を削減する研究や実装に取り組んでいるのでその紹介をしたいと思います。 背景 大規模なニューラルネットの学習ではしばしば誤差逆伝播(以下同様)で GPU のメモリ不足に陥ることがあります。 通常、誤差逆伝播ではパラメータについての勾配を求める際に必要な順伝播の計算結果を (途中の計算結果も含めて) すべて覚えた状態で勾配計算を行います。 一方で、例えばコンピュータビジョンの重要なタスクであるセグメンテーションや物体検出では入力画像として高解像度のものがしばしば扱われます。モデルについても高精度を達成するために複雑なネットワーク設計、すなわち層が深くまた中間表現のチャンネル数の多いネットワークが使われることが少なくありません。 このように入力やモデルが巨大である場合には記憶しておくべき途中の計算結果全体が巨大になり、

                                                                            再計算でニューラルネット学習時のメモリ消費を減らす - Preferred Networks Research & Development
                                                                          • Attentionは不要!?Google BrainによるTransformer型モデルに対抗できるgMLPを詳細解説!

                                                                            Attentionは不要!?Google BrainによるTransformer型モデルに対抗できるgMLPを詳細解説! 2021.05.26 AI論文 学術研究, 画像処理, 自然言語処理 はじめに Google Brainが全結合層を基本としたニューラルネットワークがTransformerと同程度の精度を出すことができることを研究で明らかにしました。この結果、NLP(自然言語処理)だけではなく、最近ではCV(画像処理)の分野でもデファクトスタンダードになりつつあったTransformerをベースとしたモデル構成に再考が求められることになります。 なお、今回利用した図はすべて下記論文(「Pay Attention to MLPs」)から引用しております。 ●Transformer系の解説記事 Facebookチームが開発した画像分類にTransformerを利用した効率モデルDeiTを紹

                                                                              Attentionは不要!?Google BrainによるTransformer型モデルに対抗できるgMLPを詳細解説!
                                                                            • AI & Robotics | Tesla

                                                                              For the best experience, we recommend upgrading or changing your web browser. Learn More We develop and deploy autonomy at scale in vehicles, robots and more. We believe that an approach based on advanced AI for vision and planning, supported by efficient use of inference hardware, is the only way to achieve a general solution for full self-driving, bi-pedal robotics and beyond. Tesla Bot Create a

                                                                                AI & Robotics | Tesla
                                                                              • 週刊AWS – 2021/10/18週 | Amazon Web Services

                                                                                Amazon Web Services ブログ 週刊AWS – 2021/10/18週 みなさん、こんにちは。ソリューションアーキテクトの下佐粉です。 今週も週刊AWSをお届けします。 昨今「サーバーレス」という言葉は広く認知されるようになってきたのではと思っていますが、単語は知っているがまだ実際にサーバーレスのシステム構築をしたことはないという方も多いのではないでしょうか。そういう方にピッタリな「はじめてのサーバーレス ハンズオン」が11月2日にオンライン開催されます。 – はじめてのサーバーレス ハンズオン AWS Lambda、Amazon API Gateway、Amazon DynamoDB、Amazon Cognitoを組み合わせたハンズオンを体験できます。ご興味がある方は上記リンクからお申込みください。 それでは、先週の主なアップデートについて振り返っていきましょう。 202

                                                                                  週刊AWS – 2021/10/18週 | Amazon Web Services
                                                                                • syntaxdesign

                                                                                  One of the most recognizable features of a languages is its syntax. What are some of the things about syntax that matter? What questions might you ask if you were creating a syntax for your own language? Motivation A programming language gives us a way structure our thoughts. Each program, has a kind of internal structure, for example: How can we capture this structure? One way is directly, via pi