並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 53件

新着順 人気順

ComputerVisionの検索結果1 - 40 件 / 53件

ComputerVisionに関するエントリは53件あります。 AI機械学習deeplearning などが関連タグです。 人気エントリには 『Stable Diffusion を基礎から理解したい人向け論文攻略ガイド【無料記事】』などがあります。
  • Stable Diffusion を基礎から理解したい人向け論文攻略ガイド【無料記事】

      Stable Diffusion を基礎から理解したい人向け論文攻略ガイド【無料記事】
    • GPTが人知れず既存の名刺管理アプリを抹殺していた話 - Qiita

      抹殺は言い過ぎかもしれませんが簡易な名刺管理アプリであれば自作で十分という時代がきていたようです これで紙の名刺からはきっとバイバイできるでしょう! 名刺管理アプリ作ってほしいといわれた それは2/22のお話。 ことの発端は別の部署からかかってきた一本の電話でした。 新規事業の部署でいろいろな取引先様と付き合いがあるものの、紙の名刺が非常に多く管理に困っているとのことのことです。 私は小売業に勤務しているしがない一社員で、現在Eコマースの戦略立案に関する部署に所属しています。 電話先の方は、以前一緒の部署で勤務したことがある方です。現在新規事業のプロジェクト推進をしており、冒頭のような課題感を持っているため既存の名刺管理アプリ導入を考えたのですが、あまりのお値段の高さに卒倒して私に藁をもすがる思いで連絡されたようです。 これまでのアプリは名刺の識別専門のAI()を使っていた 話を聞いてみた

        GPTが人知れず既存の名刺管理アプリを抹殺していた話 - Qiita
      • TechCrunch | Startup and Technology News

        TikTok is starting to automatically label AI-generated content that was made on other platforms, the company announced on Thursday. With this change, if a creator posts content on TikTok that…

          TechCrunch | Startup and Technology News
        • Teslaにおけるコンピュータビジョン技術の調査

          社内勉強会での発表資料です。公開情報をもとにTeslaのコンピュータビジョン技術について調査したものです。Read less

            Teslaにおけるコンピュータビジョン技術の調査
          • 近似最近傍探索の最前線

            MIRU 2019 チュートリアル http://cvim.ipsj.or.jp/MIRU2019/index.php?id=tutorial 松井 勇佑(東京大学生産技術研究所)http://yusukematsui.me/index_jp.html ベクトルの集合を前にして新たにクエリベクトルが与えられたとき、そのクエリに最も似ているベクトルを高速に探す処理を近似最近傍探索という。近似最近傍探索は画像検索をはじめ様々な文脈で用いられる基本的な操作であり、速度・メモリ使用量・精度のトレードオフの中で様々な手法が提案されている。本チュートリアルでは、アプローチや対象とするデータの規模に応じて近年の手法を分類し、その概観を示す。また、各手法に対応するライブラリを紹介し、大規模データに対する探索を行いたい場合にどのように手法を選択すべきかの道筋を示す。

              近似最近傍探索の最前線
            • 畳み込み+Attention=最強?最高性能を叩き出した画像認識モデル「CoAtNet」を解説! - Qiita

              1. CoAtNetの解説 1.1 畳み込みとSAの復習 コンピュータビジョンで用いられている大きな仕組みに畳み込みとSelf-Attention(=SA)があります。畳み込みではEfficientNet、SAではViTが有名ですね。EfficientNetについてはこちらの拙著記事、ViTについてはこちらの拙著記事をご参照ください。CoAtNetでは、この畳み込みとSAの良いとこ取りをしたブロックを作ることが一番の目的になっています。畳み込みとSAの式を復習しておきましょう。ここでは畳み込みの中でもDW(=Depthwise)畳み込みを取り扱います。そして、本論文では分かりやすさを優先しているのか、式の細かいところ(SAにおけるqkvの埋め込みなど)はあえて排除しているように見えるので、理解しやすいです。 1.1.1 畳み込みの式 本論文では、畳み込みの中でもDW(=Depthwise)

                畳み込み+Attention=最強?最高性能を叩き出した画像認識モデル「CoAtNet」を解説! - Qiita
              • 「AI 画伯」を 100 万人に届けた開発者と Google Cloud | Google Cloud Blog

                編集部注: この投稿は、開発者のさとさん(@sato_neet)へのインタビューをもとに、Google Cloud デベロッパーアドボケイトの佐藤一憲が執筆したものです。名前が似ていますが、同一人物ではありません。Google Cloud Blog には英語版が掲載されています。 さと (@sato_neet) さんが 10 年前に東京の大学を中退したとき、彼はまだ自分がアスペルガー症候群であることを知りませんでした。その後さとさんは看護学校やパン屋さんなどいくつかの道を志したものの、この障害のせいか環境や職場にうまくなじめません。そしていま彼は、全く異なる道を歩み始めました。AI への道です。 さとさんは 2 年前から AI の勉強を始めました。大学でプログラミングの基本は勉強していましたが、Python と JavaScript をより深く学び、AI で何か楽しい作品を作りコミュニティ

                  「AI 画伯」を 100 万人に届けた開発者と Google Cloud | Google Cloud Blog
                • 物体検出のDeepLearning読むべき論文7選とポイントまとめ【EfficientDetまでの道筋】 - Qiita

                  お久しぶりです。 2012年のHintonさんのAlexNetによるILSVRCでの圧勝を皮切りに、画像認識の世界でもDeepLearningが脚光を浴びることとなりました。 物体検出の世界でも現在DeepLearningを用いたモデルが主流になっています。 https://paperswithcode.com/sota/object-detection-on-coco を見ると、 COCO test-devにおいて、state-of-the-art(SoTA)のモデルはEfficientDet-D7xのようです。 独断と偏見も少々ありますが、そのEfficientDetを理解するために読むべき論文を7つ集めてみました。 DeepLearning以降の物体検出に焦点を当てて、出来るだけ簡潔につらつらと書いていきたいと思います。 物体検出とは 物体検出について知らないという人は以下の動画を見

                    物体検出のDeepLearning読むべき論文7選とポイントまとめ【EfficientDetまでの道筋】 - Qiita
                  • ダーツが命中するかどうか、刺さる直前に教えてくれる装置を作った - Qiita

                    ダーツが狙ったところに刺さるかどうか、投げた直後、つまり刺さる直前にお知らせすることで、0.2秒待てば分かることを0.2秒前に知って一喜一憂するためのアプリを作りました。 何を作ったか まず、的に向かってダーツを投げましょう。その様子をカメラで撮影し、その映像をもとにPCで姿勢推定を行います。推定された姿勢をもとに、ルールベースでダーツを投げたことをPCで検知します。 投てきを検知したら、1秒分のデータをさかのぼって機械学習モデルに入力し、ダーツがブル(中心)に刺さるのかどうか予測します。その際、Edge TPUという高速で機械学習の予測を行うデバイスを利用します。 機械学習の判定の結果、ブルに刺さると思ったら「ピンポーン」外れると予測されたら「ブブー」と音がなって知らせてくれます。この時点でまだダーツは刺さっていません。 もし、外れると予測されたら悲しいですよね。まだダーツは刺さっていま

                      ダーツが命中するかどうか、刺さる直前に教えてくれる装置を作った - Qiita
                    • ブラウザで動くリアルタイム画像/音声処理アプリをStreamlitでサクッと作る

                      Overview 画像/音声処理をリアルタイムで行う、Webブラウザから利用できるアプリをStreamlitで作る方法を解説します。 StreamlitのおかげでPythonだけでwebアプリが作れます。さらに、一番簡単な例なら10行程度のPythonコードで、webカメラを入力にしてブラウザから利用できるリアルタイム画像処理アプリケーションになります。 Webベースなのでクラウドにデプロイでき、ユーザに簡単に共有して使ってもらえ、UIもイマドキで綺麗です。 人物・物体検知、スタイル変換、画像フィルタ、文字起こし、ビデオチャット、その他様々な画像・音声処理の実装アイディアをデモ・プロトタイピングするのになかなかハマる技術スタックではないでしょうか。 Webブラウザから利用できる物体検知デモの例。実行中に閾値をスライダーで変えられる。オンラインデモ🎈 同様にスタイル変換デモの例。実行中にモ

                        ブラウザで動くリアルタイム画像/音声処理アプリをStreamlitでサクッと作る
                      • 自然言語処理とVision-and-Language / A Tutorial on NLP & Vision-and-Language

                        2022年度人工知能学会全国大会(第36回) チュートリアル講演資料

                          自然言語処理とVision-and-Language / A Tutorial on NLP & Vision-and-Language
                        • 効率的学習 / Efficient Training(メタサーベイ)

                          cvpaper.challenge の メタサーベイ発表スライドです。 cvpaper.challengeはコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ作成・アイディア考案・議論・実装・論文投稿に取り組み、凡ゆる知識を共有します。 http://xpaperchallenge.org/cv/ Read less

                            効率的学習 / Efficient Training(メタサーベイ)
                          • NLPとVision-and-Languageの基礎・最新動向 (2) / DEIM Tutorial Part 2 Vision-and-Language

                            DEIM2023 第15回データ工学と情報マネジメントに関するフォーラム チュートリアル講演資料 Part2: Vision-and-Language

                              NLPとVision-and-Languageの基礎・最新動向 (2) / DEIM Tutorial Part 2 Vision-and-Language
                            • コンピュータビジョンの最新論文調査 2D Human Pose Estimation 編 | BLOG - DeNA Engineering

                              はじめに こんにちは、AIシステム部でコンピュータビジョンの研究開発をしている加藤です。我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回は 2D Human Pose Estimation 編として加藤直樹 ( @nk35jk ) が調査を行いました。 本記事では 2D Human Pose Estimation に関する代表的な研究事例を紹介するとともに、2019年10月から11月にかけて開催されたコンピュータビジョンのトップカンファレンスである ICCV 2019 に採録された 2D Human Pose Estimation の最新論文を紹介します。 過去の他タスク編については以下をご参照ください。 Human Recognition 編 (2019/04/26) 3D Vision 編 (2019/06/04) キーポイント検

                                コンピュータビジョンの最新論文調査 2D Human Pose Estimation 編 | BLOG - DeNA Engineering
                              • NLPとVision-and-Languageの基礎・最新動向 (1) / DEIM Tutorial Part 1: NLP

                                DEIM2023 第15回データ工学と情報マネジメントに関するフォーラム チュートリアル講演資料 Part1: NLP

                                  NLPとVision-and-Languageの基礎・最新動向 (1) / DEIM Tutorial Part 1: NLP
                                • ディープラーニングの先端技術、マルチモーダルの日本語モデルを作ってみた【日本語VL-T5】 - Qiita

                                  要点 マルチモーダル深層学習って何?Vision-Language Modelって何?という方向けに、 Google Colabで実際に学習済みモデルを動かしながら技術概要を理解していただけるチュートリアル記事です。 マルチモーダルの時代が到来 この10年、ディープラーニングの登場により、画像の分類や、文章読解(日本語等の自然言語によるQA)などが高い精度で自動化できるようになりましたね。 しかし、画像は画像、自然言語は自然言語・・・と、それぞれに特化した手法の開発が中心で、それらが混在したマルチメディア(マルチモーダル)の問題へのチャレンジは少ない状況に長らくありました。マルチモーダルの重要性は人間の様々な知的判断の場面を思い返せば分かりますね。実課題解決において重要なAI技術分野といえます。 シングルモーダルが中心だった潮目はこの1年くらいで変わり、昨今、マルチモーダルな深層学習モデル

                                    ディープラーニングの先端技術、マルチモーダルの日本語モデルを作ってみた【日本語VL-T5】 - Qiita
                                  • GitHub - Linzaer/Ultra-Light-Fast-Generic-Face-Detector-1MB: 💎1MB lightweight face detection model (1MB轻量级人脸检测模型)

                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                      GitHub - Linzaer/Ultra-Light-Fast-Generic-Face-Detector-1MB: 💎1MB lightweight face detection model (1MB轻量级人脸检测模型)
                                    • TechCrunch

                                      The European Union will apply its flagship market fairness and contestability rules to Apple’s iPadOS, the Commission announced today — expanding the number of Apple-owned platforms regula

                                        TechCrunch
                                      • Teslaは世界最高速のAIプロセッサを発表、自動運転車開発でメーカーがAIスパコンを開発し垂直統合が進む

                                        TeslaはAIイベント「AI Day」で自動運転車開発の最新状況を公開した。自動運転の中核技術は高度なコンピュータビジョンで、これを開発するためにはAIスパコンが必要となる。TeslaはAIプロセッサを開発し、これをベースに独自のAIスパコンを構築した。更に、自動運転技術をロボットに応用したヒューマノイドを開発することを明らかにした。 発表概要 Teslaの自動運転技術は「Full Self-Driving(FSD)」(上の写真)と呼ばれ、他社とは異なり、カメラだけでクルマが自律走行する。AIはカメラの映像を解析し周囲のオブジェクトを把握するが、ニューラルネットワークの規模が巨大になり、また、アルゴリズムを教育するために大量のデータを必要とする。このため、Teslaは独自でAIプロセッサ「D1 Chip」を開発し、アルゴリズム教育を超高速で実行する。自動車メーカーがスパコン開発まで手掛け

                                          Teslaは世界最高速のAIプロセッサを発表、自動運転車開発でメーカーがAIスパコンを開発し垂直統合が進む
                                        • 画像の中の文字を見つけるのって今どんな感じなの?まとめてみたんご - Qiita

                                          AdventCalender論文2日目担当のCurryです! 今回は画像の中の文字を見つける技術の昔と最新をまとめました。 意外と文字検出の論文紹介ってないんじゃね!?っていう 画像は参照サイト(各章の先頭のURL)、論文中から引っ張ってきてます 文字検出 画像の中の文字を見つけるのは 文字検出 と呼ばれます。英語では Text Detection とか Text Localization という。 つまりこんなタスク。オレンジ線が文字を囲めてるので、検出ができたと判断できる。 入力画像 出力 文字検出の難しさは、以下のようによく言われる。(いわゆる論文のイントロの謳い文句) 1. 文字の多様性 2. 文字の色 3. 文字のコントラストや背景との混同 4. 文字の大きさが違う 5. 文字の方向(いわゆるアルファベットが斜めになっていたり) ちなみに、、、 文字認識 は文字を判別することなの

                                            画像の中の文字を見つけるのって今どんな感じなの?まとめてみたんご - Qiita
                                          • Imagen: Text-to-Image Diffusion Models

                                            Imagen unprecedented photorealism × deep level of language understanding unprecedented photorealism deep level of language understanding We present Imagen, a text-to-image diffusion model with an unprecedented degree of photorealism and a deep level of language understanding. Imagen builds on the power of large transformer language models in understanding text and hinges on the strength of diffusi

                                            • 2022.9.7 NAIST DSCサマーセミナー「Vision and Language技術の最新動向」

                                              NAIST DSCサマーセミナー2022の発表資料です。 http://www-dsc.naist.jp/dsc_naist/naist-dsc-summer-seminar-2022/

                                                2022.9.7 NAIST DSCサマーセミナー「Vision and Language技術の最新動向」
                                              • 臨床AIはなにができ、何が難しいか: 臨床AI研究開発の3類型 - エムスリーテックブログ

                                                こんにちは、エムスリーエンジニアリンググループ/AI・機械学習チームの大垣 (@Hi_king) です。 これは エムスリー Advent Calendar 2020 の14日目の記事です。 前日は id:juntaki による、Goのchannelとスケジューリングでした。 私達AI・機械学習チームの挑戦している課題としては、MLによるサービス体験の向上、MLを中心とする新規サービスなど諸々あるのですが、 今日は、なかでも、臨床現場で利用するためのAI開発について書いてみようと思います。 上記のスライドはこのテーマで45分ほど社内勉強会を行うために作ったもので、 このなかから、エッセンスをかいつまんでブログ記事にしてみました。 記事中で紹介しきれなかったそれぞれの研究などはスライドをあらためて眺めていただけると幸いです。 私自身は、もともとコンピュータビジョン分野が専門で、医療分野に本格

                                                  臨床AIはなにができ、何が難しいか: 臨床AI研究開発の3類型 - エムスリーテックブログ
                                                • GitHub - wmuron/motpy: Library for tracking-by-detection multi object tracking implemented in python

                                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                    GitHub - wmuron/motpy: Library for tracking-by-detection multi object tracking implemented in python
                                                  • Google Research, 2022 & beyond: Language, vision and generative models

                                                    Language Models The progress on larger and more powerful language models has been one of the most exciting areas of machine learning (ML) research over the last decade. Important advances along the way have included new approaches like sequence-to-sequence learning and our development of the Transformer model, which underlies most of the advances in this space in the last few years. Although langu

                                                      Google Research, 2022 & beyond: Language, vision and generative models
                                                    • GitHub - amzn/computer-vision-basics-in-microsoft-excel: Computer Vision Basics in Microsoft Excel (using just formulas)

                                                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                        GitHub - amzn/computer-vision-basics-in-microsoft-excel: Computer Vision Basics in Microsoft Excel (using just formulas)
                                                      • テニスのフォーム類似度算出〜私のフォアハンドはどの選手と似てる?〜 - はんぺんのIT日記(改)

                                                        はじめに モデル全体像 データ 評価 追加実験 高度化検討 まとめ はじめに こんにちは。はんぺんです。 最近テニスの練習をぼちぼち再開し始めました。 テニスしてる上で、自分ではフェデラー選手と同じようなフォームのフォアハンドで打っているつもりなのですが、人生で一度たりとも「フェデラー選手とフォームが似ているね」と言われたことがないです。ちなみに「フォロースルーがナダル選手と似ている。」と言われたことはあります。 そこで、今回は自分のフォアハンドのフォームがどの選手に似ているかの検証を行いました。 勉強会での登壇資料はこちらになります。 speakerdeck.com モデル全体像 フォームの類似度算出モデルの全体像はこんな感じになります。 今回はスイングの検出自体は手でつけたラベルを用いて行なっています。 スイングの特徴ベクトル算出ではガウス過程回帰を用いており、姿勢推定の見逃しがあった

                                                          テニスのフォーム類似度算出〜私のフォアハンドはどの選手と似てる?〜 - はんぺんのIT日記(改)
                                                        • 【論文解説】自然言語処理と画像処理の融合 - OpenAI 『CLIP』を理解する

                                                          今回はOpenAIの『CLIP(Contrastive Language-Image Pre-training)』を解説したいと思います。 CLIPは画像の分類に利用されるモデルですが、今までのモデルと何が違うかというと、自然言語処理の技術を応用する点です。 一般的な画像分類では、たくさんの画像を用意して、それぞれ対して犬、猫、リンゴ、などのラベルをつけます。 それを教師データとして学習します。 しかしながら、その方法には以下のような問題点があります。 ラベル付けに非常にコストがかかる。ラベルの種類が限定的で、学習対象の種類についてはうまく分類できるが、初めて見る対象(例えば、犬と猫を学習して、果物を分類するなど)については分類精度が低い。 CLIPでは、こういった問題に取り組んでいきます。 ちなみに、CLIPはモデルの仕組みではなく事前学習方法ですので、モデル自体はResNetやVisi

                                                            【論文解説】自然言語処理と画像処理の融合 - OpenAI 『CLIP』を理解する
                                                          • GitHub - activeloopai/deeplake: Database for AI. Store Vectors, Images, Texts, Videos, etc. Use with LLMs/LangChain. Store, query, version, & visualize any AI data. Stream data in real-time to PyTorch/TensorFlow. https://activeloop.ai

                                                            Deep Lake is a Database for AI powered by a storage format optimized for deep-learning applications. Deep Lake can be used for: Storing data and vectors while building LLM applications Managing datasets while training deep learning models Deep Lake simplifies the deployment of enterprise-grade LLM-based products by offering storage for all data types (embeddings, audio, text, videos, images, pdfs,

                                                              GitHub - activeloopai/deeplake: Database for AI. Store Vectors, Images, Texts, Videos, etc. Use with LLMs/LangChain. Store, query, version, & visualize any AI data. Stream data in real-time to PyTorch/TensorFlow. https://activeloop.ai
                                                            • GitHub - DeNA/nota: Web application for image and video labeling and annotation

                                                              Nota is a web application that allows to label and annotate images and videos for use in machine learning. It was created by DeNA Co., Ltd in 2017. It was realeased as Open Source in March 2021. Multiple backends for images and video sources Local Filesystem (mainly used for development) S3 bucket Customizable annotations using JSON templating language Points, binding boxes, polygon annotation in

                                                                GitHub - DeNA/nota: Web application for image and video labeling and annotation
                                                              • TechCrunch

                                                                Rivian is offering discounts up to $5,000 on its EVs — and a year of free charging — to customers willing to trade in their gas-powered trucks and SUVs. The deal, which kicked off April 22, is aim

                                                                  TechCrunch
                                                                • コンピュータビジョン最前線 Winter 2021 - 共立出版

                                                                  コンピュータビジョン研究の最先端をゆくトップランナーたちが織り成す季刊シリーズ創刊!! cvpaper.challengeおよびCVIM研究会全面協力のもと、最新トレンドのサーベイ、いま注目の最重要論文深読み、肝となる技術や理論のチュートリアルの3本柱で、実用性・信頼性のある最先端情報を、毎号ディープに解説。 創刊号のWinter 2021では、まず最新トレンドサーベイ記事「イマドキノCV」で近年のコンピュータビジョン分野において最重要と位置付けられる「データラベルの利活用」や「認識モデルの構築」を扱う。次に論文「フカヨミ」記事を3本掲載し、それぞれ、新規視点画像生成分野で2020年に登場したNeRF、画像処理分野の基本タスクである物体検出技術、いま最も伸びている3D認識アプローチのカテゴリレベル姿勢推定について取り上げる。最後に、チュートリアル記事「ニュウモンVision & Langu

                                                                    コンピュータビジョン最前線 Winter 2021 - 共立出版
                                                                  • GitHub - rerun-io/rerun: Visualize streams of multimodal data. Fast, easy to use, and simple to integrate. Built in Rust using egui.

                                                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                      GitHub - rerun-io/rerun: Visualize streams of multimodal data. Fast, easy to use, and simple to integrate. Built in Rust using egui.
                                                                    • 物体検出のエラー分析ツールTIDE | MoT Lab (GO Inc. Engineering Blog)

                                                                      この記事はMobility Technologies Advent Calendar 2021の18日目です。 こんにちは、AI技術開発AI研究開発第二グループの劉です。私はドラレコ映像から標識などの物体を見つける物体検出技術を開発しているのですが、その精度を改善していくためにはまず検出エラーを細かく分析することが重要です。本記事では、物体検出のエラー分析に関する論文である”TIDE: A General Toolbox for Identifying Object Detection Errors”を解説すると共に、その著者らが公開しているツールを実際に使ってみた結果をご紹介をしたいと思います。 はじめに本記事では、以下の論文を取り上げます。コンピュータビジョンで最も有名な国際学会の一つであるECCV(European Conference on Computer Vision)で202

                                                                        物体検出のエラー分析ツールTIDE | MoT Lab (GO Inc. Engineering Blog)
                                                                      • 画像認識向けTransformerを振り返る - Qiita

                                                                        この頃、バカンスシーズンなのか、ネタ切れなのか、画像向けTransformer論文が一息ついているので、ここでちょっと振り返ってみる。 2017年: そもそもの始まり Attention Is All You Need 自然言語向けに2017年に出たこのGoogle論文で、Attention構造が自然言語の方であっという間に広がる。 当然ながら、この流れで、計算量がかかるAttention部分がどんどんと違う手法で置き換えられた論文が増えてくる。 2019年: 画像認識にうっすらと浸透 画像認識でもConvolutionの代わりにAttentionが使われ始めたので、論文まとめ この記事で書いたように、ConvolutionをAttentionに変えようという論文が2019年からチラホラと出てくる。 この頃は、まだおっかなびっくりAttention構造に取り換えてもいけるぞ、とか、精度変わ

                                                                          画像認識向けTransformerを振り返る - Qiita
                                                                        • An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

                                                                          While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to replace certain components of convolutional networks while keeping their overall structure in place. We show that this reliance on CNNs is not nece

                                                                          • An Introduction to Knowledge Graphs

                                                                            Knowledge Graphs (KGs) have emerged as a compelling abstraction for organizing the world’s structured knowledge, and as a way to integrate information extracted from multiple data sources. Knowledge graphs have started to play a central role in representing the information extracted using natural language processing and computer vision. Domain knowledge expressed in KGs is being input into machine

                                                                              An Introduction to Knowledge Graphs
                                                                            • Google Cloud、エンタープライズ向け生成 AI の利用を拡大 | Google Cloud 公式ブログ

                                                                              ※この投稿は米国時間 2023 年 7 月 19 日に、Google Cloud blog に投稿されたものの抄訳です。 生成 AI の開発は猛烈な勢いで続いており、この破壊的技術を活かせるようなエンタープライズ向け機能を利用できるかどうかがかつてなく重要となっています。 Google の数十年に及ぶ調査とイノベーション、そして AI への投資を活用することで、Google Cloud は常に、セキュリティとデータ ガバナンス、そして全体的なスケーラビリティが用意されている状態で生成 AI を利用できるようにしています。 この目的のため、先月 Google は Vertex AI での生成 AI サポートの一般提供を発表しました。これにより Google Research から優れた基盤モデルにアクセス可能となり、これらのモデルをカスタマイズして利用するためのツールも利用できるようになりま

                                                                                Google Cloud、エンタープライズ向け生成 AI の利用を拡大 | Google Cloud 公式ブログ
                                                                              • 7月新刊情報『コンピュータビジョンのための実践機械学習』

                                                                                『コンピュータビジョンのための実践機械学習 ―モデルアーキテクチャからMLOpsまで』 Valliappa Lakshmanan、Martin Gorner、Ryan Gillard 著、大山 匠 監訳、松田 晃一 訳 2023年7月19日発売予定 512ページ(予定) ISBN978-4-8144-0038-6 定価4,620円(税込) 機械学習モデルを使用して画像に関するさまざまな課題を解くための実践的な解説書。コンピュータビジョンは機械学習で最も注目度の高い分野のひとつです。本書では、機械学習エンジニアやデータサイエンティストを対象に、コンピュータビジョンに関連する機械学習の手法、アーキテクチャ、課題、運用などを網羅的に解説します。読者は、分類、物体検出、セグメンテーション、異常検知、画像生成、キャプション生成といった画像関連の問題を、機械学習で解決する方法を学びます。また、データセ

                                                                                  7月新刊情報『コンピュータビジョンのための実践機械学習』
                                                                                • GitHub - open-mmlab/mmfashion: Open-source toolbox for visual fashion analysis based on PyTorch

                                                                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                                    GitHub - open-mmlab/mmfashion: Open-source toolbox for visual fashion analysis based on PyTorch

                                                                                  新着記事