並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 570件

新着順 人気順

物体検出の検索結果1 - 40 件 / 570件

  • 距離センサ入門(ステレオカメラ、プロジェクション、LiDAR) - arutema47's blog

    Qiitaからのお引越し記事です。 目標 ステレオカメラ 概要 特徴 使用製品 パターンプロジェクションカメラ 概要 使用製品 iPhone ゾゾスーツ 工業製品(Ensenso, キーエンス) Time of Flight LiDAR Time of Flightの原理 特徴 スキャン型LiDAR フラッシュ型LiDAR 製品 Velodyne Series 追記 Livox Horizon iPhone iToF LiDAR 目標 通常のカメラは物体の明るさ、色を抽出するのに対し、距離センサは物体までの距離をセンシングします。そのため3DカメラやDepth Sensorなどと呼ばれたりします。 距離を知ることは多様なアプリケーションにおいて重要であり、例えば自動運転では前方車両までの正確な距離を知ることは必須です。またゲームなどのアプリケーションでは人の動作などを距離センサで抽出するK

      距離センサ入門(ステレオカメラ、プロジェクション、LiDAR) - arutema47's blog
    • ブラックフライデー&サイバーセール開催! Udemyでは何を買う? 編集部の2021年イチ押しトピック10選 - はてなニュース

      新型コロナウイルスの影響で、リモートワーク(テレワーク)やオンラインでの学習といった働き方・学び方の大きな変化は2021年も続いています。そんな2021年もあとわずか。やり残したことや学び残したことはありませんか? オンライン学習プラットフォーム「Udemy」では、2021年11月19日(金)~2021年12月1日(水) の間、年間最大のセール「ブラックフライデー&サイバーセール」 を開催します! 対象の講座がなんと1,200円から購入可能になります。 ブラックフライデーセールは11月19日(金)~11月26日(金)、サイバーセールは11月29日(月)〜12月1日(水)の開催です。11月27日(土)〜11月28日(日)はセール対象外なので、ご注意ください。 講座は買い切りなので、おトクなこの期間に気になる講座を購入しておいて、時間ができたときに自分のペースで学んでみるのもいいかもしれません

        ブラックフライデー&サイバーセール開催! Udemyでは何を買う? 編集部の2021年イチ押しトピック10選 - はてなニュース
      • 30分で完全理解するTransformerの世界

        はじめに 初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。 今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま

          30分で完全理解するTransformerの世界
        • なぜGoogle Meetの背景ぼかしが最強なのか(一般公開版)

          はじめに 最近ついに、Google Meet に背景ぼかし機能が利用可能になりましたよね。日本語だとインプレスのケータイ Watchの記事などで紹介されてます。確か 2020 年 9 月末前後で順次リリースされていたと記憶しています。 このときは「背景ぼかし」の機能しかなかったのですが、最近(私が気づいたのは 2020/10/30)更にアップデートされました。アップデートで「背景差し替え」機能が付いて、ぼかし機能もぼかし効果が強弱 2 つから選べるようになりました。まだ日本語のニュース記事は見てないですが、Googleによるアップデートの発表はちゃんとされています。 そして、Google AI Blog でBackground Features in Google Meet, Powered by Web MLという記事が公開され、実装についての解説がされました。 この記事はその解説記事を

            なぜGoogle Meetの背景ぼかしが最強なのか(一般公開版)
          • GPTの仕組みをちゃんと勉強したい本 - きしだのHatena

            やっぱGPTを仕組みから勉強したい、という本をいくつか見つけたのでまとめておきます。 まず理論的な概要。 機械学習からニューラルネットワーク、CNNでの画像処理、トランスフォーマーでの自然言語処理、音声認識・合成、そしてそれらを組み合わせたマルチモーダルと章が進むので、理論的な概観を得るのにいいと思います。 最初は数式が多いのだけど、Σをfor文だと思いつつ、定義が説明文中に埋まってるPerlよりたちが悪い記号主体言語だと思えば読めるけどめんどくさいので飛ばしても問題ないと思います。 深層学習からマルチモーダル情報処理へ (AI/データサイエンスライブラリ“基礎から応用へ” 3) 作者:中山 英樹,二反田 篤史,田村 晃裕,井上 中順,牛久 祥孝サイエンス社Amazon で、もういきなり作る。 トークナイザーから全部つくっていきます。TensorFlowでBERTをつくってGPT2をつくる

              GPTの仕組みをちゃんと勉強したい本 - きしだのHatena
            • JP Contents Hub

              AWS 日本語ハンズオン Amazon Web Services(AWS) の 日本語ハンズオンやワークショップを、カテゴリごとにまとめています。 右側の目次や、ヘッダー部分の検索ボックスから、各コンテンツにたどり着けます。 また、Ctrl + F や command + F を使ったページ内検索もご活用いただけます。 料金について ハンズオンで作成した AWS リソースは通常の料金が発生します。作成したリソースの削除を忘れずにお願いします。 もし忘れてしまうと、想定外の料金が発生する可能性があります。 画面の差異について ハンズオンで紹介されている手順と、実際の操作方法に差異がある場合があります。 AWS は随時アップデートされており、タイミングによってはハンズオンコンテンツが追いついていない事もあります。 差異がある場合、AWS Document などを活用しながら進めて頂けますと幸い

                JP Contents Hub
              • AI・Python活用レシピ100選 - Qiita

                ※ 一部ガイドラインに反する内容がありましたので、該当箇所を修正のうえ再投稿しております。 はじめに Axross は、エンジニアの"教育"と"実務"のギャップに着目し、「学んだが活用できない人を減らしたい」という想いで、ソフトバンク社内起業制度にて立ち上げたサービスです。 現役エンジニアによる実践ノウハウが"レシピ"として教材化されており、実際に動くものを作りながら、具体的な目的・テーマをもってプログラミングを学ぶことができます。 今回は、Axross運営が厳選した『AI・Python活用レシピを100選』をご紹介します。是非、みなさまのAIやPython学習の参考にしてみてください。 Axross:https://axross-recipe.com 公式Twitter:https://twitter.com/Axross_SBiv 基礎 スクレイピング 01 . JUMPの掲載順をスク

                  AI・Python活用レシピ100選 - Qiita
                • 自動運転車の視界から“人だけ”を消す攻撃 偽情報をLiDARに注入 電通大などが発表

                  Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米ミシガン大学、米フロリダ大学、電気通信大学による研究チームが発表した論文「You Can’t See Me: Physical Removal Attacks on LiDAR-based Autonomous Vehicles Driving Frameworks」は、自動運転車の周囲を検知するセンサーにレーザー光を物理的に照射して、選択的に障害物を見えなくする攻撃を提案した研究報告だ。偽の情報を注入するスプーフィング攻撃で自動運転車の物体検出モデルに影響を与え安全を脅かす。 自動運転車の知覚システムは、LiDARやカメラ、レーダーなどのセンサーを活用して、障害物回避やナビゲーション制

                    自動運転車の視界から“人だけ”を消す攻撃 偽情報をLiDARに注入 電通大などが発表
                  • ChatGPTのコア技術「GPT」をざっくり理解する - Qiita

                    ※本記事はOracleの下記Meetup「Oracle Big Data Jam Session」で実施予定の内容です。 ※セミナー実施済の動画に関しては以下をご参照ください。 本記事の対象者 これから機械学習を利用した開発をしていきたい方 機械学習のトレンド技術を知りたい方 なるべく初歩的な内容から学習したい方 はじめに Transformerの登場以降、著しい技術革新が続くここ数年、特にOpenAI社のChatGPTのサービス開始以降、おびただしい数の技術ブログや記事がインターネット上に存在する中、本記事に目を留めていただいてありがとうございます。 この勉強会では、専門用語や難解な公式を極力排除し、初学者の方々を対象に、「そもそも自然言語の機械学習ってどういうもの?」、「言語モデルって要するに何?」というところからGPTをざっくり理解することを目的としています。従って、本記事に記載のあ

                      ChatGPTのコア技術「GPT」をざっくり理解する - Qiita
                    • Stable Diffusion の仕組みを理解する - ABEJA Tech Blog

                      この記事は、ABEJAアドベントカレンダー2022 の 19 日目の記事です。 こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井です。 世間では Diffusion Model 使った AI による画像生成が流行っているみたいですね。 自分は元々 Computer Vision 系の機械学習エンジニアだったんですが、この1年くらいは AI モデル開発ではなくもっぱらバックエンド開発メインでやっていて完全に乗り遅れた感あるので、この機会に有名な Diffusion Model の1つである Stable Diffusion v1 について調べてみました!*1 では早速本題に入りたいと思います! Stable Diffusion v1 とは? Denoising Diffusion Probabilistic Model(DDPM) 学習時の動作 for

                        Stable Diffusion の仕組みを理解する - ABEJA Tech Blog
                      • Kaggle Expertになるまで勉強したことを全て書く - Qiita

                        はじめに こんにちは。Yuki | Kagglerです! 先日、Shopeeコンペの順位が確定して銀メダルをいただき、晴れてCompetition Expertになることができました。区切りがいいのでここまで取り組んできたことをまとめてみました。 ※ 6/28追記:Amazonのリンクが切れていたので貼り直しました! プログラミング&機械学習を始めて一年、ようやく Kaggle Expertになることができました!! 行列も正規分布も知らず、ターミナルなんて触ったこともない状態からのスタートでしたが、ようやくここまで来ました。 ここまで来れたのは偏にこれまで関わってきた皆様のお陰です。これからも頑張ります!! pic.twitter.com/kMkaFhqhU9 — ユウキ | Kaggler (@Yuki_Kaggler) May 12, 2021 この記事の対象者 Kaggleをやって

                          Kaggle Expertになるまで勉強したことを全て書く - Qiita
                        • 機械学習の全体像をまとめてみた

                          教師あり学習 概要 入力値から何かしらの予測をしたい場合を考えます. 予測する対象の正解データが事前に得られる場合、 入力値から正解データを出力するモデルを学習する手法を教師あり学習と言います. 主なタスク 何を入力して、何を出力するかでタスクが分類されます. 代表的なものに以下が挙げられます 時系列予測: 現在以前の時系列データ ⇒ 未来の時系列データ 画像分類: 画像 ⇒ ラベル 物体検出: 画像 ⇒ 物の位置と種類 セグメンテーション: 画像をピクセル単位で分割 文章分類: 文章 ⇒ ラベル 機械翻訳: ある言語の文章 ⇒ 別の言語の文章 時系列予測 現在以前のデータから将来のデータを予測します. 実用例 株価予測 災害予測 自動車の事故防止システム 主要なアルゴリズム 自己回帰モデル(AR・MA・ARMA・ARIMA) 時系列間の関係を数学的に定量化、モデル化する. 周期性のあるデ

                            機械学習の全体像をまとめてみた
                          • 画像の機械学習が劣化する理由 - Qiita

                            前書き 注意:ここに書いていることは2020年代としては、古すぎる見解になっている。 近年の自己教師あり学習の大幅な進展で、ここで述べているようなアプローチは大幅に古めかしいものになっている。 ・自己教師あり学習の進展は、画像認識タスクに対する共通のbackbone を作り出しており、後段で個々の画像認識タスクに対するfine-tuningをするアプローチに変わってきている。 ・そのため、ラベル付きの限られたデータで特徴量の抽出をしていたのが、自己教師あり学習に基づく特徴量の抽出になっている。 ・各人、自己教師あり学習について調べることをお勧めする。 主旨 単純に学習データを追加するだけでは学習が改善しないことがある。そのような場合へのヒントを著者の限られた経験の中から記述する。 はじめに 画像認識の機械学習を改善するためにはデータを追加すればよい。 そう思っている人が大半だろう。 ただ、

                              画像の機械学習が劣化する理由 - Qiita
                            • IBM、世界初の2nm半導体技術を発表 バッテリー寿命は7nmの4倍

                              米IBMは5月6日(現地時間)、同社研究部門IBM Researchで製造した300mmウェーハ上で、2nmプロセスチップを生み出したと発表した。7nmプロセッサと比較して、約45%の性能向上、あるいは同じ性能レベルでの約75%の電力削減になるとしている。例えば、スマートフォンのバッテリー寿命を4倍にする可能性がある。 第2世代ナノシート技術が2nmノードへの道を開いたとしている。これにより「500億個のトランジスタをほぼ指の爪のサイズのスペースに収めることができる」という。IBMは米AnandTechに対し、指の爪のサイズとは150平方mmのことだと説明した。つまり、トランジスタ密度は1平方mm当たり3億3333万トランジスタということになる。ちなみに台湾TSMCの5nmチップのトランジスタ密度は1平方mm当たり1億7130万トランジスタだ。 IBMは2nmの利点として、スマートフォンの

                                IBM、世界初の2nm半導体技術を発表 バッテリー寿命は7nmの4倍
                              • 遠隔からCPUを数秒で破壊するサイバー攻撃 マザーボードのリモート管理機能をハック、過度の電気を注入

                                Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2 英バーミンガム大学に所属する研究者らが発表した論文「PMFault: Faulting and Bricking Server CPUs through Management Interfaces」は、サーバ用マザーボードに搭載する制御システムの欠陥を攻撃し、遠隔から必要以上の電圧を供給してCPUを破壊しコンピュータを無効にする脆弱性を指摘した研究報告である。 最近のサーバ用マザーボードにはCPUの他に、電源管理用の電圧レギュレーターなどの補助部品を搭載している。これらは、I2CベースのPMBusを介して、CPUおよび個別のベースボード管理コントローラ

                                  遠隔からCPUを数秒で破壊するサイバー攻撃 マザーボードのリモート管理機能をハック、過度の電気を注入
                                • 指先の熱からパスワードを盗む攻撃 入力後のキーボードから押した場所を特定 6文字なら検出精度100%

                                  Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 スコットランドのUniversity of GlasgowとサウジアラビアのTaif Universityによる研究チームが発表した論文「ThermoSecure: Investigating the effectiveness of AI-driven thermal attacks on commonly used computer keyboards」は、キーボードから人の指先の熱を検出し、熱画像を解析してユーザーの入力を推定、パスワードなどを取得する深層学習システムを提案した研究報告だ。入力後20秒以内に撮影した熱画像から86%でパスワードを特定できることが確認された。 キーボード

                                    指先の熱からパスワードを盗む攻撃 入力後のキーボードから押した場所を特定 6文字なら検出精度100%
                                  • FastAPI入門 - モダンなPythonフレームワークの特性をチュートリアルで手軽に学ぶ|ハイクラス転職・求人情報サイト AMBI(アンビ)

                                    FastAPI入門 - モダンなPythonフレームワークの特性をチュートリアルで手軽に学ぶ PythonのWebフレームワークとしていま注目を集めるFastAPIは、シンプルにコードが書けるだけでなく、パフォーマンスが高いWebアプリケーションのバックエンドサーバーが構築可能です。同フレームワークの勘所をPythonスペシャリストの杜世橋さんが、初心者向けのハンズオン、そしてより実践的な画像への自動タグ付けサービス実装をとおして解説します。 FastAPIはいま非常に注目されているPythonのWebフレームワークの1つです。Flaskのようにシンプルに書ける一方でPythonのType Hintの機能をうまく活用し、HTTPのリクエスト/レスポンスをPythonの関数の引数/戻り値とシームレスにマッピングして非常に効率的に開発ができるのが最大の特徴です。非同期処理にも対応していてその名

                                      FastAPI入門 - モダンなPythonフレームワークの特性をチュートリアルで手軽に学ぶ|ハイクラス転職・求人情報サイト AMBI(アンビ)
                                    • おわりに - なぜ機械学習はうさん臭く感じられるのか? / 真面目なプログラマのためのディープラーニング入門

                                      本講座では計8回にわたり、ディープニューラルネットワークの原理と実装について 説明してきた。ニューラルネットワークの原理は基本的には 勾配降下法であり、その基盤となっているのが関数の微分可能性である。 ニューラルネットワークにはさまざまな形態が存在するが、 画像処理・画像認識の場合は畳み込みニューラルネットワークが非常に 有効であることがわかっている。また、ニューラルネットワークの 出力形式や損失関数を変えることにより、ニューラルネットワークが 物体検出や奥行き推定など、さまざまなタスクに利用可能であることを紹介した。 さて、本講座は「真面目なプログラマのための」ディープラーニング入門、 と銘打っている。真面目なプログラマとは何か? 諸説いろいろあるだろうが、 多くのプログラマは、ソフトウェア開発において 仕様の明確さや、 システムの効率・堅牢性、そして 保守のしやすさといったものを 追求

                                      • 新卒ポーカープレイヤーが山籠りして機械学習エンジニアになった話 - 新卒ポーカープレイヤーの日記

                                        2019年8月某日AM5:30、カビ臭い布団で目を覚ます。今日も今日とて身体中が痒い。ここは、平均標高1200mの某町のさらに外れにある、季節労働者用の寮。押し入れ下段の布団は腐っている。水道管は朽ちており、顔を洗うのも憚れるような茶色い水しか出てこない。昨晩試しに買ったアメスピの新作は不味い。ああ、早く部屋を出なければ、朝飯の時間に間に合わない。 起きたままの格好で山道を10分ほど下り、作業員の待機室に着く。いつもは各々が無言で具の少ない味噌汁を啜っているのだが、今日は何やら騒然としている。どうやら昨晩、調理場のおじさんが料理長に泣きながら土下座し、「故郷(クニ)へ帰らせて頂きやす!」と言い放ち、寮から脱走したらしい。面白すぎる。しかし、そんな空気を一掃するように作業開始のベルは鳴る。 ペアで働く同僚は、40歳を過ぎている。しかし、その所作に落ち着きはなく、話していると少年を相手にしてい

                                          新卒ポーカープレイヤーが山籠りして機械学習エンジニアになった話 - 新卒ポーカープレイヤーの日記
                                        • 達人出版会

                                          探検! Python Flask Robert Picard, 濱野 司(訳) BareMetalで遊ぶ Raspberry Pi 西永俊文 なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う! オープンソースライセンス 可知豊 きつねさんでもわかるLLVM 柏木餅子, 風薬 R/RStudioでやさしく学ぶプログラミングとデータ分析 掌田津耶乃 データサイエンティストのための特徴量エンジニアリング Soledad Galli(著), 松田晃一(訳) 実践力をアップする Pythonによるアルゴリズムの教科書 クジラ飛行机 スッキリわかるサーブレット&JSP入門 第4版 国本 大悟(著), 株式会社フレアリンク(監修) 徹底攻略 基本情報技術者教科書 令和6年度 株式会社わくわくスタディワール

                                            達人出版会
                                          • WebAssemblyでの機械学習モデルデプロイの動向

                                            本記事はMLOps Advent Calendar 2020の 2 日目の記事です。 WebAssembly(Wasm)は機械学習モデルをデプロイする新たな手段になりうるでしょうか。 この記事では、機械学習モデル(特に Deep Learning)を Wasm でデプロイする周辺技術の動向や内部の仕組みをざっくりと説明します。 Table of Contents tkat0 です。WebAssembly(Wasm)面白いですね。 私も最近はyewでフロントエンドを書いて遊んでいます。Rust で React っぽいことできるのは新鮮で面白いです。 Wasm は、なんとなく速い JavaScript?とか機械学習で何に役立つの?とか思ってる方も多いと思います。 しかし、Wasm はブラウザでの推論時に使えるだけでなく、機械学習モデルのサービングやエッジデバイスでの推論にも使えると知ったら驚き

                                              WebAssemblyでの機械学習モデルデプロイの動向
                                            • 【自動運転】信号機認識に挑む / 走行画像15,000枚のアノテーションとYOLOXモデルによる深層学習実践

                                              こんにちは。TURING株式会社でインターンをしている、東京大学学部3年の三輪と九州大学修士1年の岩政です。 TURINGは完全自動運転EVの開発・販売を目指すスタートアップです。私たちの所属する自動運転MLチームでは完全自動運転の実現のため、AIモデルの開発や走行データパイプラインの整備を行っています。 完全自動運転を目指すうえで避けて通れない課題の一つに信号機の認識があります。AIが信号機の表示を正しく理解することは、自動運転が手動運転よりも安全な運転を達成するために欠かせません。信号機を確実に認識したうえで、周囲の状況を総合的に判断して車体を制御し、安全かつ快適な走行を実現する必要があります。 TURINGでは信号機の認識に取り組むため、15,000枚規模のデータセットを準備し、高精度なモデルのための調査・研究を開始しました。この記事ではデータセットの内製とその背景にフォーカスしつつ

                                                【自動運転】信号機認識に挑む / 走行画像15,000枚のアノテーションとYOLOXモデルによる深層学習実践
                                              • 日本語OCRはなぜ難しい? NAVERのエンジニアが語る、テキスト検出における課題と解決策

                                                2019年11月20、21日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2019」が開催されました。1日目は「Engineering」をテーマに、LINEの技術の深堀りを、2日目は「Production」をテーマに、Web開発技術やUI/UX、プロジェクトマネジメントなど、より実践的な内容についてたくさんのプレゼンテーションが行われました。「NAVER ClovaのOCR(光学的文字認識) 」に登壇したのはNAVER OCR Team AI ResearcherのHwalsuk Lee氏。深層学習を用いたOCR技術の仕組みについて語りました。講演資料はこちら LINEのOCR技術の仕組み Hwalsuk Lee氏:みなさま、こんにちは。Hwalsuk Leeと申します。NAVER Clova OCR Teamから参りました。今

                                                  日本語OCRはなぜ難しい? NAVERのエンジニアが語る、テキスト検出における課題と解決策
                                                • Raspberry Pi 4のディープラーニングで画像認識する環境をゼロから1時間で構築する方法 - karaage. [からあげ]

                                                  「Raspberry Pi Advent Calendar 2019」の3日目記事です。 ラズパイ5・最新OSでのセットアップ記事を追記しました 最新のラズパイ5や最新OSでの環境構築は、以下記事も合わせて参照ください。 ラズパイ4を入手しました ラズパイ4を入手しました。色々事情があり、ポケットに入れて叩いたら2台に増えてしまいました。 ラズパイ4が2つ 手に入ったものは仕方ないので、恒例のセットアップと洒落込みたいと思います。ラズパイ4からラズパイ始める人もいるかもしれませんしね。そして今までラズパイ使っていたユーザーとして、4でCPU・メモリが大幅にスペックアップしているので、せっかくならそれらを体感できて役に立ちそうなアプリを動かしてみることにしました。 というわけで、ほどよく処理が重く、役に立ちそう(?)なディープラーニングを使った画像認識(正確には物体検出)を試したいと思います

                                                    Raspberry Pi 4のディープラーニングで画像認識する環境をゼロから1時間で構築する方法 - karaage. [からあげ]
                                                  • 畳み込み+Attention=最強?最高性能を叩き出した画像認識モデル「CoAtNet」を解説! - Qiita

                                                    1. CoAtNetの解説 1.1 畳み込みとSAの復習 コンピュータビジョンで用いられている大きな仕組みに畳み込みとSelf-Attention(=SA)があります。畳み込みではEfficientNet、SAではViTが有名ですね。EfficientNetについてはこちらの拙著記事、ViTについてはこちらの拙著記事をご参照ください。CoAtNetでは、この畳み込みとSAの良いとこ取りをしたブロックを作ることが一番の目的になっています。畳み込みとSAの式を復習しておきましょう。ここでは畳み込みの中でもDW(=Depthwise)畳み込みを取り扱います。そして、本論文では分かりやすさを優先しているのか、式の細かいところ(SAにおけるqkvの埋め込みなど)はあえて排除しているように見えるので、理解しやすいです。 1.1.1 畳み込みの式 本論文では、畳み込みの中でもDW(=Depthwise)

                                                      畳み込み+Attention=最強?最高性能を叩き出した画像認識モデル「CoAtNet」を解説! - Qiita
                                                    • Teslaはカメラを使ってどのように世界を認識しているか

                                                      はじめに TURINGの井ノ上です。TURINGは「We Overtake Tesla」をミッションに、完全自動運転EVの開発・製造を行っています。TURINGはEnd-to-Endな深層学習モデルでLv5完全自動運転車の開発を目指しています。現在、TURINGではカメラセンサから得た画像を用いて車体の操作や経路選択、安全性の判断を行えるAIモデルの開発を行っています。(実際の車を動かす事例はこちらの記事やこちらの記事をご覧ください。) この記事では私達が目標としているTeslaの自動運転のAIモデルについて紹介します。 Teslaの自動運転 こちらは2022年に公開されたTeslaの自動運転をユーザーが使っている動画です。 車の中央にあるディスプレイにはAIが道路や車を認識してどういった経路を進むかを示しており、その情報をもとに自動運転している様子があります。Teslaの自動運転の能力の

                                                        Teslaはカメラを使ってどのように世界を認識しているか
                                                      • 近似最近傍探索Indexを作るワークフロー - ZOZO TECH BLOG

                                                        はじめに こんにちは。ZOZO研究所のshikajiroです。主に研究所のバックエンド全般を担当しています。ZOZOでは2019年夏にAI技術を活用した「類似アイテム検索機能」をリリースしました。商品画像に似た別の商品を検索する機能で、 画像検索 と言った方が分かりやすいかもしれません。MLの開発にはChainer, CuPy, TensorFlow, GPU, TPU, Annoy、バックエンドの開発にはGCP, Kubernetes, Docker, Flask, Terraform, Airflowなど様々な技術を活用しています。今回は私が担当した「近似最近傍探索Indexを作るワークフロー」のお話です。 corp.zozo.com 目次 はじめに 目次 画像検索の全体像説明 Workflow Develop Application 推論APIの流れ 近似最近傍探索とAnnoy 近似

                                                          近似最近傍探索Indexを作るワークフロー - ZOZO TECH BLOG
                                                        • プログラミング初心者がKaggle Expertになるまでの10ヵ月間を振り返る - Qiita

                                                          Kaggle Expertになったので、イキってポエムを書こうと思いました。 AIに興味あるけどプログラミングすらできないんだよねという人向けの参考になれば幸いです。 1. 初期スペック (2019年2月) 機械工学系修士卒。よくいるメカニカルエンジニア 線形代数も統計も正直そんなに好きじゃない。力学の方が得意。 AI?あれでしょ。将棋超強いやつでしょ? パイソン?スト2のボクサーみたいなやつ? 2. 現在のスペック (2019年12月) Kaggle Expert (微妙?) 機械学習コンペでそれなりの成績 (Kaggle Kuzushiji Recognition 7th,Signate tellus 3rd 5th) 機械学習:なんとなくコーディングできる。 深層学習:なんとなくコーディングできる。 関連論文読める。簡単なものは実装できる。 業務適用も見えてきた 3. 機械学習を学ん

                                                            プログラミング初心者がKaggle Expertになるまでの10ヵ月間を振り返る - Qiita
                                                          • メルカリ・ヤフー・ZOZO開発者が語る「画像検索」の最前線!  Bonfire Data & Science #1 イベントレポート

                                                            ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog 祝! データサイエンス領域で初めての Bonfire!! そんな記念すべき初回のイベントレポートを書かせていただきます、Yahoo!ショッピングでサイエンス領域を担当している東孝信です。 Bonfire Data & Scienceは、データとサイエンスに関わる人たちが情報共有できる勉強会/交流会です。 今後も定期的に開催される予定ですので、興味のある方は第2回以降もぜひチェックしてください! さて、第1回のテーマは「画像検索」です! 最近EC系のサイトで類似画像検索が出来るようになったけどどうやってるの? 画像検索のモデルってどうしてるの? 画像検索のインフラはどうしてるの? 私たちの会社でも画像検索を用いたサービスを構築できる

                                                              メルカリ・ヤフー・ZOZO開発者が語る「画像検索」の最前線!  Bonfire Data & Science #1 イベントレポート
                                                            • Bardのようなimage2textAIを構築して動画検索システムを作る

                                                              Turing株式会社の自動運転MLチームでインターンをしている東大B4の中村です。 突然ですが、web検索のように簡単に、ストレージ内に保存されている、日時以外のメタ情報のない動画が検索出来るようになったら幸せになれると思いませんか? 例えば「赤信号で車が停止している」という検索クエリに対して、実際に赤信号で停止している動画が返ってきたら、簡単にそれを信号検知+停止のモデル学習に使えるようになります。 今回私が開発した動画検索システムはこれをAIの力を借りて実現しました。これにより、格段に動画検索の利便性が増し、より多様な動画を簡単に使用できるようになりました。今回はそのシステムについて紹介します。 ワンパンで動画を探せると嬉しい 課題 Turingでは、走行パートナーの方々と共に大量の走行データを収集してきました。車両にカメラ・データ収集キットを載せて、文字通り毎日朝から晩までデータを取

                                                                Bardのようなimage2textAIを構築して動画検索システムを作る
                                                              • 物体検出のDeepLearning読むべき論文7選とポイントまとめ【EfficientDetまでの道筋】 - Qiita

                                                                お久しぶりです。 2012年のHintonさんのAlexNetによるILSVRCでの圧勝を皮切りに、画像認識の世界でもDeepLearningが脚光を浴びることとなりました。 物体検出の世界でも現在DeepLearningを用いたモデルが主流になっています。 https://paperswithcode.com/sota/object-detection-on-coco を見ると、 COCO test-devにおいて、state-of-the-art(SoTA)のモデルはEfficientDet-D7xのようです。 独断と偏見も少々ありますが、そのEfficientDetを理解するために読むべき論文を7つ集めてみました。 DeepLearning以降の物体検出に焦点を当てて、出来るだけ簡潔につらつらと書いていきたいと思います。 物体検出とは 物体検出について知らないという人は以下の動画を見

                                                                  物体検出のDeepLearning読むべき論文7選とポイントまとめ【EfficientDetまでの道筋】 - Qiita
                                                                • 機械学習・ディープラーニング関係の初心者が独学するのにオススメの書籍 - karaage. [からあげ]

                                                                  機械学習・ディープラーニング関係の本を整理してみた 以下のような事情もあり、初心者向けに良い本って何だろうなと家にある機械学習・ディープラーニング関係の書籍を引っ張り出してきました。 新入社員としてAI人材が来るという話を聞いていたので「色々教えてもらおう!」と楽しみにしていたのですが、配属直前になって「ソフトウェアの経験は無いらしい、AI人材に育ててほしい」と言われたときの顔してます。そんなことある?— からあげ (@karaage0703) June 5, 2020 紙の書籍 電子書籍 正確には、紙の本も電子書籍もここに無いもの(noteやboothで買ったもの)が数冊あるので、全部入れて40冊程度でした。なんとなく100冊くらいは読んでるかと思っていたのですが全然でした。人間の感覚って当てにならないものですね。ただ、良く考えると、何か1つのジャンルで10冊も書籍持っているかというと、

                                                                    機械学習・ディープラーニング関係の初心者が独学するのにオススメの書籍 - karaage. [からあげ]
                                                                  • 達人出版会

                                                                    探検! Python Flask Robert Picard, 濱野 司(訳) BareMetalで遊ぶ Raspberry Pi 西永俊文 なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う! オープンソースライセンス 可知豊 きつねさんでもわかるLLVM 柏木餅子, 風薬 デザインディレクション・ブック 橋本 陽夫 現場のプロがやさしく書いたWebサイトの分析・改善の教科書【改訂3版 GA4対応】 小川 卓 解釈可能なAI Ajay Thampi(著), 松田晃一(翻訳) PowerPoint 目指せ達人 基本&活用術 Office 2021 & Microsoft 365対応 PowerPoint基本&活用術編集部 ランサムウェア対策 実践ガイド 田中啓介, 山重徹 TODによるサステナ

                                                                      達人出版会
                                                                    • 2020年超盛り上がり!自己教師あり学習の最前線まとめ! - Qiita

                                                                      オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介していますので、人工知能のことをもっと知りたい方などは @omiita_atiimoをご覧ください! 他にも次のような記事を書いていますので興味があればぜひ! わずか1%のラベルでImageNet高精度「SimCLR」解説 出きたてホヤホヤ!最新オプティマイザー「AdaBelief」を解説! 画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! 新たな活性化関数「FReLU」誕生&解説! 自然言語処理の王様「BERT」の論文を徹底解説 2021/02/28 SimCLRのバッチサイズに関する記述を修正 2020年に大きく盛り上がりを見せた分野に自己教師あり学習(=Self-Supervised Learning(SSL))があります。SSLとは名前の通り自分で教師を用意するような手法で、デー

                                                                        2020年超盛り上がり!自己教師あり学習の最前線まとめ! - Qiita
                                                                      • 人気No.1プログラミング言語「Python」の入門から応用まで幅広いレベルの講座が分かりやすいムービー形式でサクッと学べるオンライン学習プラットフォーム「Udemy」

                                                                        世界で4400万人以上が利用し、様々な分野の専門知識を持った講師による講義をムービー形式で受講できるUdemyが、利用者の学習トレンド動向を調査した報告書によると、「最も学びたいテックスキル」ランキングで1位に輝いたのは人工知能や機械学習、ウェブアプリ作成など、多くの分野でよく利用されるプログラミング言語の「Python」でした。プログラマーが本当に支持するプログラミング言語ランキングでも1位に輝くなど不動の地位を築き上げているPythonについて、学習を進めていくのにぴったりなUdemyの講座をさまざまな難易度・分野からピックアップしてみました。 オンラインコース -世界最大級のオンライン学習プラットフォーム- Udemy https://www.udemy.com/ ・目次 ◆1:完全に知識ゼロでも大丈夫な初心者向け解説講座 ◆2:シリコンバレーエンジニア直伝のPython入門講座 ◆

                                                                          人気No.1プログラミング言語「Python」の入門から応用まで幅広いレベルの講座が分かりやすいムービー形式でサクッと学べるオンライン学習プラットフォーム「Udemy」
                                                                        • Kaggleランカーの9人に聞いた、2020年面白かったコンペ9選と論文9選 | 宙畑

                                                                          9名のKagglerの方にアンケートにご協力いただき、2020年に面白かったコンペと論文を教えていただきましたのでその結果を紹介します。 2020年も数多くのデータ解析コンペが開催され、興味深い論文が多く発表されました。 昨年公開した「Kaggle上位ランカーの5人に聞いた、2019年面白かったコンペ12選と論文7選」は現時点で20,000人を超える方にご覧いただき、Kaggleを始めとするデータ解析コンペへの関心が非常に高まっていると感じました。 そして本年も9名のKagglerの方にアンケートにご協力いただき、2020年に面白かったコンペと論文を教えていただきましたのでその結果を紹介します。 (1)回答いただいたKaggler9名のご紹介 まずは今回のアンケートに回答いただいたのは以下9名のKagglerの方です。 aryyyyyさま(@aryyyyy221) カレーちゃんさま(@cu

                                                                            Kaggleランカーの9人に聞いた、2020年面白かったコンペ9選と論文9選 | 宙畑
                                                                          • 日本語正式サポートされた自然言語処理ライブラリspaCyのStreamlit可視化が超お手軽だった - OPTiM TECH BLOG

                                                                            R&D チームの徳田(@dakuton)です。 最近、spaCyの日本語版モデルが正式サポートされたのでいろいろ触ってみたところ、解析結果ビジュアライズを全部まとめるStreamlitアプリも同じ月に提供されていることがわかったので、今回はそちらを紹介します。 なお、ビジュアライズ機能の一部(係り受け解析)は1年前の記事「その他」で紹介しています。 tech-blog.optim.co.jp 実行手順 spaCyのUniverseプロジェクトであるspacy-streamlitをインストールします。 pip install spacy-streamlit 起動用スクリプト(streamlit_app.py) import os import pkg_resources, imp import spacy_streamlit models = ["ja_core_news_lg", "ja_

                                                                              日本語正式サポートされた自然言語処理ライブラリspaCyのStreamlit可視化が超お手軽だった - OPTiM TECH BLOG
                                                                            • 「AI多すぎ、何使えばいいか分からない……」を解決するAI「HuggingGPT」 文章入力だけで、適切な機械学習モデルを自動選択

                                                                              Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2 中国の浙江大学とMicrosoft Research Asiaに所属する研究者らが発表した論文「HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace」は、大規模言語モデル(LLM)と多数の機械学習モデルを連携し、ユーザーがテキストを入力するだけで、その内容を解決するための適切な機械学習を選んでくれるシステムを提案した研究報告である。 今回はChatGPTと、LLMの機械学習モデルやデータセットなどが共有されているプラットフォーム「Hugging Face」(詳細

                                                                                「AI多すぎ、何使えばいいか分からない……」を解決するAI「HuggingGPT」 文章入力だけで、適切な機械学習モデルを自動選択
                                                                              • 【人類最難関の挑戦】サイゼリヤの間違い探しを現代技術を駆使し片面だけで解く(深層学習) - Qiita

                                                                                プロローグ ※この章は読み飛ばしても構いません 多くの人が挑むも解くことが叶わなかった人類史上の難問といわれるものがいくつかある. 数学界で最も有名な難問といえばおそらく「フェルマーの最終定理」であろう.弁護士であり数学者であったフェルマーが「解答を書くにはこの余白は狭すぎる」と書き残してこの世を去って以来,天才ワイルズが現代数学の成果を結集して証明を完成させるまで300年以上も数学者たちの挑戦を退け続けた.その他にも,京都大学の望月教授が宇宙際タイヒミュラー理論を用いて証明したといわれるABC予想や,7つのうち6つが現在も未解決であるミレニアム懸賞問題などはあまりにも有名である. 一方数学以外でも,例えば宇宙の始まりを巡る議論は多くの人を惹きつけてきた難問であり,アインシュタインやホーキングら天才たちの研究によって徐々にその姿が明らかになってきた.「我々はどこから来たのか,我々は何者か,

                                                                                  【人類最難関の挑戦】サイゼリヤの間違い探しを現代技術を駆使し片面だけで解く(深層学習) - Qiita
                                                                                • 機械学習でなんとかしようと安易に考えるな - Qiita

                                                                                  世の中にはよい機械学習の結果が存在する。高い精度で推論(分類・検出)できるものがある。 だから、データの特性が、元々の想定から変わった時にも「機械学習だから、学習させればなんとかなるよね」と期待する人がいるかもしれない。 この文章は、そのような安易な考え方に立つことを戒めるために書く。 (もちろん、機械学習は今までになかった価値をいろんな分野にもたらす可能性が極めて高い。) (主張したいことは、 ビジネスとして見返りが期待できる内容の機械学習をすること。 100%の精度が期待できる機械学習は、そんなに多くない。それでも見返りが期待できる使い方をしてほしい。 1人のエンジニアに支援なしに丸投げするのではなく、チームとしての支援が有効であること。 最初の問題設定を疑ってかかること。手書き文字認識の強化で宅配便の伝票をなんとかするよりは、手書きを必要としない方がいい。 ) garbage in

                                                                                    機械学習でなんとかしようと安易に考えるな - Qiita