並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 296件

新着順 人気順

R-CNNの検索結果201 - 240 件 / 296件

  • 鳥の目線:鶏の幸福の指標としての行動と姿勢の測定

    Birds' Eye View: Measuring Behavior and Posture of Chickens as a Metric for Their Well-Being 鶏肉の幸福は、増大する世界の人口の食料安全保障とより良い栄養を確保するために重要です。この研究では、鶏の健康状態を測定するための指標として行動と姿勢を表します。ペン内の鶏の姿勢と行動を検出する目的で、2つのアルゴリズムを採用しています。たとえば、セグメンテーション用のマスクR-CNNと、分類用のResNet50と組み合わせたYOLOv4です。私たちの結果は、マスクR-CNNを使用した姿勢と行動の検出で88.46%の加重F1スコア、YOLOv4を使用した行動検出で平均91%の精度、姿勢検出で86.5%の平均精度を示しています。これらの実験は、姿勢と行動の両方の測定について、制御されていないシナリオで実施されま

      鳥の目線:鶏の幸福の指標としての行動と姿勢の測定
    • 深層学習による舌画像診断:舌から全身の不調がわかる!? Part3

      3つの要点 ✔️人固有の体質は,東洋医学における病気と治療方針の決定要因であり、中医学の考え方に基づく9タイプに分類するタスクであるが、診断には主観性・経験が必要であり一般化が困難な課題があるため、舌画像を用いた深層学習に関心が集まっている ✔️ 本論文では、舌画像から体質を自動識別するために、舌画像の検出、キャリブレーション、また、環境条件・不均等な分布の影響に対処するため個々の舌画像の複雑さに応じて分類器を選択するCP法を提案した ✔️ 病院で撮影された3種類のサイズの舌画像を用いた評価結果は,提案手法がResNet・VGG-16といった従来モデルよりも高い性能を持ち、データセットを複雑性で分類し、分類器を使い分けることの有用性が示唆された Complexity perception classification method for tongue constitution recog

        深層学習による舌画像診断:舌から全身の不調がわかる!? Part3
      • グーグルとエヌビディアが「AIスパコン」で激突、世界最速はどっちだ

        人工知能(AI)用スーパーコンピューターのランキングが今年も6月に発表された。理化学研究所の富岳が3連覇を達成した「TOP500」の話ではない。機械学習ベンチマーク「MLPerf」のランキングのことだ。米Google(グーグル)と米NVIDIA(エヌビディア)がそれぞれ最も優秀な成績を収めたと主張している。 MLPerfは非営利団体(NPO)の米MLCommons(MLコモンズ、2020年12月にMLPerfコンソーシアムから改称)が策定する機械学習のベンチマークだ。機械学習の性能を訓練(トレーニング)と推論に分けてそれぞれ計測できるよう複数のベンチマークを用意している。2018年12月にトレーニングのベンチマークの「v0.5」を使った結果が初めて公表され、それ以降毎年夏にトレーニングの結果が、秋に推論の結果が公表されている。 今回は2021年6月30日に、トレーニングのベンチマーク「v1

          グーグルとエヌビディアが「AIスパコン」で激突、世界最速はどっちだ
        • Colabで車載カメラ映像からの先行車両検出に関する既存公開手法(YOLOP, YOLO v5s BDD100K)を動かしてみる - Qiita

          Colabで車載カメラ映像からの先行車両検出に関する既存公開手法(YOLOP, YOLO v5s BDD100K)を動かしてみるPythoncolaboratoryColabYOLOV5YOLOP 0.背景 車載カメラの画像に対する先行車両検出に関して以下の2つの公開されている手法を使ってみたのでメモとして残しておく。 YOLOP YOLO v5s BDD100k いずれもとりあえず動かすことを主眼にしている。 元々はSIGNATEのSUBARU 画像認識チャレンジのために使用した。 Google Colab + Google drive の環境での動作を前提としている。 1. 共通事項 車載カメラ映像では BDD100Kという大規模なデータセットが公開されている。 この頁で紹介する2つのモデルはいずれも、BDD100Kで学習されている。 いずれもSUBARU 画像認識チャレンジのデータに

            Colabで車載カメラ映像からの先行車両検出に関する既存公開手法(YOLOP, YOLO v5s BDD100K)を動かしてみる - Qiita
          • セグメンテーション – Transformers, Diffusers | ClassCat® Chatbot

            画像と動画 : TorchVision 物体検出再調整チュートリアル このチュートリアルのために、歩行者検出とセグメンテーションのための Penn-Fudan データベース で事前訓練された Mask R-CNN モデルを再調整していきます。それは歩行者の 345 インスタンスを伴う 170 画像を含み、そしてそれを使用してカスタムデータセット上でインスタンス・セグメンテーションモデルを訓練するために torchvision の新しい特徴をどのように使用するかを示します。 データセットを定義する 物体検出、インスタンス・セグメンテーションと人物キーポイント検出のための参照スクリプトは新しいカスタムデータセットの追加を容易にサポートすることを可能にします。データセットは標準的な torch.utils.data.Dataset クラスから継承して、__len__ と __getitem__

            • ラブライブ!スーパースター!のキャラを物体検出してみた。 - Qiita

              どうもエンジニアのirohasです。 先日、物体検出の論文を漁っていて、最近流行りのYolov7の論文を読んで実装してみたので、必要に応じて解説しながら、どんな感じになったか紹介できればと思います。 (https://arxiv.org/pdf/2207.02696.pdf) 目次 1.はじめに 2.環境 3.物体検出って何? 4.Yoloとは 5.Yolov7の紹介 6.使用する作品について 7.キャラ紹介 8.データセットの前処理 9.データセットの作成 10.学習 11.結果 12.感想 13.参考文献 1. はじめに 皆さんはラブライブ!を知っていますか? アニメオタクなら一度は聞いたことがある伝説のアイドルアニメです。 ストーリーだけでなく、曲もライブコンテンツも素晴らしい作品なのでシリーズ通して全人類に見てもらいたい作品です。(クソデカボイス) 下にシリーズごとのサイト貼ってお

                ラブライブ!スーパースター!のキャラを物体検出してみた。 - Qiita
              • 【JDLA E資格】出題傾向分析 - Qiita

                はじめに JDLA E資格試験の出題傾向について分析したことを、まとめた記事です。 なお、これは公式のものではなく、私が参考書や実際の経験をもとに出題傾向を分析したものです。 また、出題範囲を系統的分類し、外観しただけなので、具体的な解説はありません。 各パートの具体的な解説については、別途まとめる予定です。 E資格試験に関する私の投稿記事リスト 目次 公式シラバス 出題範囲の系統的分類 前提となる基礎数学 応用数学パート 機械学習パート 深層学習パート 開発・運用環境パート Pythonコード 出題パターン おわりに 公式シラバス JDLA公式シラバス 2020年版の詳細シラバス E資格対策問題集の章構成 第01章 線形代数 第02章 確率・統計 第03章 情報理論 第04章 機械学習の基礎 第05章 前処理・特徴選択・性能指標 第06章 モデルの評価・正則化・ハイパーパラメータ探索 第

                  【JDLA E資格】出題傾向分析 - Qiita
                • PyTorchでObeject Detection

                  PyTorch はディープラーニングを実装する際に用いられるディープラーニング用ライブラリのPython APIの一つです。もともとは、Torch7と呼ばれるLua言語で書かれたライブラリでした。Chainerは日本のPreferred Networks社が開発したライブラリですが、Pytorchに統合されました。Caffe2もPyTorchに併合されました。現在、PyTorch は Team PyTorch によって開発されています。PyTorchの利点はDefine by Run(動的計算グラフ)と呼ばれる特徴です。Define by Runは入力データのサイズや次元数に合わせてニューラルネットワークの形や計算方法を変更することができます。 多くのユーザーを持つディープラーニングの Python API であるTensorFlow の特徴は Define and Run(静的計算グラフ

                  • 機能ベースのレート歪み最適化を備えたマシンのビデオコーディング

                    Video Coding for Machines with Feature-Based Rate-Distortion Optimization 一般的な最先端のビデオコーデックは、レート歪み最適化(RDO)によって実現される、最終的な人間の観察者に特定の品質を提供することにより、低ビットレートを提供するように最適化されています。しかし、コンピュータビジョンタスクを解決するニューラルネットワークの着実な改善により、ますます多くのマルチメディアデータが人間によって観察されるのではなく、ニューラルネットワークによって直接分析されるようになりました。この論文では、デコードされたフレームがマシンシナリオのビデオコーディングでニューラルネットワークによって分析されるときに、コーディングパフォーマンスを向上させるように設計された標準準拠の機能ベースのRDO(FRDO)を提案します。その範囲で、VTM

                      機能ベースのレート歪み最適化を備えたマシンのビデオコーディング
                    • Mask R-CNNをOpticalFlowで補間できないか試してみた - Qiita

                      Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 概要 Mask R-CNNは、物体検出とインスタンスセグメンテーションを行うモデル。 ピクセル単位でセグメンテーションができるので、特定の人物だけをマスクするなんてことも可能。 ただ、1フレーム処理するのにやっぱり時間がかかるので、リアルタイム処理は厳しいですね。 そこで、物体検出と物体検出の間のフレームは、オプティカルフローでマスク画像の動きの変化を推定することで補間できないか試してみました。 方法 Mask R-CNNは、matterport版の実装を利用します。 コードは、AI Coordinatorさんの記事を参考にしました。

                        Mask R-CNNをOpticalFlowで補間できないか試してみた - Qiita
                      • ディープラーニングの手法(G検定をまとめる, 2022.6.13) - Qiita

                        「G検定をまとめる」の記事の項目の一つです。簡単にまとめて後付けしていくスタイルです。広く浅く学習していき、徐々に深くしていきます。 ディープラーニングの手法 ディープラーニングの手法を大きく分けるとCNN、RNN、Attension、生成モデル、強化学習、の5つに分けられます。 CNN(画像データ) CNNの基本的な構造 CNNの発展 AlexNet, VGG, GoogLeNet, Inceptionモジュール, ResNet, MobileNet, EfficientNet RNN(音声データ、テキストデータ) LSTM, GRU, BiRNN, エンコーダ-デコーダ, Pre-trained Models 応用タスクを解くための事前学習モデル GPT, BERT, ALBERT, DistilBERT, GPT-2, Megatron-LM, Turing-NLG, ViT Att

                          ディープラーニングの手法(G検定をまとめる, 2022.6.13) - Qiita
                        • 深層学習を用いたセグメンテーションの紹介 セグメンテーションシリーズ①|スキルアップAI

                          こんにちは。スキルアップAI編集部です。 セグメンテーション(segmentation)は、コンピュータビジョンの主要なタスクの1つで、医療画像分析、自動運転、映像監視システムなど、幅広い分野で応用されています。本記事では、深層学習を用いたセグメンテーションについて、概括的に解説していきます。 1.セグメンテーションとは セグメンテーションとは、日本語で「分割」という意味で、機械学習においては、画像をいくつかのオブジェクトに分割するタスクのことを指します。現在、セグメンテーションには、大きく分けて3つのタスクがあります。図1にそれぞれのセグメンテーションの例を示します。 図1. セグメンテーションの例 (参考文献[1]より引用) 図1の(b)はセマンティックセグメンテーションと呼ばれるタスクで、画像中の全ての画素に対して、クラスラベルを予測することを目的とします。 図1の(c)はインスタン

                            深層学習を用いたセグメンテーションの紹介 セグメンテーションシリーズ①|スキルアップAI
                          • 自動運転車セキュリティ入門 第4回:意思決定モデルに対する敵対的攻撃 - 回避攻撃 - | 技術者ブログ | 三井物産セキュアディレクション株式会社

                            現在、世界各国で自動運転車の開発が盛んに行われています。 自動運転車は、人間が運転操作を行わなくとも自動で走行できる自動車と定義されており、カメラやレーダー、GPSなどのセンサー類や、高精細の地図情報を配信するクラウドサービス、また、他車両と通信を行うネットワークサービスなどを組み合わせることで、自律的な走行を実現しています。また、より完全な自律走行を実現するために、道路標識や歩行者などの認識や、運転操作の意思決定をディープラーニング・モデルで行う自動運転車も開発が進んでいます。 このように、自動運転車には「繋がる」「自律走行」という、従来の自動車にはなかった新たな性質が加わっています。しかし、これと同時に、センサー類やクラウドサービス連携に対する攻撃や、ディープラーニング・モデルに対する攻撃といった、従来の自動車にはなかった新たな攻撃経路も生まれています。 そこで、本連載は「自動運転車・

                              自動運転車セキュリティ入門 第4回:意思決定モデルに対する敵対的攻撃 - 回避攻撃 - | 技術者ブログ | 三井物産セキュアディレクション株式会社
                            • 【2D OD】Region ProposalからAnchor Boxへ - Qiita

                              2stage detectorと1stage detector R-CNN, Fast-RCNN, Faster-RCNNが遅かったのはRegion Proposalを用いた2stageのネットワークをだったから。 Region Proposalは多くの物体を提案してしまい処理速度が遅くなる。 それを解決すべく登場したのがYoloでも使われているAnchor Box。 Anchor Boxとは? 様々なサイズや縦横比の長方形のBoxをAnchor Boxという。 Anchor Boxを用いた物体検出 CNNによって画像を畳み込み、それぞれのAnchor Boxのサイズのオフセット、位置のオフセット等を学習する事で物体の位置を推測する。 上の画像を例にしてみる。まず2種類のAnchor Boxを16エリアに分けて定義する。右上の飛行機がいるエリアの緑色のAnchor Boxは得られたFeat

                                【2D OD】Region ProposalからAnchor Boxへ - Qiita
                              • 精度を維持したままパラメータ数を大幅に削減「GhostNet」

                                3つの要点 ✔️特徴マップの冗長性に着目し、単純な処理によりモデルを軽量化 ✔️精度を維持したままモデルの軽量化、高速推論を実現した ✔️GhostNetはMobileNetV3などの最新の効率的なモデルを推論速度と精度の両面で上回っている GhostNet: More Features from Cheap Operations written by Kai Han, Yunhe Wang, Qi Tian, Jianyuan Guo, Chunjing Xu, Chang Xu (Submitted on 27 Nov 2019) subjects : Computer Vision and Pattern Recognition (cs.CV) 本論文の実装はこちら(TensorFlow)とこちら(PyTorch)にあります。 1.導入 近年のCNNの発展により、画像分類において機械

                                  精度を維持したままパラメータ数を大幅に削減「GhostNet」
                                • 【PyTorchチュートリアル⑧】TorchVision Object Detection Finetuning Tutorial - Qiita

                                  はじめに 前回に引き続き、PyTorch 公式チュートリアル の第8弾です。 今回は TorchVision Object Detection Finetuning Tutorial を進めます。 TorchVision Object Detection Finetuning Tutorial このチュートリアルでは、事前トレーニング済みの Mask R-CNN を利用し、ファインチューニング、転移学習を見ていきます。 学習に利用するデータは歩行者の検出とセグメンテーションのためのPenn-Fudanデータです。このデータは、歩行者(インスタンス)が345人いる、170個の画像が用意されています。 まず、pycocotools のライブラリをインストールする必要があります。このライブラリは、「Intersection over Union」 と呼ばれる評価の計算に使用されます。 「Inte

                                    【PyTorchチュートリアル⑧】TorchVision Object Detection Finetuning Tutorial - Qiita
                                  • AI学習のためのPython学習計画 - Qiita

                                    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 背景と目的 AIを勉強するための一番最初のスタートとなる記事です 学びたいと思いつつ何をしたらいいのかわからなかったのでやることを調べてまとめた記事です。 ちゃんとAIが勉強できるように計画を立てる 方向性を間違えて明後日の方向に勉強してしまっては勿体無いので、まずはどういう勉強をしたらいいのかwebベースで調べて、計画します。 結論 下記サイトが非常によくまとめられているので下記サイトをシラバスとして取り扱う https://blog.kikagaku.co.jp/2020/04/06/how-to-learn-ai/ 実際の学習は下

                                      AI学習のためのPython学習計画 - Qiita
                                    • チュートリアル: AzureMLでの大規模トレーニング

                                      原文: Tutorial: Training at Scale on AzureML Published 04/06/2021 By Phil Tooley Azure Machine Learningを使用して、大規模なAIモデルを迅速にトレーニングする 注: クラウドは移り変わりの速い環境です。このチュートリアルは2021年3月時点のものですが、サービスの最新のアップデートについては、Azure Machine Learning Documentation をご確認ください。 AIと機械学習は、科学、産業、ビジネスに変革をもたらし、その応用範囲は常に拡大しています。進歩のスピードはとどまるところを知らず、モデルはますます複雑になり、データセットはますます大きくなるため、1台のGPU、あるいは複数のGPUを搭載した1台のマシンでは十分ではありません。大規模なGPUクラスターでの分散型トレ

                                      • 異種ドキュメント画像からのロバストなテーブル検出と構造認識

                                        Robust Table Detection and Structure Recognition from Heterogeneous Document Images テーブルの境界を検出し、異種のドキュメント画像からテーブルのセルラー構造を再構築するために、RobusTabNetという名前の新しいテーブル検出および構造認識アプローチを導入します。テーブル検出については、CornerNetを新しいリージョン提案ネットワークとして使用して、Faster R-CNNの高品質のテーブル提案を生成することを提案します。これにより、テーブル検出のFasterR-CNNのローカリゼーション精度が大幅に向上しました。その結果、私たちのテーブル検出アプローチは、軽量のResNet-18バックボーンネットワークのみを使用することにより、3つのパブリックテーブル検出ベンチマーク、つまりcTDaR TrackA

                                          異種ドキュメント画像からのロバストなテーブル検出と構造認識
                                        • 【Mask R-CNN】AttributeError: 'Model' object has no attribute 'metrics_tensors' にぶち当たったら考えること。 - Qiita

                                          【Mask R-CNN】AttributeError: 'Model' object has no attribute 'metrics_tensors' にぶち当たったら考えること。Pythonmask-r-cnnmatterport Mask R-CNNの続き 修士研究で植生の検出をするために、matterport社のMask R-CNNを使ってインスタンスセグメンテーションを実装しています。 他にもエラー記事をまとめているのでご覧下さい。 AttributeError: module 'tensorflow' has no attribute 'log' を解決した話。 【前編】Mask R-CNNで発生したエラー「UserWarning: An input could not be retrieved. It could be because a worker has died」を

                                            【Mask R-CNN】AttributeError: 'Model' object has no attribute 'metrics_tensors' にぶち当たったら考えること。 - Qiita
                                          • MMDetectionを使って物体検出のSoTAになりたい(v2.22.0対応) - Qiita

                                            対象 何が書いてあるか MMDetectionの既存モデルの利用する MMDetectionの既存モデルに対し、既存モジュールを用いた変更を加える 何が書いてないか MMDetectionでの新規モジュール作成 (日本語情報を作る意味を見出せませんでした) MMDetectionとは 香港中文大学マルチメディアラボとその関連会社であるSenseTimeが中心となって主催している、OpenMMLabによるMMCVシリーズ第一弾です。メインの開発者は(おそらく)MMDetectionの論文とCVPR 2019のHybrid task cascade for instance segmentationの1st authorであるKai Chen氏です。Issueでよく見ます。 2018年に開発が開始され、現在ではPaper with CodeのObject Detection on COCO t

                                              MMDetectionを使って物体検出のSoTAになりたい(v2.22.0対応) - Qiita
                                            • 2022年7月11日のヘッドラインニュース

                                              ゲーム「アイドルマスター」シリーズを原作とした新たなオリジナルコミック「765プロの台所」企画が始動し、特報PVと第0話が公開されました。 【765】新規コミック企画「765プロの台所」始動! 0話・特報PVを公開 | NEWS | 【公式】アイドルマスター OFFICIAL WEB(アイマス) 執筆を担当するのは「仕事猫」などを手がけるイラストレーター・くまみね氏。作品はアイドルマスター公式Twitterで連載される予定です。 「765プロの台所」コミック特報PV【アイドルマスター】 - YouTube ちなみに、過去の同月同日にはこんな記事を掲載していました。 光速の20%で宇宙船をアルファ・ケンタウリに送りこむ「ブレイクスルー・スターショット」計画の技術的課題とは? - GIGAZINE ジンベエザメの目にはおびただしい数の「歯」が生えている、その理由とは? - GIGAZINE 「

                                                2022年7月11日のヘッドラインニュース
                                              • 《日経Robotics》Transformerが全タスクの標準ネットワークアーキテクチャになるか

                                                深層学習(ディープラーニング)はタスク毎に異なるネットワークアーキテクチャを使ってきた。 画像認識であればCNN(畳み込みニューラルネットワーク)、自然言語処理であればRNN(回帰結合型ニューラルネットワーク)、表データや座標など入力が構造を持たないようなタスクに対してはMLP(多層パーセプトロン)、化合物などグラフ構造を持つ場合はグラフNN(ニューラルネットワーク)といったようにだ。 こうしたネットワーク構造は問題が持つ特徴(局所性、制約、入力変換に対する同変性、不変性)を捉えており、問題に対する事前知識をモデルに埋め込む帰納バイアスとして有効である。帰納バイアスは少ない学習データで汎化するのに重要な役割を果たしている。 しかし、最近になって、Transformerと呼ばれるネットワークアーキテクチャが様々なタスクに広く適用することができ、それぞれの分野で最高精度またはそれに近い精度を達

                                                  《日経Robotics》Transformerが全タスクの標準ネットワークアーキテクチャになるか
                                                • Kaggleの画像コンペに初めて挑んでみた - sinchir0のブログ

                                                  はじめに 概要 分析環境 コンペ概要 Segmentationとは Classification Detection Segmentation 前半2週間の過ごし方 「kernel」 「Keras Documentation」 「albumentations」 「過去コンペ振り返り」 後半2週間の過ごし方 Unetとは Backboneの変更 Data Augmenationの変更 Thresholdの変更 epochの変更 TTAの実施 PostProcessing アンサンブル 出来なかったこと 反省 良かったこと 総論 はじめに Kaggleの雲コンペ「Understanding Clouds from Satellite Images」に参加し見事惨敗したため、ここに反省と備忘録を残します。 コンペが終わったときの顔 Understanding Clouds from Satell

                                                    Kaggleの画像コンペに初めて挑んでみた - sinchir0のブログ
                                                  • 【今週の5本】今「製造を変える」ディープラーニング最新研究(2020年4月第4週版) | AIDB

                                                    【告知】AIDB HRの人材側登録者全員に対し、業界研究の手間を削減できるように「AI事業を行う企業リスト」を配布します。無料登録後すぐに閲覧とダウンロードが可能です。▼ このコーナーでは、製造業向けAIの最新研究をお届けしていきます。サクッと業界のトレンドにキャッチアップしましょう!今回のトピックスは以下の5つです! 今週のラインナップ 1. LSTMディープニューラルネットワークを用いた水質の分析と予測 2. Faster R-CNN技術を用いた工事車両の検出 3. CNNを用いて回転機械の状態を監視 4. 新たなネットワークを用いてQRコード認識 5. IoT技術を用いた廃棄されるジャガイモの監視 バックナンバーはこちら LSTMディープニューラルネットワークを用いた水質の分析と予測 IoT技術を用いたスマートな水質監視システムの構築・運用の過程で、ビッグデータが高速に生成されること

                                                      【今週の5本】今「製造を変える」ディープラーニング最新研究(2020年4月第4週版) | AIDB
                                                    • A Guide to 22 Amazon SageMaker Built-In Algorithms and Its Use Cases | DevelopersIO

                                                      A Guide to 22 Amazon SageMaker Built-In Algorithms and Its Use Cases Introduction A handy cloud-based tool called Amazon SageMaker lets programmers and data scientists to create, train, and deploy machine learning models at scale. One of SageMaker's standout features is its substantial library of integrated algorithms, which offers a variety of practical tools for developing and deploying machine

                                                        A Guide to 22 Amazon SageMaker Built-In Algorithms and Its Use Cases | DevelopersIO
                                                      • アンビエントコンピューティングが作る世界で「もっと楽しい」へ

                                                        コンピュータと人をつなぐウェアラブルやxR、コンピュータが人を理解するためのAIやロボット、人とコンピュータの自然な対話を支えるHCIやAugmented Human――コンピュータと人の良いところが融合すれば、世界はもっと楽しくなる。 スマートフォンからウェアラブルデバイスを経て、人と機械がよりつながり協調するコネクティッドな時代が到来しようとしている。その世界においてウェアラブルデバイスはさらに小型化し、ビジネスや生活に溶け込んでいくことになるだろう。コンピュータが身の回りに遍在して人の行動を支援するアンビエントコンピューティングの未来を見据えて研究開発を進めている日鉄ソリューションズ(以下、NSSOL)の取り組みを、インテリジェンス研究部の主席研究員 笹尾和宏氏にお話しいただいた。 実用化の段階を迎えたアンビエントコンピューティング 独立系(ユーザー系)SIerのR&D部門として19

                                                          アンビエントコンピューティングが作る世界で「もっと楽しい」へ
                                                        • キーワードによる動画内検索ができるツールを調べてみた - Qiita

                                                          この記事の第2節で、動画内のシーンを文字列検索できるサービスの事例を紹介します。 Clarifaiと、ALGORITHMIAという見慣れない企業のほかに、さまざまな記事で取り上げられているGoogle Vision Intelligence APIとAmazon Rekognitionの4つを取り上げます。 動画内シーンのテキスト検索:サービス事例 (ALGORITHMIAの場合。詳細は後述) どうやって、実現しているのか。 この記事では、上記のサービス事例を取り上げる前に、「キーワードによる動画内検索」サービスを、実現させる方法について考えてみたいと思います。 一般物体認識モデルや静止画像の説明文生成モデル、動画の説明文生成モデルは、すでに学習済みのモデルで、Tensorflow/kerasに登録済みのものを呼び出して利用したり、GitHubリポジトリから落として使ったり、TensorF

                                                            キーワードによる動画内検索ができるツールを調べてみた - Qiita
                                                          • 【Mask R-CNN】tensorflowのバージョンをダウングレードした話。 - Qiita

                                                            Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

                                                              【Mask R-CNN】tensorflowのバージョンをダウングレードした話。 - Qiita
                                                            • 【Object Detection】物体検出AIを学習させるコツ - Qiita

                                                              Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 目次 1. はじめに 2. 物体検出AIとは 3. 物体検出AIは使えるのか 4. データ収集 5. アノテーション 6. モデル選定 7. 評価指標 8. 学習 9. おわりに 1. はじめに 本記事では、深層学習に基づく物体検出AIを使用する場合のコツについて経験で得た知見をまとめました。 物体検出で最も広く知られているであろう参考文献はyolov3のwikiにあるTips for Best Training Resultsだと思います。このガイドラインに沿って、筆者の知見も合わせて解説します。 2. 物体検出AIとは 物体検出(O

                                                                【Object Detection】物体検出AIを学習させるコツ - Qiita
                                                              • ディープラーニングを用いて、道路上の障害物検出に画像解析がどう活用されるのか | 株式会社NTTデータ先端技術

                                                                はじめに 「コンピュータービジョン」とは、撮影した画像や動画などをコンピューターに処理させ、視覚的な情報が理解できるように学習させて、そこから情報を導き出し新しい価値提供を可能にするという、人工知能(AI)の研究分野の一つです。人間と変わらない程度の視覚的な感覚・能力を身につけさせて、さまざまな分野に応用可能にするには、まだまだ多くの課題があります。 画像におけるAI 技術の一つに、「物体検出(物体検知)」があります。これはAIが画像の中にある物体やその位置情報などを検出する技術です。近年、AI を用いた画像処理技術を活用して、道路上に落ちている障害物等を識別・検出する高度な取り組みが行われています。本コラムでは、道路上の障害物に画像解析がどう活用されているのか、その概要と課題解決に向けた高度な技術を紹介します。 AIによる画像解析と道路上の障害物検出における概要 物体検出は、コンピュータ

                                                                  ディープラーニングを用いて、道路上の障害物検出に画像解析がどう活用されるのか | 株式会社NTTデータ先端技術
                                                                • Detectron2のv0.5アップデート内容まとめ - Qiita

                                                                  LazyConfigシステムを追加 従来のyacsベースのコンフィグシステムからLazyConfigシステムに対応したことで、柔軟性が大幅に向上しました。 Detectron2での公式サンプルは以下のようになっています。 # config.py: a = dict(x=1, y=2, z=dict(xx=1)) b = dict(x=3, y=4) # my_code.py: from detectron2.config import LazyConfig cfg = LazyConfig.load("path/to/config.py") # an omegaconf dictionary assert cfg.a.z.xx == 1 # Common training-related configs that are designed for "tools/lazyconfig_tra

                                                                    Detectron2のv0.5アップデート内容まとめ - Qiita
                                                                  • 最新の物体検出手法Mask R-CNNのRoI AlignとFast(er) R-CNNのRoI Poolingの違いを正しく理解する - Qiita

                                                                    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに CNNベースの高速な物体検出の先駆けであるFast R-CNN1やFaster R-CNN2、最新のMask R-CNN3では、まず物体の候補領域をregion proposalとして検出し、そのregion proposalが実際に認識対象の物体であるか、認識対象であればどのクラスかであるかを推定します。 Fast R-CNN系の手法のベースとなったR-CNN4では、region proposalの領域を入力画像から切り出し、固定サイズの画像にリサイズしてからクラス分類用のCNNにかけるという処理を行っていたため、大量のre

                                                                      最新の物体検出手法Mask R-CNNのRoI AlignとFast(er) R-CNNのRoI Poolingの違いを正しく理解する - Qiita
                                                                    • TensorFlow Object Detection APIを使ってFaster R-CNN、R-FCN、SSDを比較してみた - Qiita

                                                                      Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 5行まとめ TensorFlow Object Detection APIには各種モデルが準備されており、簡単に試すことができた。 SSDは推論がとても早いが学習に時間がかかる。 R-FCNは推論時間でSSDに劣るが、検出精度がSSDより高め。学習時間と精度のバランスも良い。 ラベル付けの補助としてR-FCNを使い、推論時間が重要な場面での最終的な検出器としてSSDを使うのが良さそう。 ラベル付け(アノテーション)は苦行。 概要 TensorFlow Object Detection APIを使い、独自のデータセットで物体検出(Obje

                                                                        TensorFlow Object Detection APIを使ってFaster R-CNN、R-FCN、SSDを比較してみた - Qiita
                                                                      • ChainerCVでFaster-RCNNを動かしながら理解する(推論編) - Qiita

                                                                        1.はじめに この記事はNTTテクノクロス Advent Calendar 2019の4日目の記事です。 はじめまして、NTTテクノクロスの稲塚と申します。 普段は、デジタル目勘®のチームに所属しており、ディープラーニング関連の業務に携わっています。 また、ソフト道場の講師として、ディープラーニングの入門を社内で教えたりしています。 2.本記事の目標 ディープラーニングを使った物体検出手法の代表例であるFaster R-CNNをChainerCVで動かし、その処理を理解することを目標としています。 3.物体検出(Object Detection)とは 1つの画像から、「何が」「どこに」「どんな大きさ」で写っているかを判定することです。 ディープラーニングの基本タスクである画像分類(Classification)は「何が」写っているかのみ判定します。 より発展的なタスクで物体の輪郭を推測する

                                                                          ChainerCVでFaster-RCNNを動かしながら理解する(推論編) - Qiita
                                                                        • ディープラーニングによる一般物体検出アルゴリズムまとめ

                                                                          今まで一般物体認識や一般物体検出にはあんまり興味が無かったんだけど、YOLOとかSSD、Mask R-CNNといった手法をベースにして特定のタスクを解く研究も結構登場しているので、その体系を知りたくなってきた。 幸い、ディープラーニングによ...

                                                                            ディープラーニングによる一般物体検出アルゴリズムまとめ
                                                                          • 自動販売機における物体検出とその特定について~データサイエンスを知るコラム② - 知るギャラリー by INTAGE

                                                                            この【データサイエンスを知るコラム】は、インテージのデータサイエンティストが、最新技術やマーケティングへの活用可能性などを解説するコラムです。 第2回はシニアデータサイエンティストの伊藤友治がAIを用いた自動販売機の画像解析について、事例を元に解説します。 はじめに こんにちは、インテージ先端技術部の伊藤です。インテージデータサイエンティストによるエキスパートコラムの第二弾として、マーケティングサイエンスの領域から最近取り組んだ事例のご紹介をしていきます。弊社は主にマーケティングリサーチ事業をしている会社ですが、近年ではディープラーニングのようなAIをマーケティングやリサーチ課題の解決にうまく活用できないかと日々模索しております。その中でも今回は急速に発展してきている画像解析の領域にフォーカスして、取り纏めていきたいと思います! 自動販売機の画像認識技術について 今回は具体的な取り組み内容

                                                                              自動販売機における物体検出とその特定について~データサイエンスを知るコラム② - 知るギャラリー by INTAGE
                                                                            • R-CNN – ClassCat® AI Research

                                                                              TenosorFlow 一般物体検出 API 作成 : (株)クラスキャット セールスインフォメーション 日時 : 06/20/2017   概要 Google Research Blog の 6月15日付けの…

                                                                              • セマンティックセグメンテーション (Semantic Segmentation) |CVMLエキスパートガイド

                                                                                1. セマンティックセグメンテーション(Semantic Segmentation)とは [概要] セマンティックセグメンテーション (Semantic Segmentation, 意味的分割)とは,シーン画像に対して,画素ごとに意味的なクラス識別を行い,画像上の領域分割をおこなう問題である.画像Encoder-Decoderを用いた高精度な深層学習手法(2,3節)が立て続けに登場して以降,ブレイクスルーが起こった技術である.各画素の織別に用いるクラスとしては,「道路」,「人」,「自転車」や,「空・海・建物」などの,「おおまかな意味的な単位」を用いるのが主流である.2010年代に入って以降の,自動運転研究の開始に伴い,取り組む研究者が増えた問題でもある(例:SegNet など).また,医用画像処理などの領域分割用途などでも実用性が高いゆえ,深層学習の発展に伴い応用事例が増えた(例 U-Ne

                                                                                  セマンティックセグメンテーション (Semantic Segmentation) |CVMLエキスパートガイド
                                                                                • 【論文読み】A Survey on Visual Transformer 日本語まとめ,論文リンク | でい tech blog

                                                                                  Transformerは、NLPの分野で大きな成功を収め、近年CV(Computer Vision)の分野にも応用されている。TransformerのCV分野への応用についてのsurvey論文であるKai Hanらの”A Survey on Visual Transformer“を読んでまとめた。(間違っている所があればご指摘ください。論文のリンクはつけていないところもあります。このページの需要があれば追記します。) 論文に書いていない、自分で調べた事項については*(アスタリスク)をつけている。 概要 Transformerは最初にNLP(自然言語処理)の分野で応用され、数多くのベンチマークでCNN,RNNを超える成果をあげた。近年はこれらの成功からComputer Visionの分野でも注目を集めている。この論文では、TransformerをCVの分野に応用したときの利点と欠点についてま

                                                                                    【論文読み】A Survey on Visual Transformer 日本語まとめ,論文リンク | でい tech blog