Masked Autoencoders for Generic Event Boundary Detection CVPR'2022 Kinetics-GEBD Challenge Generic Event Boundary Detection(GEBD)タスクは、ビデオ全体をチャンクにセグメント化する、分類法のない一般的なイベント境界を検出することを目的としています。このホワイトペーパーでは、マスクされたオートエンコーダを適用して、GEBDタスクのアルゴリズムパフォーマンスを向上させます。私たちのアプローチは、主に、他の基本モデルを使用した自己監視学習者として、GEBDタスクで微調整されたマスクされたオートエンコーダーのアンサンブルを採用しました。さらに、半教師あり疑似ラベル法を使用して、トレーニング中に豊富なラベルなしのKinetics-400データを最大限に活用します。さらに、ポジ
COVID-19 Detection using Transfer Learning with Convolutional Neural Network 新規コロナウイルス病2019(COVID-19)は致命的な感染症であり、2019年12月に中国湖北省武漢で最初に認識され、流行の状況にあります。このような状況下で、感染者のCOVID-19を検出することがより重要になりました。今日、検査キットの数は、感染した集団の数と比較して徐々に減少しています。最近の一般的な状況下では、胸部CT(Computed Tomography)画像を分析することによる肺疾患の診断は、COVID-19患者の診断と予言の両方にとって重要なツールになっています。この研究では、CT画像からCOVID-19感染を検出するための転移学習戦略(CNN)が提案されています。提案されたモデルでは、転移学習モデルInception
VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation 言語の柔軟性と構成性の恩恵を受けて、人間は当然、ナビゲーションやオブジェクト操作などの複雑なタスクのために具体化されたエージェントに命令するために言語を使用することを意図しています。この作業では、具体化されたエージェントのラストマイルの空白を埋めることを目指しています。たとえば、「ボックスの横にある赤いマグカップを直立させたまま移動する」など、人間のガイダンスに従ってオブジェクトを操作します。この目的のために、自動操作ソルバー(AMSolver)シミュレーターを導入し、それに基づいて、分類されたロボット操作タスクに関するさまざまな言語命令を含む視覚および言語操作ベンチマーク(VLMbench)を構築します。具体的には、モジュール式のルールベースの
フラットな画像を素晴らしい写真に編集するには、スキルと時間が必要です。自動画像強調アルゴリズムは、ユーザーの操作なしで高品質の画像を生成することにより、ますます関心を集めています。ただし、写真の品質評価は主観的なものです。トーンと色の調整でも、自動強調の1枚の写真は、微妙で変更可能なユーザーの好みに合わせるのが困難です。この問題に対処するために、いくつかのパラメータを制御することにより、複数のスタイルで高品質の画像を生成できる半自動画像強調アルゴリズムを提示します。まず、写真のレタッチスキルを高品質の画像から解きほぐし、スキルごとに効率的なエンハンスメントシステムを構築します。具体的には、エンコーダーデコーダーフレームワークは、レタッチスキルを潜在コードにエンコードし、それらを画像信号処理(ISP)機能のパラメーターにデコードします。 ISP関数は計算効率が高く、19個のパラメーターのみで
OpenSRH: optimizing brain tumor surgery using intraoperative stimulated Raman histology 正確な術中診断は、脳腫瘍手術中に安全で効果的なケアを提供するために不可欠です。私たちの標準治療の診断方法は、時間、リソース、および労働集約的であり、最適な外科的治療へのアクセスを制限します。これらの制限に対処するために、我々は、刺激ラマン組織学(SRH)、迅速な光学イメージング法、および術中脳腫瘍診断とリアルタイムの外科的決定サポートのためのSRH画像の深層学習ベースの自動解釈を組み合わせた代替ワークフローを提案します。ここでは、300人以上の脳腫瘍患者からの臨床SRH画像と1300以上のユニークな全スライド光学画像の最初の公開データセットであるOpenSRHを紹介します。 OpenSRHには、最も一般的な脳腫瘍の診
Scalable Temporal Localization of Sensitive Activities in Movies and TV Episodes 顧客がより多くの情報に基づいて視聴を選択できるように、ビデオストリーミングサービスはコンテンツをモデレートし、映画やテレビエピソードのどの部分に年齢に適した素材(ヌード、性別、暴力、薬物使用など)が含まれているかをより明確に把握できるようにします。 )。これらの機密性の高いアクティビティをローカライズするための教師ありモデルは、取得が困難な大量のクリップレベルのラベル付きデータを必要としますが、この目的のための弱教師ありモデルは通常、競争力のある精度を提供しません。この課題に対処するために、年齢に適した活動のまばらなクリップレベルのラベルと組み合わせて、簡単に入手できるビデオレベルの弱いラベルを利用するように設計された新しいCoa
モバイルデバイス上のリアルタイムアプリケーションに適した単純なモーション増幅アルゴリズムを紹介します。これは、ビデオストリーム用の時間ハイパスフィルターである移動平均差分(MEMAD)によるモーションエンハンスメントに基づいています。 MEMADは、小さな動くオブジェクトや大きなオブジェクトの微妙な動きを増幅することができます。計算が非常に簡単で、スマートフォンにリアルタイムで実装できます。 Android電話アプリとしての特定の実装では、MEMADは、工学、生物、および医学のアプリケーションを動機付けるなどに選択された例で示されます。 A simple motion amplification algorithm suitable for real-time applications on mobile devices is presented. It is based on motio
Reconstructing vehicles from orthographic drawings using deep neural networks このホワイトペーパーでは、ディープニューラルネットワークを使用して、複数の正投影図から現在の最先端のオブジェクト再構成について説明します。 1つの画像から複数のビューを抽出するための2つのアルゴリズムを提案します。この論文は、ピクセル整列陰関数(PIFu)に基づくシステムを提案し、符号付き距離サンプルを生成するための高度なサンプリング戦略を開発します。また、このアプローチを複数のビューからの深度マップ回帰と比較します。さらに、このペーパーでは、レーシングゲームのAssetto Corsaからの車両再構築用の新しいデータセットを使用しています。これは、一般的に使用されるShapeNETデータセットよりも高品質のモデルを特徴としています。訓
キーポイント、対応、投影行列、ポイントクラウド、および密なクラウドは、画像ベースの3D再構成のスケルトンであり、ポイントクラウドは、3D再構成オブジェクトの現実的で自然なモデルを生成する上で重要な役割を果たします。優れた3D再構成を実現するには、点群がオブジェクトの表面のほぼすべての場所に存在する必要があります。この記事では、オブジェクトの表面全体をカバーする点群を構築することを主な目的として、測地線フィーチャまたはジオフィーチャという名前の新しいフィーチャを提案します。新しい地理的特徴に基づいて、オブジェクトの表面にいくつかの(与えられた)初期ワールドポイントがあり、すべての正確に推定された投影行列がある場合、これらの与えられたワールドポイントのいずれか2つを接続する測地線上のいくつかの新しいワールドポイントが再構築されます。次に、これらの最初のワールドポイントに隣接するサーフェス上の領
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く