並び順

ブックマーク数

期間指定

  • から
  • まで

441 - 480 件 / 2217件

新着順 人気順

computer_visionの検索結果441 - 480 件 / 2217件

  • Meta、画像から高レベルの抽象化を学ぶ機械学習モデル「I-JEPA」をリリース - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報

    Meta のチーフ AI サイエンティスト Yann LuCan 氏 Image credit: Meta Meta のチーフ AI サイエンティスト Yann LeCun 氏は、数年前から、人間の助けをほとんど借りずに世界のモデルを学習できるディープラーニングシステムについて話してきた。現在、そのビジョンは徐々に実現しつつあり、Metaは、画像に対する自己教師あり学習を通じて世界の抽象的な表現を学習する機械学習(ML)モデル「I-JEPA」最初のバージョンをリリースした。 初期テストでは、I-JEPA が多くのコンピュータビジョンタスクで高い性能を発揮することが示された。また、他の最先端モデルよりもはるかに効率的で、トレーニングに必要な計算資源は10分の1である。Metaは、トレーニングコードとモデルをオープンソース化し、来週開催されるCVPR(Computer Vision and P

      Meta、画像から高レベルの抽象化を学ぶ機械学習モデル「I-JEPA」をリリース - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報
    • Stable Diffusion Web UIにFooocusのスタイルを取り込む - きしだのHatena

      FooocusというStable DiffusionのUIではスタイルを設定するだけで呪文が不要のシンプルなプロンプトでの画像生成が可能になっています。 そのスタイルをAUTOMATIC1111/Stable Diffusion Web UIに取り込めるようにしてみました。 いろいろ過程を書いてるので、最後まで読むのがめんどかったら、このstyles.csvをStable Diffusion Web UIのフォルダ直下に置くと読み込まれる。すでにスタイルを設定しているのであれば、既存データを追加しておく。 https://gist.github.com/kishida/9e062c8d3f57dc68e8270b8417feecea#file-styles-csv Fooocusはrun.batを起動するだけでインストールができるお手軽UIなのだけど、すでにAUTOMATIC1111 we

        Stable Diffusion Web UIにFooocusのスタイルを取り込む - きしだのHatena
      • Zero-shot Learning入門 - エクサウィザーズ Engineer Blog

        こんにちは。エクサウィザーズで画像ギルドに所属し、機械学習エンジニアをしている小島です。今年の3月からこちらにジョインいたしました。 この記事では、弊チームで取り組んいるテーマ「Zero-shot Learning」について、歴史的な背景を振り返りつつ、簡単な実装を紹介します。今研究でホットな研究テーマの一つである「クロスモーダルモデル」を身近に感じていただければ幸いです。 Zero-shot Learningとは 「Zero-shot Learningとは何か」というのは、実は曖昧なテーマです。「これがZero-shotだ」という定義が論文によって異なるためです。わかりやすい理解の仕方としては、Many-Shot Learning、One/Few-shot Learningから天下り的に考えていくことでしょう。 画像系の機械学習の問題は、大きく分けて、タスクの軸とデータ数の軸の2軸で考え

          Zero-shot Learning入門 - エクサウィザーズ Engineer Blog
        • カクカクした映像でもFPSを上げてぬるぬる動かせる!Depth-Aware Video Frame Interpolation

          3つの要点 ✔️深度情報を踏まえたビデオフレーム補間技術 ✔️近傍ピクセルからコンテキスト情報収集 ✔️計算量とモデル容量を削減しつつ、各種データセットでSoTAを達成 Depth-Aware Video Frame Interpolation written by Wenbo Bao, Wei-Sheng Lai, Chao Ma, Xiaoyun Zhang, Zhiyong Gao, Ming-Hsuan Yang (Submitted on 1 Apr 2019) subjects : Computer Vision and Pattern Recognition (cs.CV) ビデオフレーム補間は長年に渡って研究が取り組まれてきており、最近のディープラーニングでも広範囲に研究されています。 以下の手法が今までにも行われてきました。 CNNによって中間画像を直接合成する手法等→結

            カクカクした映像でもFPSを上げてぬるぬる動かせる!Depth-Aware Video Frame Interpolation 
          • GitHub - HumanSignal/awesome-data-labeling: A curated list of awesome data labeling tools

            labelImg - LabelImg is a graphical image annotation tool and label object bounding boxes in images CVAT - Powerful and efficient Computer Vision Annotion Tool labelme - Image Polygonal Annotation with Python VoTT - An open source annotation and labeling tool for image and video assets imglab - A web based tool to label images for objects that can be used to train dlib or other object detectors Yol

              GitHub - HumanSignal/awesome-data-labeling: A curated list of awesome data labeling tools
            • 魚眼レンズで角度のある人物を検出する機械学習モデル「RAPiD」を動画対応してみた。 | DevelopersIO

              せーのでございます。 複数の人物を検出、追跡する機械学習モデルというのは結構見つけられるのですが、それがtop-view、つまり天井からのカメラとなると急にその数は減っていきます。 カメラの角度は斜めで人物の全身が確認できるもの、街の監視カメラくらいだと人物検出しやすいのですが、例えばコンビニのカメラや大きめの図書館の天井カメラのようなものになるとまずそれが人だと検出するのが難しく、ましてや速度が求められるリアルタイム検出になるとかなり難しくなります。 今回はそんな天井からのカメラ、さらに人物が歪んで回転する魚眼レンズでも人物を検出できる「RAPiD」を触ってみました。 RAPiDの特徴 RAPiDは「Rotation-Aware People Detection in overhead fisheye images」の略です(なんか順番おかしい気もしますが)。つまり「角度を意識した」人物

                魚眼レンズで角度のある人物を検出する機械学習モデル「RAPiD」を動画対応してみた。 | DevelopersIO
              • 不気味さすら感じる!AIが発見した検出精度抜群のbackboneモデル「SpineNet」

                3つの要点 ✔️ NASを使用する事で理想的なアーキテクチャを発見 ✔️ 物体検出タスクでResNet-50-FPNよりも平均精度が2.9%向上 ✔️ 検出だけではなく、分類とセグメンテーションとタスクを選ばず、汎化性能を持つ SpineNet: Learning Scale-Permuted Backbone for Recognition and Localization written by Xianzhi Du, Tsung-Yi Lin, Pengchong Jin, Golnaz Ghiasi, Mingxing Tan, Yin Cui, Quoc V. Le, Xiaodan Song (Submitted on 10 Dec 2019 (v1), last revised 17 Jun 2020 (this version, v3)) Comments: Accepted

                  不気味さすら感じる!AIが発見した検出精度抜群のbackboneモデル「SpineNet」
                • GitHub - IBM/Project_CodeNet: This repository is to support contributions for tools for the Project CodeNet dataset hosted in DAX

                  A decade ago, Marc Andreessen famously wrote that "software is eating the world." Software now permeates every part of our existence; Google services combine for 2 billion lines of code, and a modern vehicle contains around 100 million lines of code. It's a monumental challenge to create, debug, maintain, and update these complex software systems. Recently, a fast-growing discipline known as AI fo

                    GitHub - IBM/Project_CodeNet: This repository is to support contributions for tools for the Project CodeNet dataset hosted in DAX
                  • OpenAI Selects Oracle Cloud Infrastructure to Extend Microsoft Azure AI Platform

                    Press ReleaseOpenAI Selects Oracle Cloud Infrastructure to Extend Microsoft Azure AI Platform Oracle, Microsoft, and OpenAl are partnering to extend the Microsoft Azure Al platform to Oracle Cloud Infrastructure (OCI) to provide additional capacity for OpenAl. OpenAI is the AI research and development company behind ChatGPT, which provides generative AI services to more than 100 million users ever

                      OpenAI Selects Oracle Cloud Infrastructure to Extend Microsoft Azure AI Platform
                    • 何を学習するかさえも学習する!メタ学習を用いた自己教師あり学習に対するラベルの自動探索について

                      3つの要点 ✔️ 学習すべきラベルをニューラルネットワークに生成させるMAXLの提案 ✔️ クラスの階層構造に注目したMask SoftMaxの利用 ✔️ メタ学習を用いることで既存のラベルよりも優れた性能を示した Self-Supervised Generalisation with Meta Auxiliary Learning written by Shikun Liu, Andrew J. Davison, Edward Johns (Submitted on 25 Jan 2019 (v1), last revised 26 Nov 2019 (this version, v3)) Comments: Published by Neural Information Processing Systems 2019 (NIPS2019) Subjects: Machine Learn

                        何を学習するかさえも学習する!メタ学習を用いた自己教師あり学習に対するラベルの自動探索について
                      • GitHub - kuzand/Computer-Vision-Video-Lectures: A curated list of free, high-quality, university-level courses with video lectures related to the field of Computer Vision.

                        Signals and Systems 6.003 (MIT), Prof. Dennis Freeman [Course] Signals and Systems 6.003 covers the fundamentals of signal and system analysis, focusing on representations of discrete-time and continuous-time signals (singularity functions, complex exponentials and geometrics, Fourier representations, Laplace and Z transforms, sampling) and representations of linear, time-invariant systems (differ

                          GitHub - kuzand/Computer-Vision-Video-Lectures: A curated list of free, high-quality, university-level courses with video lectures related to the field of Computer Vision.
                        • ついに出た!本当にDETR! 物体検出の革新的なパラダイム

                          3つの要点 ✔️ ついにTransformerを物体検出に応用 ✔️ End-to-endなモデルを実現し、人手による設計を削減 ✔️ 物体検出を直接的な集合予測問題として再定義 End-to-End Object Detection with Transformers written by Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko (Submitted on 26 May 2020 (v1), last revised 28 May 2020 (this version, v3)) Comments: Published by arXiv Subjects: Computer Vision and Pattern Reco

                            ついに出た!本当にDETR! 物体検出の革新的なパラダイム
                          • Azureアカウントを作成しよう ―利用前の準備と知っておきたい3つのこと (1/3)

                            本連載「ポイントを速習!『Azureの基礎(AZ900)』をみんなで学ぶ」では、FIXERの若手エンジニアたちがマイクロソフトの「Azureの基礎(AZ900)」公式ラーニングパスに沿いつつ、Azureを使ううえで覚えておくべき基礎的かつ重要なポイントだけ※をわかりやすくまとめます。実際に手を動かして学ぶハンズオンのコーナーもありますので、皆さんもぜひ一緒に学んでいきましょう。 (※ 本連載はAZ900試験の受験対策を目的としたものではなく、出題範囲すべてを網羅するものではありません) はじめに 連載「ポイントを速習!『Azureの基礎(AZ900)』をみんなで学ぶ」の第1回目では、クラウドサービスのひとつである「Microsoft Azure」(以下、Azure)を使ってみたい人向けに、Azureを利用するための準備をしていきます。 まず前半では、Azureを利用するために知っておく必要

                              Azureアカウントを作成しよう ―利用前の準備と知っておきたい3つのこと (1/3)
                            • 【WebRTC使ってみた】ブラウザカメラとあそぼ! | 株式会社ニジボックス

                              [markdown] どうもこんにちは。本当はいつまでも新人でいたかった、フロントエンドエンジニア大月です。春ですね。 さて、昨年9月にリリースされたiOS11でMedia Capture APIがサポートに加わり、iOS版Safariから本体のカメラにアクセスできるようになったようですね。 ## Media Capture APIとは [Media Capture and Streams API (Media Streams) – Web API インターフェイス | MDN](https://developer.mozilla.org/ja/docs/Web/API/Media_Streams_API) 難しいことが色々書いてあります。ざっくりと説明するとWebRTC関連のブラウザ用APIの一つで、これを使うとブラウザからカメラ・マイクにアクセスして動画や音声を扱うことができます。ちな

                                【WebRTC使ってみた】ブラウザカメラとあそぼ! | 株式会社ニジボックス
                              • Microsoft Azureの無料アカウントを使ってできること - システムエグゼ コーポレートサイト

                                Microsoft Azureには無料アカウントが存在し、試用で使う範囲なら大抵のことができます。 今回は、無料アカウントの登録方法と無償枠でできる範囲についてご紹介します。 1.Microsoft Azure無料アカウントの作成方法 Microsoft Azureの無料アカウントは、下記URLから「無料で始める」をクリックして登録することができます。 https://azure.microsoft.com/ja-jp/free/ 登録に必要なもの ・Microsoftアカウント ・電話番号(SMSの受け取り用) ・クレジットカード(本人確認用) 名前などの個人情報を入力し、本人確認とクレジットカード情報を登録したら完了です。 2.Microsoft Azure無料アカウントの3つの無料枠 Microsoft Azureで無料アカウントを作成すると、以下の3つの無料枠を利用することができま

                                  Microsoft Azureの無料アカウントを使ってできること - システムエグゼ コーポレートサイト
                                • GANの三つ巴バージョン!? データ増強をするためのGANモデルGAMO

                                  論文名: Generative Adversarial Minority Oversampling Subjects: Computer Vision and Pattern Recognition Submit: 22 Mar 2019 (v1), last revised 3 Apr 2019 (this version, v2) Written by: Sankha Subhra Mullick, Shounak Datta, Swagatam Das URL: https://arxiv.org/abs/1903.09730 この論文は、「GANで画像が生成できるなら、データ数の少ない問題に対処できるんじゃないか?」という考えから提案されたものです。 不均衡データ 実世界にAIを応用する際、必ずと言っていいほど不均衡データという問題に直面します。不均衡データ問題とは、「クラス間にお

                                  • Introducing Constellation, bringing AI to the Cloudflare stack

                                    Introducing Constellation, bringing AI to the Cloudflare stack05/15/2023 This post is also available in 简体中文, 日本語, Deutsch, Français and Español. The Cloudflare Workers' ecosystem now features products and features ranging from compute, hosting, storage, databases, streaming, networking, security, and much more. Over time, we've been trying to inspire others to switch from traditional software arc

                                      Introducing Constellation, bringing AI to the Cloudflare stack
                                    • MLP-Mixer: An all-MLP Architecture for Vision

                                      Convolutional Neural Networks (CNNs) are the go-to model for computer vision. Recently, attention-based networks, such as the Vision Transformer, have also become popular. In this paper we show that while convolutions and attention are both sufficient for good performance, neither of them are necessary. We present MLP-Mixer, an architecture based exclusively on multi-layer perceptrons (MLPs). MLP-

                                      • 画像認識の入門編知識を解説!概要や仕組み、事例について | Aidemy | 10秒で始めるAIプログラミング学習サービスAidemy[アイデミー]

                                        たくさんの手書き資料や映像の解析を、人の手と努力で解決していませんか。 「手書きアンケートの集計のためだけに人手を雇っている」 「通勤経路はわかっているが、書類を目視で一応確認しないといけない」 この記事では、人手に頼らずプログラミングで工数を削減できる技術「画像認識」について、事例を挙げながらご紹介します。 画像認識とは 画像認識とは、コンピュータや機械が画像に何が写っているかを認識・分類できる技術です。また、機械学習では、たくさんのパターンを試して、見分けるルールを自動的に探してくれます。 「画像認識」「機械学習」と聞くと、膨大なデータと高性能なサーバーが必要なイメージがありますが、個人のパソコンでも手軽に学び、実践できる技術です。 例えば、大量の写真を、コンピュータが自動的に「食べ物の写真」「海での思い出」など分類してアルバムを作ってくれる機能や、カメラに映っているお留守番中のペット

                                          画像認識の入門編知識を解説!概要や仕組み、事例について | Aidemy | 10秒で始めるAIプログラミング学習サービスAidemy[アイデミー]
                                        • AzureのOCR機能(Cognitive Service Read API v3.2)が日本語対応したので使ってみた - Qiita

                                          はじめに 概要 Azure Cognitive ServiceのOCR機能(Read API v3.2)が日本語に対応したので使ってみました。 非常に精度良く日本語がOCR出来ているので、実際のOCR結果を交えながら紹介したいと思います。 日本語のOCRでお困りの方(特に精度)は是非一度使ってみて頂きたいおススメの機能です。 この記事の想定読者 AzureのOCR機能に興味のある方 現在ご利用されているOCR機能に不満や課題をお持ちの方 機能検証にあたって実施したこと 実際にOCR処理を実施してみたい人向けの内容です。 OCRの検証結果事例を確認されたい方はOCR検証結果へ進んでください。 実行環境の構築 今回は以下の様な構成を作成し、OCR機能の検証を実施しました。 OCR機能のREST APIを実行端末側(オンプレPC側)で呼び出してOCR結果を取得するだけのシンプルな構成にしました。

                                            AzureのOCR機能(Cognitive Service Read API v3.2)が日本語対応したので使ってみた - Qiita
                                          • Pre-training without Natural Images

                                            International Journal of Computer Vision (IJCV) ACCV 2020 Best Paper Honorable Mention Award (Oral, 3 strong accepts) Hirokatsu Kataoka1   Kazushige Okayasu1,2   Asato Matsumoto1,3   Eisuke Yamagata4 Ryosuke Yamada1,2   Nakamasa Inoue4   Akio Nakamura2   Yutaka Satoh1,3 1: AIST   2: TDU   3: Univ. of Tsukuba   4: TITech Abstract Is it possible to use convolutional neural networks pre-trained witho

                                            • Understanding Causality Is the Next Challenge for Machine Learning

                                              “Causality is very important for the next steps of progress of machine learning,” said Yoshua Bengio, a Turing Award-wining scientist known for his work in deep learning, in an interview with IEEE Spectrum in 2019. So far, deep learning has comprised learning from static datasets, which makes AI really good at tasks related to correlations and associations. However, neural nets do not interpret ca

                                                Understanding Causality Is the Next Challenge for Machine Learning
                                              • 社内勉強会開催レポート(Scala,単一超解像,CPU) - CADDi Tech Blog

                                                たびたび登場失礼します、キャディ HR for Tech の岡野です。 過去にも Tech Blog の中で振れられたこともある、社内勉強会の「STUDDi」。 エンジニアの知的好奇心を刺激するこのイベントについて一部の情報(3ネタほど)を社外の方にもお伝え出来ればとおもい筆をとりました。 エンジニアの皆さんにとって、日頃のスクラム開発とブログ執筆の両立が簡単ではないこともあり、たまにはこうして近くでみている僕からの目線でもお伝え出来ればと思っています。 ちなみに上記の記事は2020年8月のものですが、それから1年以上経った今でも形を変えながら脈々と運営されています。 エンジニア全員の持ち回り発表機会が何周かしたことに加えて新しいメンバーのジョインが続いた事をきっかけに、組織としてもまだまだ発展途上であるキャディらしく、この勉強会のあり方について意見があがりました。 Tech組織の中でも多

                                                  社内勉強会開催レポート(Scala,単一超解像,CPU) - CADDi Tech Blog
                                                • Introducing the AI Research SuperCluster — Meta’s cutting-edge AI supercomputer for AI research

                                                  Introducing the AI Research SuperCluster — Meta’s cutting-edge AI supercomputer for AI research Developing the next generation of advanced AI will require powerful new computers capable of quintillions of operations per second. Today, Meta is announcing that we’ve designed and built the AI Research SuperCluster (RSC) — which we believe is among the fastest AI supercomputers running today and will

                                                    Introducing the AI Research SuperCluster — Meta’s cutting-edge AI supercomputer for AI research
                                                  • Detect Body and Hand Pose with Vision - WWDC20 - Videos - Apple Developer

                                                    Streaming is available in most browsers, and in the WWDC app. Explore how the Vision framework can help your app detect body and hand poses in photos and video. With pose detection, your app can analyze the poses, movements, and gestures of people to offer new video editing possibilities, or to perform action classification when paired with an action classifier built in Create ML. And we'll show y

                                                      Detect Body and Hand Pose with Vision - WWDC20 - Videos - Apple Developer
                                                    • Object Detection Datasets

                                                      Roboflow hosts free public computer vision datasets in many popular formats (including CreateML JSON, COCO JSON, Pascal VOC XML, YOLO v3, and Tensorflow TFRecords). For your convenience, we also have downsized and augmented versions available. If you'd like us to host your dataset, please get in touch.

                                                        Object Detection Datasets
                                                      • Optimal Peanut Butter and Banana Sandwiches | Ethan Rosenthal

                                                        I was personally useless for most of the Spring of 2020. There was a period of time, though, after the peak in coronavirus cases here in NYC and before the onslaught of police violence here in NYC that I managed to scrounge up the motivation to do something other than drink and maniacally refresh my Twitter feed. I set out to work on something completely meaningless. It was almost therapeutic to w

                                                        • Amazon SageMaker による動画内のスポーツハイライトの自動検出 | Amazon Web Services

                                                          Amazon Web Services ブログ Amazon SageMaker による動画内のスポーツハイライトの自動検出 この記事は、”Automatically detect sports highlights in video with Amazon SageMaker” を翻訳したものです。 動画からハイライトを抽出するのは、時間がかかり、複雑なプロセスです。この記事では、機械学習(ML)ソリューションを使用して、オリジナルの動画コンテンツからハイライト動画を自動的に作成する、スポーツイベントのインスタントリプレイに関する新たな取り組みを紹介します。ハイライト動画はダウンロード可能で、ユーザーが Web アプリで継続して視聴することができます。 Amazon SageMaker を使用して、ノーカットのスポーツ動画 (今回はサッカーの試合) を分析し、元の動画のハイライト (ペナ

                                                            Amazon SageMaker による動画内のスポーツハイライトの自動検出 | Amazon Web Services
                                                          • High-Resolution Image Synthesis with Latent Diffusion Models - Computer Vision & Learning Group

                                                            High-Resolution Image Synthesis with Latent Diffusion Models (A.K.A. LDM & Stable Diffusion) Robin Rombach1,2, Andreas Blattmann1,2, Dominik Lorenz1,2, Patrick Esser3, Björn Ommer1,2 1LMU Munich, 2IWR, Heidelberg University, 3Runway CVPR 2022 (ORAL) Abstract By decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-t

                                                              High-Resolution Image Synthesis with Latent Diffusion Models - Computer Vision & Learning Group
                                                            • Soraの技術の要点を咀嚼する研究|しらいはかせ(Hacker作家)

                                                              Video generation models as world simulators We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates on spacetime patches of video and image latent codes. Our largest model, Sora, is capable of ge

                                                                Soraの技術の要点を咀嚼する研究|しらいはかせ(Hacker作家)
                                                              • Ten lessons from a decade of vertical software investing

                                                                Insights on how vertical software founders can choose their markets wisely, maintain enduring growth, and build industry-defining companies. A few years ago, we published the initial version of our vertical SaaS manifesto. Since then, we have seen vertical SaaS continue to evolve—especially as new forms of monetization arise and augment the traditional software-based model. Accordingly, we have up

                                                                  Ten lessons from a decade of vertical software investing
                                                                • Omnimatte: Associating Objects and Their Effects in Video

                                                                  We pose a novel problem: automatically associating subjects in videos with ‘effects’ related to them in the scene. Given an input video (top) and rough masks of subjects of interest (middle), our method estimates an omnimatte – an alpha matte and foreground color that includes the subject itself along with all scene elements associated with it (bottom). The associated elements can be other objects

                                                                  • 恥ずかしいほどシンプルなVision Transformer

                                                                    3つの要点 ✔️ ViTの肝は、MetaFormerというメタ構造 ✔️ パラメータのないPooling層を用いるPoolFormerを提案 ✔️ PoolFormerが少ないパラメータ数で比較手法より高い精度を実現 MetaFormer is Actually What You Need for Vision written by Weihao Yu, Mi Luo, Pan Zhou, Chenyang Si, Yichen Zhou, Xinchao Wang, Jiashi Feng, Shuicheng Yan (Submitted on 22 Nov 2021 (v1), last revised 29 Nov 2021 (this version, v2)) Comments: Published on arxiv. Subjects: Computer Vision and

                                                                      恥ずかしいほどシンプルなVision Transformer
                                                                    • AITemplate: Unified inference engine on GPUs from NVIDIA and AMD

                                                                      Faster, more flexible inference on GPUs using AITemplate, a revolutionary new inference engine GPUs play an important role in the delivery of the compute needed for deploying AI models, especially for large-scale pretrained models in computer vision, natural language processing, and multimodal learning. Currently, AI practitioners have very limited flexibility when choosing a high-performance GPU

                                                                        AITemplate: Unified inference engine on GPUs from NVIDIA and AMD
                                                                      • Metaが高性能映像処理モデル「DINOv2」のライセンスを更新して商用利用が可能に、同時にモデルの「公平性」を評価するためのデータセット「FACET」も公開へ

                                                                        Metaが2023年8月31日に、映像処理モデル「DINOv2」のライセンスをCC BY-NC 4.0からApache License 2.0に変更すると発表しました。これまで存在していた商用利用に関する制限が取り払われ、より自由にモデルを利用することが可能になっています。同時に、モデルの公平性を評価するためのデータセット「FACET」もリリースされました。 Announcing the commercial relicensing and expansion of DINOv2, plus the introduction of FACET https://ai.meta.com/blog/dinov2-facet-computer-vision-fairness-evaluation/ DINOv2は自己教師あり学習でトレーニングされたモデルで、画像から物体ごとに切り分ける「セマンティ

                                                                          Metaが高性能映像処理モデル「DINOv2」のライセンスを更新して商用利用が可能に、同時にモデルの「公平性」を評価するためのデータセット「FACET」も公開へ
                                                                        • 木構造でニューラルネットワークを解剖!?精度と解釈性のトレードオフを解消するNBDTとは

                                                                          3つの要点 ✔️ディープニューラルネットワーク(DNN)の解釈性を向上するためにDNNと決定木を組み合わせる手法が提案されてきたが、既存の手法は精度が悪く、DNNの構造を大きく変えてしまう点で問題があった。 ✔️ 本論文では、Neural-Backed Decision Trees(NBDTs)によって上記の問題を解決する。Tree Supervison Lossと言う損失関数を導入することで、DNNの構造を変えず、通常のDNNから大きく精度を落とさずに、解釈性のあるモデルとして、SOTAを達成した。 ✔️ NBDTsが計算過程の意味を解釈できる量的・質的根拠を示している。 NBDT: Neural-Backed Decision Trees written by Alvin Wan, Lisa Dunlap, Daniel Ho, Jihan Yin, Scott Lee, Henry

                                                                            木構造でニューラルネットワークを解剖!?精度と解釈性のトレードオフを解消するNBDTとは
                                                                          • K-Means Clustering for Unsupervised Machine Learning

                                                                            K-means clustering is a type of unsupervised learning when we have unlabeled data (i.e., data without defined categories or groups). Clustering refers to a collection of data points based on specific similarities. K-Means Algorithm K-means aims to find groups in the data, with the number of groups represented by the variable K. Based on the provided features, the algorithm works iteratively to ass

                                                                              K-Means Clustering for Unsupervised Machine Learning
                                                                            • AIを活用したデジタル広告事業の強化・新規AI事業の開発を目的に、AI事業本部を発足

                                                                              株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役社長:藤田晋、東証一部上場:証券コード4751)は、AIを活用したデジタル広告事業開発の強化ならびに新たなAI事業の創出を目的とし、専門部署となるAI事業本部を2019年9月2日に発足いたしました。 当社はこれまでもデジタル広告市場の成長に伴い、AI技術の研究・開発をおこなう組織「AI Lab」を設立し、「AIによる多種多様なクリエイティブの制作支援」「AIを用いた広告配信における予測・最適化」「3DCGを用いた高品質なブランディング動画の制作」などの研究開発に取組んでまいりました。このたび専門部署を発足することで、今後もリテールテック領域やコールセンター業界におけるAI活用のさらなる加速を目指すとともに、AIを活用した新たな事業を創出してまいります。 AI事業本部では5つの領域を中心に事業開発に取組み、新たに「Data Scie

                                                                                AIを活用したデジタル広告事業の強化・新規AI事業の開発を目的に、AI事業本部を発足
                                                                              • 来年以降のキャリアをぼんやり考える - steps to phantasien

                                                                                これは来年の目標や計画をたてるにあたっての braindump である。 メタな話として、長期的な見通しを考えると同時に目先の仕事のがんばりにも気を配らないとだめだな、というのが今年仕事をがんばってみた上での感想。先のことばかり考えると足元を掬われる。あと人生のフェーズ的に将来の話ばっかりしてる段階でもない。 といいつつ大局的な話をまず考える。 Android の仕事について Android プログラマ、もうだいぶ旬を過ぎた感はある。世間的には Android 固有でハードコアなことをするより iOS と両方できるようになったり React Native なり Flutter なりでクロス OS 開発をしてみたり、あるいは Web のフロントエンドもできますよ、みたいな人が重宝されるフェーズに見える。専門家はまだ必要だが、足りてる。 これは少し前に一部のサーバ側の人が「フルスタック」すなわ

                                                                                • モバイル向けの代表モデルMobileNetV2を詳細解説!

                                                                                  2018年にGoogleの研究チームから発表されたMobileNetV2の詳細解説を発表論文とGoogleブログを主な参考文献として行う。なお、説明のために引用した図は下記発表論文もしくはGoogleブログから用いた。 元論文: MobileNetV2: Inverted Residuals and Linear Bottlenecks (初稿2018年1月13日、最終版2019年3月21日) https://arxiv.org/abs/1801.04381 Googleブログ: MobileNetV2: The Next Generation of On-Device Computer Vision Networks (2018年4月3日) https://ai.googleblog.com/2018/04/mobilenetv2-next-generation-of-on.html サ

                                                                                    モバイル向けの代表モデルMobileNetV2を詳細解説!