名刺管理アプリ作ってほしいといわれた それは2/22のお話。 ことの発端は別の部署からかかってきた一本の電話でした。 新規事業の部署でいろいろな取引先様と付き合いがあるものの、紙の名刺が非常に多く管理に困っているとのことのことです。 私は小売業に勤務しているしがない一社員で、現在Eコマースの戦略立案に関する部署に所属しています。 電話先の方は、以前一緒の部署で勤務したことがある方です。現在新規事業のプロジェクト推進をしており、冒頭のような課題感を持っているため既存の名刺管理アプリ導入を考えたのですが、あまりのお値段の高さに卒倒して私に藁をもすがる思いで連絡されたようです。 これまでのアプリは名刺の識別専門のAI()を使っていた 話を聞いてみたところ、 名刺の写真を撮る 会社名、部署名、名前、…など項目別にスプレッドシートへ記載される スプレッドシートに次の打ち合わせ日を記載しておくと通知さ
2. Mobility Technologies Co., Ltd. 宮澤 一之 株式会社Mobility Technologies AI技術開発部 AI研究開発第二グループ グループリーダー 経歴 April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 自己紹介 2 @kzykmyzw 3. Mobility Technologies Co., Ltd. 3 2014年10月:Autopilot誕生 2015年10月:「バージョン7.0」リリース 2016年01月:Summonベータ版をリリース 2016年10月:第2世代のハードウェアを全車種搭載へ 2018年10月:Autopilotにナビゲーション機能追加 2019年09月:Smart Summon機能リ
1. CoAtNetの解説 1.1 畳み込みとSAの復習 コンピュータビジョンで用いられている大きな仕組みに畳み込みとSelf-Attention(=SA)があります。畳み込みではEfficientNet、SAではViTが有名ですね。EfficientNetについてはこちらの拙著記事、ViTについてはこちらの拙著記事をご参照ください。CoAtNetでは、この畳み込みとSAの良いとこ取りをしたブロックを作ることが一番の目的になっています。畳み込みとSAの式を復習しておきましょう。ここでは畳み込みの中でもDW(=Depthwise)畳み込みを取り扱います。そして、本論文では分かりやすさを優先しているのか、式の細かいところ(SAにおけるqkvの埋め込みなど)はあえて排除しているように見えるので、理解しやすいです。 1.1.1 畳み込みの式 本論文では、畳み込みの中でもDW(=Depthwise)
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? お久しぶりです。 2012年のHintonさんのAlexNetによるILSVRCでの圧勝を皮切りに、画像認識の世界でもDeepLearningが脚光を浴びることとなりました。 物体検出の世界でも現在DeepLearningを用いたモデルが主流になっています。 https://paperswithcode.com/sota/object-detection-on-coco を見ると、 COCO test-devにおいて、state-of-the-art(SoTA)のモデルはEfficientDet-D7xのようです。 独断と偏見も少々あり
Overview 画像/音声処理をリアルタイムで行う、Webブラウザから利用できるアプリをStreamlitで作る方法を解説します。 StreamlitのおかげでPythonだけでwebアプリが作れます。さらに、一番簡単な例なら10行程度のPythonコードで、webカメラを入力にしてブラウザから利用できるリアルタイム画像処理アプリケーションになります。 Webベースなのでクラウドにデプロイでき、ユーザに簡単に共有して使ってもらえ、UIもイマドキで綺麗です。 人物・物体検知、スタイル変換、画像フィルタ、文字起こし、ビデオチャット、その他様々な画像・音声処理の実装アイディアをデモ・プロトタイピングするのになかなかハマる技術スタックではないでしょうか。 Webブラウザから利用できる物体検知デモの例。実行中に閾値をスライダーで変えられる。オンラインデモ🎈 同様にスタイル変換デモの例。実行中にモ
要点 マルチモーダル深層学習って何?Vision-Language Modelって何?という方向けに、 Google Colabで実際に学習済みモデルを動かしながら技術概要を理解していただけるチュートリアル記事です。 マルチモーダルの時代が到来 この10年、ディープラーニングの登場により、画像の分類や、文章読解(日本語等の自然言語によるQA)などが高い精度で自動化できるようになりましたね。 しかし、画像は画像、自然言語は自然言語・・・と、それぞれに特化した手法の開発が中心で、それらが混在したマルチメディア(マルチモーダル)の問題へのチャレンジは少ない状況に長らくありました。マルチモーダルの重要性は人間の様々な知的判断の場面を思い返せば分かりますね。実課題解決において重要なAI技術分野といえます。 シングルモーダルが中心だった潮目はこの1年くらいで変わり、昨今、マルチモーダルな深層学習モデル
TeslaはAIイベント「AI Day」で自動運転車開発の最新状況を公開した。自動運転の中核技術は高度なコンピュータビジョンで、これを開発するためにはAIスパコンが必要となる。TeslaはAIプロセッサを開発し、これをベースに独自のAIスパコンを構築した。更に、自動運転技術をロボットに応用したヒューマノイドを開発することを明らかにした。 発表概要 Teslaの自動運転技術は「Full Self-Driving(FSD)」(上の写真)と呼ばれ、他社とは異なり、カメラだけでクルマが自律走行する。AIはカメラの映像を解析し周囲のオブジェクトを把握するが、ニューラルネットワークの規模が巨大になり、また、アルゴリズムを教育するために大量のデータを必要とする。このため、Teslaは独自でAIプロセッサ「D1 Chip」を開発し、アルゴリズム教育を超高速で実行する。自動車メーカーがスパコン開発まで手掛け
Imagen unprecedented photorealism × deep level of language understanding unprecedented photorealism deep level of language understanding We present Imagen, a text-to-image diffusion model with an unprecedented degree of photorealism and a deep level of language understanding. Imagen builds on the power of large transformer language models in understanding text and hinges on the strength of diffusi
Meta AI Computer Vision Research
こんにちは、エムスリーエンジニアリンググループ/AI・機械学習チームの大垣 (@Hi_king) です。 これは エムスリー Advent Calendar 2020 の14日目の記事です。 前日は id:juntaki による、Goのchannelとスケジューリングでした。 私達AI・機械学習チームの挑戦している課題としては、MLによるサービス体験の向上、MLを中心とする新規サービスなど諸々あるのですが、 今日は、なかでも、臨床現場で利用するためのAI開発について書いてみようと思います。 上記のスライドはこのテーマで45分ほど社内勉強会を行うために作ったもので、 このなかから、エッセンスをかいつまんでブログ記事にしてみました。 記事中で紹介しきれなかったそれぞれの研究などはスライドをあらためて眺めていただけると幸いです。 私自身は、もともとコンピュータビジョン分野が専門で、医療分野に本格
Metaが画像や動画内のどのピクセルがどのオブジェクトと関係したものかを正確に識別することができる統合AIモデルの「Segment Anything Model 2(SAM 2)」を発表しました。SAM 2を利用することであらゆるオブジェクトをセグメント化し、動画のすべてのフレームにわたってリアルタイムで一貫した追跡が可能になるため、動画編集や複合現実の分野で革新的なツールとなる可能性があります。 Our New AI Model Can Segment Anything – Even Video | Meta https://about.fb.com/news/2024/07/our-new-ai-model-can-segment-video/ Introducing SAM 2: The next generation of Meta Segment Anything Model f
Segment Anything’s promptable design enables flexible integration with other systems. SAM could receive input prompts, such as a user’s gaze from an AR/VR headset, like Project Aria. SAM: A generalized approach to segmentation Previously, to solve any kind of segmentation problem, there were two classes of approaches. The first, interactive segmentation, allowed for segmenting any class of object
Update: Expanding access to Meta Segment Anything 2.1 on Amazon SageMaker JumpStart Updated February 12, 2025: Last July, we released Meta Segment Anything 2, a follow-up to our popular open source segmentation model, offering developers a unified model for real-time promptable object segmentation and tracking in images and videos. We’ve been blown away by the impact SAM 2 has made across the comm
Deep Lake is a Database for AI powered by a storage format optimized for deep-learning applications. Deep Lake can be used for: Storing and searching data plus vectors while building LLM applications Managing datasets while training deep learning models Deep Lake simplifies the deployment of enterprise-grade LLM-based products by offering storage for all data types (embeddings, audio, text, videos
今回はOpenAIの『CLIP(Contrastive Language-Image Pre-training)』を解説したいと思います。 CLIPは画像の分類に利用されるモデルですが、今までのモデルと何が違うかというと、自然言語処理の技術を応用する点です。 一般的な画像分類では、たくさんの画像を用意して、それぞれ対して犬、猫、リンゴ、などのラベルをつけます。 それを教師データとして学習します。 しかしながら、その方法には以下のような問題点があります。 ラベル付けに非常にコストがかかる。ラベルの種類が限定的で、学習対象の種類についてはうまく分類できるが、初めて見る対象(例えば、犬と猫を学習して、果物を分類するなど)については分類精度が低い。 CLIPでは、こういった問題に取り組んでいきます。 ちなみに、CLIPはモデルの仕組みではなく事前学習方法ですので、モデル自体はResNetやVisi
コンピュータビジョン研究の最先端をゆくトップランナーたちが織り成す季刊シリーズ創刊!! cvpaper.challengeおよびCVIM研究会全面協力のもと、最新トレンドのサーベイ、いま注目の最重要論文深読み、肝となる技術や理論のチュートリアルの3本柱で、実用性・信頼性のある最先端情報を、毎号ディープに解説。 創刊号のWinter 2021では、まず最新トレンドサーベイ記事「イマドキノCV」で近年のコンピュータビジョン分野において最重要と位置付けられる「データラベルの利活用」や「認識モデルの構築」を扱う。次に論文「フカヨミ」記事を3本掲載し、それぞれ、新規視点画像生成分野で2020年に登場したNeRF、画像処理分野の基本タスクである物体検出技術、いま最も伸びている3D認識アプローチのカテゴリレベル姿勢推定について取り上げる。最後に、チュートリアル記事「ニュウモンVision & Langu
Nota is a web application that allows to label and annotate images and videos for use in machine learning. It was created by DeNA Co., Ltd in 2017. It was realeased as Open Source in March 2021. Multiple backends for images and video sources Local Filesystem (mainly used for development) S3 bucket Customizable annotations using JSON templating language Points, binding boxes, polygon annotation in
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに ※本記事は2022年8月16日に20個のレシピを追加し50選へと更新いたしました。 AxrossRecipeを運営している松田です。 AxrossRecipe は、エンジニアの"アカデミックな教育"と"現場の業務"のスキルギャップに着目し、「学んだが活用できない人を減らしたい」という想いで、ソフトバンク社内起業制度にて立ち上げたサービスです。 現役エンジニアによるノウハウが"レシピ"として教材化されており、動くものを作りながらAI開発やデータ分析の流れを追体験できます。 AxrossRecipe: https://axross
この記事はMobility Technologies Advent Calendar 2021の18日目です。 こんにちは、AI技術開発AI研究開発第二グループの劉です。私はドラレコ映像から標識などの物体を見つける物体検出技術を開発しているのですが、その精度を改善していくためにはまず検出エラーを細かく分析することが重要です。本記事では、物体検出のエラー分析に関する論文である”TIDE: A General Toolbox for Identifying Object Detection Errors”を解説すると共に、その著者らが公開しているツールを実際に使ってみた結果をご紹介をしたいと思います。 はじめに本記事では、以下の論文を取り上げます。コンピュータビジョンで最も有名な国際学会の一つであるECCV(European Conference on Computer Vision)で202
この頃、バカンスシーズンなのか、ネタ切れなのか、画像向けTransformer論文が一息ついているので、ここでちょっと振り返ってみる。 2017年: そもそもの始まり Attention Is All You Need 自然言語向けに2017年に出たこのGoogle論文で、Attention構造が自然言語の方であっという間に広がる。 当然ながら、この流れで、計算量がかかるAttention部分がどんどんと違う手法で置き換えられた論文が増えてくる。 2019年: 画像認識にうっすらと浸透 画像認識でもConvolutionの代わりにAttentionが使われ始めたので、論文まとめ この記事で書いたように、ConvolutionをAttentionに変えようという論文が2019年からチラホラと出てくる。 この頃は、まだおっかなびっくりAttention構造に取り換えてもいけるぞ、とか、精度変わ
While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to replace certain components of convolutional networks while keeping their overall structure in place. We show that this reliance on CNNs is not nece
Knowledge Graphs (KGs) have emerged as a compelling abstraction for organizing the world’s structured knowledge, and as a way to integrate information extracted from multiple data sources. Knowledge graphs have started to play a central role in representing the information extracted using natural language processing and computer vision. Domain knowledge expressed in KGs is being input into machine
※この投稿は米国時間 2023 年 7 月 19 日に、Google Cloud blog に投稿されたものの抄訳です。 生成 AI の開発は猛烈な勢いで続いており、この破壊的技術を活かせるようなエンタープライズ向け機能を利用できるかどうかがかつてなく重要となっています。 Google の数十年に及ぶ調査とイノベーション、そして AI への投資を活用することで、Google Cloud は常に、セキュリティとデータ ガバナンス、そして全体的なスケーラビリティが用意されている状態で生成 AI を利用できるようにしています。 この目的のため、先月 Google は Vertex AI での生成 AI サポートの一般提供を発表しました。これにより Google Research から優れた基盤モデルにアクセス可能となり、これらのモデルをカスタマイズして利用するためのツールも利用できるようになりま
We plan to create a very interesting demo by combining Grounding DINO and Segment Anything which aims to detect and segment anything with text inputs! And we will continue to improve it and create more interesting demos based on this foundation. And we have already released an overall technical report about our project on arXiv, please check Grounded SAM: Assembling Open-World Models for Diverse V
『コンピュータビジョンのための実践機械学習 ―モデルアーキテクチャからMLOpsまで』 Valliappa Lakshmanan、Martin Gorner、Ryan Gillard 著、大山 匠 監訳、松田 晃一 訳 2023年7月19日発売予定 512ページ(予定) ISBN978-4-8144-0038-6 定価4,620円(税込) 機械学習モデルを使用して画像に関するさまざまな課題を解くための実践的な解説書。コンピュータビジョンは機械学習で最も注目度の高い分野のひとつです。本書では、機械学習エンジニアやデータサイエンティストを対象に、コンピュータビジョンに関連する機械学習の手法、アーキテクチャ、課題、運用などを網羅的に解説します。読者は、分類、物体検出、セグメンテーション、異常検知、画像生成、キャプション生成といった画像関連の問題を、機械学習で解決する方法を学びます。また、データセ
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く