はじめに Transformerを物体検出にはじめて取り入れた「DETR(DEtection Transformer)」が2020年5月にFacebookから発表されました。DETRは人間による手作業を大幅に減らすことに成功し、End-to-Endモデルに近く誰でも利用しやすいモデルになっています。また、「水着があるなら、一緒に写っている板のようなものはサーフボードである確率が高い」など、一枚の画像内にあるオブジェクト間の関係性を利用する形で物体検出が可能になりました。こうしたことがどうして可能になったのかを以下で見ていきたいと思います。 なお、Transformerに関しては一定程度の理解がある前提で説明しております。Transformerに関しても記事を作成しておりますので、下記をご参照ください。 公式論文 「End-to-End Object Detection with Trans
[2023/7/10] We release Semantic-SAM, a universal image segmentation model to enable segment and recognize anything at any desired granularity. Code and checkpoint are available! [2023/4/28]: We release a strong open-set object detection and segmentation model OpenSeeD that achieves the best results on open-set object segmentation tasks. Code and checkpoints are available here. [2023/4/26]: DINO is
We plan to create a very interesting demo by combining Grounding DINO and Segment Anything which aims to detect and segment anything with text inputs! And we will continue to improve it and create more interesting demos based on this foundation. And we have already released an overall technical report about our project on arXiv, please check Grounded SAM: Assembling Open-World Models for Diverse V
はじめに ※本記事は2022年8月16日に20個のレシピを追加し50選へと更新いたしました。 AxrossRecipeを運営している松田です。 AxrossRecipe は、エンジニアの"アカデミックな教育"と"現場の業務"のスキルギャップに着目し、「学んだが活用できない人を減らしたい」という想いで、ソフトバンク社内起業制度にて立ち上げたサービスです。 現役エンジニアによるノウハウが"レシピ"として教材化されており、動くものを作りながらAI開発やデータ分析の流れを追体験できます。 AxrossRecipe: https://axross-recipe.com Twitter: https://twitter.com/AxrossRecipe_SB 画像処理とは 画像処理は、「動画像のデータに対して、コンピュータが何かしらの処理を施すこと」の総称で、「画像認識」や「物体検出」、「画像合成・加
New AI advancements drive Meta’s ads system performance and efficiency AI has long been a crucial component of Meta’s ads system. We began with manual feature engineering for small models and progressed to building hundreds of deep neural network models with trillions of parameters. Each model is independently optimized for different goals — such as improving ad quality to provide better experienc
米Metaは9月25日(現地時間)、年次開発者会議「Meta Connect 2024」で、同社のLLM「Llama」の最新版「Llama 3.2」のリリースを発表した。7月に「Llama 3.1」をリリースしたばかりだが、初のマルチモーダルモデルの追加など、大きな更新になった。 画像認識機能の追加 Llama 3.2では、11B(110億)と90B(900億)の2つのモデルで画像認識機能をサポートする。 これにより、表やグラフなどの理解、画像キャプションの生成、画像内のオブジェクトに自然言語で指示する視覚的なグラウンディングなどの画像推論ユースケースが可能になる。 例えば、ユーザーが前年のどの月に売り上げが最も多かったのかをグラフに基づいて質問すると、Llama 3.2は迅速に回答を提供するという。 エッジデバイスに対応した軽量モデル 1Bと3Bの軽量モデルは、要約、指示の追従、書き換え
Metaが大規模言語モデル「Llama 3.1」を2024年7月23日にリリースしました。Llama 3.1はオープンソースで公開されており、GPT-4やGPT-4oといった最先端のクローズドソースAIモデルと同等以上の性能を備えているそうです。 Llama 3.1 https://llama.meta.com/ Introducing Llama 3.1: Our most capable models to date https://ai.meta.com/blog/meta-llama-3-1/ Llama 3.1はパラメーター数「4050億」「700億」「80億」のモデルが用意されており、すべてのモデルが12万8000のコンテキストウィンドウを備えています。 パラメーター数4050億の「Llama 3.1 405B」のベンチマーク結果を「Nemotron 4 340B Instru
Metaが画像や動画内のどのピクセルがどのオブジェクトと関係したものかを正確に識別することができる統合AIモデルの「Segment Anything Model 2(SAM 2)」を発表しました。SAM 2を利用することであらゆるオブジェクトをセグメント化し、動画のすべてのフレームにわたってリアルタイムで一貫した追跡が可能になるため、動画編集や複合現実の分野で革新的なツールとなる可能性があります。 Our New AI Model Can Segment Anything – Even Video | Meta https://about.fb.com/news/2024/07/our-new-ai-model-can-segment-video/ Introducing SAM 2: The next generation of Meta Segment Anything Model f
米メタ・プラットフォームズのマーク・ザッカーバーグ最高経営責任者(CEO)は、新たな製品に関する助言機関を設けた。メタ経営陣と定期的に会合を開き、同社の人工知能(AI)や技術の向上について助言するグループとなる。 「メタ・アドバイザリー・グループ」と呼ばれる同機関には、ストライプの共同創業者パトリック・コリソンCEO、ギットハブのナット・フリードマン元CEO、ショッピファイのトビアス・リュトケCEO、投資家でマイクロソフト元幹部のチャーリー・ソングハースト氏ら4人がメンバーとして名を連ねる。メタの広報担当者によると、全員に対して報酬は支払われない。 広報担当によれば、メタ・アドバイザリー・グループは取締役会とは異なり、株主によるメンバーの選任やメタに対する忠実義務はない。「技術面での向上やイノベーション、戦略的な成長機会に関する見識と助言を提供する役割を担う」という。 原題:Meta’s
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く