並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 234件

新着順 人気順

computer_visionの検索結果1 - 40 件 / 234件

  • OpenAIのBatch APIを使ってお得にプロンプトを一括処理してみる - Taste of Tech Topics

    はじめに こんにちは。データサイエンスチームYAMALEXのSsk1029Takashiです。 最近はOpenAIに日本支社が出来て、日本語対応が加速するというニュースにわくわくしています。 今回はそんなOpenAIから発表されたBatch APIという機能が便利、かつお得な機能だったのでどのように使えるのか試してみます。 Introducing the Batch API: save costs and get higher rate limits on async tasks (such as summarization, translation, and image classification). Just upload a file of bulk requests, receive results within 24 hours, and get 50% off API pri

      OpenAIのBatch APIを使ってお得にプロンプトを一括処理してみる - Taste of Tech Topics
    • Arxiv RAGによる論文サーベイの自動生成 | Shikoan's ML Blog

      2.3k{icon} {views} 複数のLLM(GPT/Claude3)とArxivの検索APIをRAGで統合し、論文サーベイの自動生成を作りました。検索結果の前処理や、サーベイ特有のプロンプトエンジニアリングやソートが重要で、最適化手法として古くからある巡回セールスマン問題(TSP)が有効に機能しました。また、生成部分ではGPTよりClaude3の明確な有効性を確認できました。 できたもの Arxivの検索APIを使って検索拡張生成(RAG)したらサーベイを自動生成できた やっていること Arxivの検索ワードをGPT-4-Turboで生成 ArxivのAPIを叩いてヒューリスティックでフィルタリング OpenAIのEmbedding APIを叩く Embeddingに対して巡回セールスマン問題(TSP)を解いてソートをかける 論文の要旨をGPT-3.5-Turboで要約 ソートした

        Arxiv RAGによる論文サーベイの自動生成 | Shikoan's ML Blog
      • 1bit LLM の時代は来るのか,来ないのか,どっちなんだい?|情報処理学会・学会誌「情報処理」

        徳永拓之(LeapMind(株)) 1bit LLMの時代が来る? 2024 年2 月,The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits¹⁾ というタイトルの論文がarXiv上で公開され,にわかに話題となりました.“1.58 Bits” という表現はあまりなじみがありませんが,log₂(3) = 1.58 . . . ということで,パラメーターを三値にした場合の情報量を示しているようです.この論文(以下b1.58 論文とする)は,同じ著者グループによる文献2)を少し拡張したもので,大規模言語モデル(LLM)の効率化についての研究です. 本稿の前半ではこれらの論文の主張を解説し,後半ではその主張の妥当性について検討します. なお,これらの2本の論文は,本稿執筆時点では,査読を経たものではありませんのでご注意くだ

          1bit LLM の時代は来るのか,来ないのか,どっちなんだい?|情報処理学会・学会誌「情報処理」
        • 大規模言語モデルのFine-tuningによるドメイン知識獲得の検討 - Preferred Networks Research & Development

          本記事は、2023年夏季インターンシッププログラムで勤務された竹田悠哉さんによる寄稿です。 はじめに 2023年度のPFN夏季インターンに参加した、東京大学大学院工学系研究科の竹田悠哉と申します。学部では画像生成の研究をしていましたが、技術の社会実装をより俯瞰的に学びたいと思い、現在は技術経営戦略学専攻で教育工学の研究をしています。 インターンでは「機械学習技術の社会実装」をテーマに、LLM(Large Language Model)にドメイン知識を習得させることに取り組みました。様々な設定において、主に英語で学習されたモデルであるLLaMA2に対して日本語のデータでのFine-tuningを行い、LoRAやInstruction Tuning、ドメイン知識の習得に関する知見を得ることができたと思います。本記事では、そこで利用した技術の紹介と、日本語におけるドメイン知識の習得に関する実験、

            大規模言語モデルのFine-tuningによるドメイン知識獲得の検討 - Preferred Networks Research & Development
          • 拡散モデルを用いた2Dバーチャル試着技術について - BASEプロダクトチームブログ

            はじめに こんにちは。BASEのデータ分析チーム(Data Strategy Team)で不正対策を行ったり、機械学習モデルを触ったりしている竹内です。 先日チーム内の論文読み会でニューラルネットを用いた画像合成によるバーチャル試着技術というトピックに触れる機会があったので、その最近のトレンドについて改めてブログという形でまとめてみました。 バーチャル試着は画像生成モデルの実用的なユースケースの一つとして今現在データセットの拡充やアーキテクチャの検証が進んでいる分野の一つであり、個人的には非常にアツいトピックだと感じています。 バーチャル試着とは バーチャル試着(Virtual Try On)とは、ある人物がある衣服を着用した状態を画像や3Dモデルなどの情報をもとに仮想的に実現し、どのように見えるか可視化する技術のことです。 ネットショップの普及により、店頭に出向かずともPCやスマートフォ

              拡散モデルを用いた2Dバーチャル試着技術について - BASEプロダクトチームブログ
            • Spacelyの研究開発プロジェクト紹介 - spacelyのブログ

              はじめに スペースリーの研究開発チームでエンジニアをしている植木です。この記事ではスペースリーで行っている研究開発について紹介します。 弊社は空間データプラットフォームを提供しており、具体的なアプリケーションとしては、不動産領域でのVR/Web内覧サービスや、研修領域に向けたVR研修サービスなどがあります。 VRというと3DCGのゲームやエンタメのイメージが強いと思いますが、弊社では360°カメラで撮影した実写の画像や動画をコンテンツとするサービスを展開しています。 VRを扱う会社でありつつ実写画像をメインで扱うため、画像や空間を認識するComputer Visionと、その結果をユーザに提示するComputer Graphicsの両方の研究開発を行っている点がユニークで魅力的かなと思います。 この記事を通じて弊社の研究開発に少しでも興味を持ってもらえたら幸いです。 弊社のサービスについて

                Spacelyの研究開発プロジェクト紹介 - spacelyのブログ
              • OpenAI Sora に使われる技術

                TL; DR OpenAI が非常に高品質な動画生成モデル Sora を公開 画像生成モデル Diffusion-Transformer を利用 動画を3次元画像として扱うことで画像モデルを拡張 キャプションは DALL•E3 同様、キャプション生成モデルで作成 OpenAI Sora Sora は OpenAI が今年の2月に発表した、動画生成モデルです。まずはこのモデルの出力例を見てみましょう。 図1. Sora の生成例: https://cdn.openai.com/sora/videos/big-sur.mp4 各フレームの画像が非常に美しく生成されています。また、従来の動画生成では時間が経った際に写っているオブジェクトを保つことが難しく、消えたり現れたり、急に歪んだりするものが多かったのに対し、Sora では一度隠れてから再度現れる場合であっても、矛盾なく生成できています。 こ

                  OpenAI Sora に使われる技術
                • ZOZOの新卒1年目MLエンジニアが行くCVPR 2024 参加レポート - ZOZO TECH BLOG

                  はじめに こんにちは、推薦基盤ブロック、新卒1年目の住安宏介です。普段は推薦システムの開発・運用を担当しています。 2024年6月に開催されたコンピュータビジョン・パターン認識分野において世界最高峰の国際会議の1つであるCVPR(Conference on Computer Vision and Pattern Recognition)2024に参加しました。参加レポートとして発表内容や参加した感想を紹介いたします。また、最後にZOZO NEXTが行っているワークショップのスポンサー活動についてZOZO Researchの清水から紹介いたします。 目次 はじめに 目次 CVPR とは 開催地のシアトルについて 学会のスケジュール 企業展示ブースの様子 ポスターセッションの雰囲気 採択数増加に伴うポスターセッションの懸念とその実際 特に、印象に残った研究発表 SLICE: Stabilize

                    ZOZOの新卒1年目MLエンジニアが行くCVPR 2024 参加レポート - ZOZO TECH BLOG
                  • ジョージア工科大学でコンピュータサイエンスを学び始める話 - Qiita

                    目次 はじめに 何故出願したか 何故ジョージア工科大学か どうやって準備したか おわりに はじめに 既に先人たちが書かれている記事も多々ありますが、2023年3月にジョージア工科大学のコンピュータサイエンス修士過程に出願して合格しました。8月から授業が始まるので忘れない内に何故出願したのか、どのように出願準備したのかについてまとめようと思います。働きながら米国のコンピュータサイエンス大学院進学を考えている方々の参考になりますと幸いです。 Acceptance Letter ー 合格証 何故大学院に出願したか ジョージア工科大学に出願した理由をざっくりまとめると、下記の3点です。 「Data&AI周辺への理解を深めて顧客からの技術的信頼度を上げたい」 「学問を続けられる環境に身を置きたい。加えて学位が欲しい」 「世界中どこでも働けるポータブルスキルを持った人材になりたい」 詳細は下記にプロフ

                      ジョージア工科大学でコンピュータサイエンスを学び始める話 - Qiita
                    • Kazumichi Komatsu

                      導入: 本テキストは2021年10月に京都市立芸術大学に提出された小松千倫の博士論文「表れる他者 − グラフィティおよびインターネットにおける諸操作の記述、あるいは遠さをつくるための研究」より第2章の一部を抜粋、修正しつつ掲載するものです。このテキストより前の部分(未掲載)では、InstagramやTinderを分析対象とし、それらのアプリケーションUI上に表示された単一のポストだけではなく、複数のポストのまとまりやそれらの順序に対して行われるユーザーの諸操作の傾向とその流通について記述していました。「編集操作」や「シークエンス」という語はそのような文脈で使用されています。以下第2章第8節から続く本文です。 8. TikTokとポップソングの信号化 私たちはTinderとInstagramの分析を通して複数のデータのシークエンスを対象にしたユーザーの編集操作の例を追ってきた。このようなシー

                      • MIT「AIが人の仕事をすぐに奪うことはない」、80年代のPC革命との違い | Forbes JAPAN 公式サイト(フォーブス ジャパン)

                        人工知能(AI)が人々の仕事に与える将来的な影響について、私たちはあまり多くを理解できていない。しかし、1950年代初頭にコンピュータがビジネスに導入され「オートメーション」という言葉が一般化して以来、AIが仕事に与える影響に関しては多くのことが語られており、最近では、AIが人々の仕事を奪う可能性について、さまざまなことが議論されている。 MITコンピュータ科学・人工知能研究所が先日発表した論文の「Beyond AI Exposure: Which Tasks are Cost-Effective to Automate with Computer Vision?(AIエクスポージャーの先にあるもの:どのようなタスクがコンピュータビジョンを用いてコスト効率良く自動化できるか?)」は、AIと仕事の未来の関係について非常に率直な予測を立てている。ここで喜ぶべきニュースは「コンピュータビジョンを

                          MIT「AIが人の仕事をすぐに奪うことはない」、80年代のPC革命との違い | Forbes JAPAN 公式サイト(フォーブス ジャパン)
                        • Unlock a new era of innovation with Windows Copilot Runtime and Copilot+ PCs

                          I am excited to be back at Build with the developer community this year. Over the last year, we have worked on reimagining  Windows PCs and yesterday, we introduced the world to a new category of Windows PCs called Copilot+ PCs. Copilot+ PCs are the fastest, most intelligent Windows PCs ever with AI infused at every layer, starting with the world’s most powerful PC Neural Processing Units (NPUs) c

                            Unlock a new era of innovation with Windows Copilot Runtime and Copilot+ PCs
                          • 生成AIを使えるかどうかはイシューではない - ニューロサイエンスとマーケティングの間 - Between Neuroscience and Marketing

                            Summilux 1.4/50 ASPH, Leica M10P @Chinkokuji Temple, Munakata, Japan 昨日のLLM(large language model 大規模言語モデル)議論の続きをもう少し書いてみようと思う。 kaz-ataka.hatenablog.com DS協会のスキル定義委員会ではIPAと協働し、2年に一度、データサイエンティストのスキル標準を見直し、改訂版を発表している*1。今年は奇しくも改訂年だったのだが、この春、わずか数ヶ月前に華々しく登場したChatGPTを目の前にしつつ、生成AI領域においてデータ×AIプロフェッショナル(データサイエンティスト DS)の場合、求められるスキルはどうかわるのか、という議論を随分とした。 データサイエンティスト協会 10thシンポジウム スキル定義委員会発表資料(2023年10月20日) 生成AIは

                              生成AIを使えるかどうかはイシューではない - ニューロサイエンスとマーケティングの間 - Between Neuroscience and Marketing
                            • Building Meta’s GenAI Infrastructure

                              Marking a major investment in Meta’s AI future, we are announcing two 24k GPU clusters. We are sharing details on the hardware, network, storage, design, performance, and software that help us extract high throughput and reliability for various AI workloads. We use this cluster design for Llama 3 training. We are strongly committed to open compute and open source. We built these clusters on top of

                                Building Meta’s GenAI Infrastructure
                              • Azure OpenAI Service で GPT-4 Turbo with Vision を使う

                                Microsoft Ignite 2023 にて、これらのモデルが近いうちに Azure OpenAI Service でも利用可能になることが発表されていましたが、このたびマルチモーダル入力対応の GPT-4 Turbo with Vision のプレビューが開始しました。(テキスト入力のみを受け付ける無印 GPT-4 Turbo は一足先にプレビュー開始していました。) 参考 New models and developer products announced at DevDay (本家 OpenAI) Azure OpenAI Service Launches GPT-4 Turbo and GPT-3.5-Turbo-1106 Models GPT-4 および GPT-4 Turbo プレビュー モデル 利用可能なリージョン 執筆時点で GPT-4 Turbo with Visi

                                  Azure OpenAI Service で GPT-4 Turbo with Vision を使う
                                • 【イベントレポート】3DV 2024に参加しました - ZOZO TECH BLOG

                                  はじめに こんにちは。計測システム部、研究開発ブロックの皆川です。普段はコンピュータービジョンに関わる研究開発を担当しています。 2024年の3月に3次元コンピュータービジョンの国際学会である3DV 2024がスイスのダボスで開催され、幸運にも参加できたので、発表の内容や参加した感想をご紹介いたします。 目次 はじめに 目次 3DV 2024とは なぜ参加したのか 開催地のダボスと、会場のダボスコングレスセンターについて 学会のスケジュール 印象に残った発表 全体的な感想 3D Computer Vision for Dynamic Scene Understanding by Daniel Cremers ドライバーアシスト ドローンを使った研究 バンドル調整 初期のSLAM 直接的なSLAM ニューラルネットワークとSLAM さいごに おまけ 3DV 2024とは 先述の通り、3DVは

                                    【イベントレポート】3DV 2024に参加しました - ZOZO TECH BLOG
                                  • YOLOv8でナンバープレートを検出してAI-OCRで読み取ってみました。 〜ファインチューニングに使用したデータは、撮影した写真ではなく、Pythonで生成した画像(30,000枚・192,000アノテーション)です〜 | DevelopersIO

                                    5 AI-OCR AI-OCRとしては、MicrosoftのComputer Visionで提供されている、Read APIを使用させて頂きました。 参考: Computer Vision 3.2 GA Read API を呼び出す 最初は、ナンバープレート画像を、そのままOCRにかけてみたのですが、下段左の平仮名1文字のところの認識が難しいようでした。これは、このように「ひらがな」1文字だけが配置されることに、モデルが対応しきれていないような気がしました。 対策として、画像を3つの部分に分割し、それぞれでOCRにかけるようにしてみました。また、認識精度が上がるように、業務用(緑バックの白文字、及び、黒バックの黄色文字)は、ネガポジ反転し、最終的にグレースケール変換することにしました。 AI-OCRで処理しているコードと、それを使っている、全体のコードです。 ocr.py import t

                                      YOLOv8でナンバープレートを検出してAI-OCRで読み取ってみました。 〜ファインチューニングに使用したデータは、撮影した写真ではなく、Pythonで生成した画像(30,000枚・192,000アノテーション)です〜 | DevelopersIO
                                    • Don’t Build AI Products The Way Everyone Else Is Doing It

                                      If you want to build AI products that are unique, valuable, and fast, don't do what everybody else is doing. I'll show you what to do instead. What not to doThe vast majority of AI products being built right now are just wrappers over other models, such as those that essentially involve calling ChatGPT over an API. While that's incredibly easy — you send natural language in and get natural languag

                                        Don’t Build AI Products The Way Everyone Else Is Doing It
                                      • Universal and Transferable Attacks on Aligned Language Models

                                        Universal and Transferable Adversarial Attacks on Aligned Language Models Andy Zou1, Zifan Wang2, Nicholas Carlini3, Milad Nasr3, J. Zico Kolter1,4, Matt Fredrikson1 1Carnegie Mellon University, 2Center for AI Safety, 3 Google DeepMind, 4Bosch Center for AI Overview of Research : Large language models (LLMs) like ChatGPT, Bard, or Claude undergo extensive fine-tuning to not produce harmful content

                                        • GitHub - roboflow/supervision: We write your reusable computer vision tools. 💜

                                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                            GitHub - roboflow/supervision: We write your reusable computer vision tools. 💜
                                          • F1が走路外走行(トラックリミット)の検出をコンピュータービジョンとAIに任せる方針

                                            モータースポーツを統括する国際自動車連盟(FIA)が、2023年11月24日から26日にかけて開催されるF1第23戦アブダビGPで、コンピュータービジョンとAIを走路外走行(トラックリミット)の検出に導入する方針を明らかにしました。 FIA Insights - Computer Vision | Federation Internationale de l'Automobile https://www.fia.com/news/fia-insights-computer-vision Formula 1 hopes AI will help it figure out if a car breaks track limits https://www.engadget.com/formula-1-hopes-ai-will-help-it-figure-out-if-a-car-break

                                              F1が走路外走行(トラックリミット)の検出をコンピュータービジョンとAIに任せる方針
                                            • GitHub - Skyvern-AI/skyvern: Automate browser-based workflows with LLMs and Computer Vision

                                              🐉 Automate Browser-based workflows using LLMs and Computer Vision 🐉 Skyvern automates browser-based workflows using LLMs and computer vision. It provides a simple API endpoint to fully automate manual workflows, replacing brittle or unreliable automation solutions. Traditional approaches to browser automations required writing custom scripts for websites, often relying on DOM parsing and XPath-b

                                                GitHub - Skyvern-AI/skyvern: Automate browser-based workflows with LLMs and Computer Vision
                                              • Stable Diffusion Web UIの解像度をSDXLにあわせたドロップダウンにする - きしだのHatena

                                                Stable Diffusionの新しいバージョン、SDXLが出ています。 ただ、SDXLは大きい画像で学習しているためか、ちゃんとした画像を生成するにはそれなりの解像度を設定する必要があります。 ということで、Stable Diffusion Web UIの解像度設定をスライダーからドロップダウンにしてよさげな値を指定しやすくしてみました。 SDXLでは512x512で画像を生成すると、こういうパターンが生成されることが多くなります。 まともなものが生成されても、ちょっと画力低くないですかと言いたくなるものになってしまいます。 ということで、SDXLを使うときのオススメ解像度がいくつか出てきていますね。 https://www.reddit.com/r/StableDiffusion/comments/15c3rf6/sdxl_resolution_cheat_sheet/ アニメ画風の

                                                  Stable Diffusion Web UIの解像度をSDXLにあわせたドロップダウンにする - きしだのHatena
                                                • AnthropicのClaude 3 OpusのVision機能を日本語OCRとして使ってみる

                                                  今月4日、AnthropicがClaude 3を発表しました。Anthropicの発表している評価結果では、OpenAI GPT-4やGoogleのGemini 1.0 Ultraを上回る高い性能を示しています。私もClaude 3 Sonnetを使って、翻訳やテストケース作成などの作業をいくつかやってもらいましたが、私の体感でもGPT-4と同等かそれを上回る高い性能だと感じました。 最近の生成AIは画像認識系機能を組み込んでおり、Claude 3もVision機能が提供されています。具体的には写真やグラフ、図などを読み込んで処理する用途が想定されているそうです。 私は以前から、「Azure Computer Vision APIの日本語OCR機能を使ってみる」、「Google Cloud Vision APIの日本語OCR機能を使ってみる」、「OpenAIのGPT-4 Turbo wit

                                                    AnthropicのClaude 3 OpusのVision機能を日本語OCRとして使ってみる
                                                  • OpenMMLabの始め方@SUMMER 2023 - Qiita

                                                    Rist Kaggle チームの藤本(@fam_taro)です。 今回は Rist Kaggle合宿2023夏の時間を使って、最近の OpenMMLab の始め方をまとめてみました。本記事内ではその中の mmdetection を使って説明していきますが、他の OpenMMLab の使い方もカバーする内容となってます。 また記事の後半では Kaggle のコードコンペなどに参加したいときの使い方も記載します。 1. OpenMMLabとは 下図と紹介文は 公式サイト より引用 OpenMMLab builds the most influential open-source computer vision algorithm system in the deep learning era. It aims to provide high-quality libraries to reduc

                                                      OpenMMLabの始め方@SUMMER 2023 - Qiita
                                                    • Vision Pro is an over-engineered “devkit” // Hardware bleeds genius & audacity but software story is disheartening // What we got wrong at Oculus that Apple got right // Why Meta could finally have its Android moment

                                                      by Hugo Barra (former Head of Oculus at Meta) Friends and colleagues have been asking me to share my perspective on the Apple Vision Pro as a product. Inspired by my dear friend Matt Mullenweg’s 40th post, I decided to put pen to paper. This started as a blog post and became an essay before too long, so I’ve structured my writing in multiple sections each with a clear lead to make it a bit easier

                                                        Vision Pro is an over-engineered “devkit” // Hardware bleeds genius & audacity but software story is disheartening // What we got wrong at Oculus that Apple got right // Why Meta could finally have its Android moment
                                                      • Azure のGPT-4 Turbo with Visionを使ってみた - 電通総研 テックブログ

                                                        こんにちは。XI 本部 AI トランスフォーメンションセンター所属の後藤です。 本記事は「 電通国際情報サービス Advent Calendar 2023 」の12月20日(水)の回の記事になります。 本記事では、つい先日利用が可能となったAzureの「GPT-4 Turbo with Vision」の紹介と使い方の解説をします。 使ってみた所感として、今回のAzure版GPT-4 Turbo with Visionは単なるOpenAIの機能の追随に留まらず、Azure固有の追加機能である「Vision enhancement」が印象的でした。特に、画像や動画の扱いにおいて、OpenAIのモデルよりも応用範囲が大きく広がっていることが感じられました。 OpenAIのGPT-4Vに関してはTechBlogの以下の記事でも紹介されていますので、ぜひご参照ください。 参考:https://tec

                                                          Azure のGPT-4 Turbo with Visionを使ってみた - 電通総研 テックブログ
                                                        • GPT-4V(ision) System Cardをざっくり訳した - Qiita

                                                          はじめに OpenAIが3月に発表していたものの実装していなかった、画像および音声を取り扱うことのできるマルチモーダルモデル「GPT4-V」のdeployが発表されました。本当に全部この会社がやればいいんじゃないか? ChatGPTのPlus/Enterpriseユーザーに2週間かけて提供するそうです。最近ChatGPTのほうの処理能力が落ちつつあってGPT-4のAPIばっかり使ってるんですが、ChatGPT Plusは解約できそうにないですね。 GPT4-Vを中心としたV&LのLLMはDocumentUnderstandingの文脈での活用が期待されており、先日Googleを中心としたグループもLMDX: Language Model-based Document Information Extraction and Localizationという論文を発表していました。Geminiなん

                                                            GPT-4V(ision) System Cardをざっくり訳した - Qiita
                                                          • Stable Diffusionからの概念消去⑤:DiffQuickFix (論文)

                                                            Localizing and Editing Knowledge In Text-to-Image Generative Models (ICLR2024) 今回はtext-to-imageの概念消去に戻ってDiffQuickFixという手法をみます. 論文は60ページ以上あり, 非常に多くの結果が提供されていますが主にmain paperの部分を見ていきます. 図や表はことわりのない限り論文からの引用です. 書籍情報 Samyadeep Basu and Nanxuan Zhao and Vlad I Morariu and Soheil Feizi and Varun Manjunatha. Localizing and Editing Knowledge In Text-to-Image Generative Models. The Twelfth International Con

                                                              Stable Diffusionからの概念消去⑤:DiffQuickFix (論文)
                                                            • NeRFの仕組みを1からわかりやすくまとめたい - kentaPtの日記

                                                              1. はじめに NeRF (Neural Radiance Field) とは、複雑なシーンに対して、任意の視点からの3次元的なシーンを画像から再構成する技術です。以下の動画にあるように、物体に対して、様々な角度から見たときのシーンをキレイに再現することができます。反射に関しても、それぞれの角度から見たときの見え方が反映されており、角度によって同じ場所でも微妙に違う反射特性を見て取ることができます。この手法を利用して、例えば、地点AとBで画像を取得した場合、その中間地点の任意の角度から対象物体を見たときのシーンを生成可能です。 この記事では、このNeRFと呼ばれる技術と、それを実行するにあたって必要な周辺の技術について簡単にまとめたいと思います。以下に示す、NeRFの論文と照らし合わせてながら解説を行います。しかし、本記事では、NeRFを実行するまでの流れを示すため、各要素技術に関しては詳

                                                                NeRFの仕組みを1からわかりやすくまとめたい - kentaPtの日記
                                                              • 3次元物体検出もシンプルにTransformerで!PETRv2を理解する

                                                                Turing株式会社のアドベントカレンダー2日目です!1日目はCTOの青木さんのカレー屋さんとスタートアップ:CTO of the year 2023でオーディエンス賞受賞です。 自動運転・AIモデル開発チームの岩政(@colum2131)です。 Turingは完全自動運転車の開発を目標としており、自動運転AIや車両、LLMの開発など様々なことに取り組んでいます。今回の話は、自動運転AIの物体認識などのPerceptionタスクにおいて個人的に面白いなと思ったVision-CentircなEnd-to-Endモデルの紹介です[1]。 Transformerベースの画像認識 Transformerは、大規模言語モデル(Large Language Model; LLM)などに用いられる重要なアーキテクチャです。2017年に"Attention Is All You Need"というタイトルで

                                                                  3次元物体検出もシンプルにTransformerで!PETRv2を理解する
                                                                • Contrastive Learningの最新動向のレビュー - Morpho Tech Blog

                                                                  こんにちは。CTO室リサーチャーの鈴木です。今回は、深層学習の分野でここ数年盛り上がっているContrastive Learning系の手法について、主だった論文を系統的にまとめて紹介したいと思います。 はじめに 近年発展した自己教師あり学習(Self-Supervised Learning:SSL)は、アノテーション情報を人の手ではなく機械的に付与することで、データセットの構築にかかる時間やコストを軽減し、深層学習モデルの精度向上を目指した手法です。自然言語処理分野におけるSSLは大きな成功を収め、ChatGPT等の超高性能なチャットボットの出現にも影響を与えました。 SSLは主に深層学習モデルの「事前」学習として用いられます。SSLによって、文章や画像に含まれる一般的な特徴を大量のデータから学習することができます。これにより、文章生成や画像認識などの本学習の効率が向上し、最終的な性能向

                                                                    Contrastive Learningの最新動向のレビュー - Morpho Tech Blog
                                                                  • OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる

                                                                    先日のOpenAI DevDayで、GPT-4 Turbo with visionというものが発表されました。Chat Completions APIで画像ファイルをインプットとして渡して、画像解析をしてくれるAPIです。 私は以前、「Azure Computer Vision APIの日本語OCR機能を使ってみる」や「Google Cloud Vision APIの日本語OCR機能を使ってみる」で、各クラウドの画像認識APIの日本語OCR機能を検証するエントリーを書きました。OpenAIも画像認識APIが使えるようになったので、まったく同じ検証方法で評価してみました。 GPT-4 Turbo with vision OCR機能の利用 OpenAIのAPI Keyを準備します。API Keyを取得されていない方は、「OpenAI API Key取得」で検索してください。 今回の検証コードは

                                                                      OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる
                                                                    • Mixture of Experts Explained

                                                                      With the release of Mixtral 8x7B (announcement, model card), a class of transformer has become the hottest topic in the open AI community: Mixture of Experts, or MoEs for short. In this blog post, we take a look at the building blocks of MoEs, how they’re trained, and the tradeoffs to consider when serving them for inference. Let’s dive in! Table of Contents What is a Mixture of Experts? A Brief H

                                                                        Mixture of Experts Explained
                                                                      • Stable Diffusion Web UIにFooocusのスタイルを取り込む - きしだのHatena

                                                                        FooocusというStable DiffusionのUIではスタイルを設定するだけで呪文が不要のシンプルなプロンプトでの画像生成が可能になっています。 そのスタイルをAUTOMATIC1111/Stable Diffusion Web UIに取り込めるようにしてみました。 いろいろ過程を書いてるので、最後まで読むのがめんどかったら、このstyles.csvをStable Diffusion Web UIのフォルダ直下に置くと読み込まれる。すでにスタイルを設定しているのであれば、既存データを追加しておく。 https://gist.github.com/kishida/9e062c8d3f57dc68e8270b8417feecea#file-styles-csv Fooocusはrun.batを起動するだけでインストールができるお手軽UIなのだけど、すでにAUTOMATIC1111 we

                                                                          Stable Diffusion Web UIにFooocusのスタイルを取り込む - きしだのHatena
                                                                        • OpenAI Selects Oracle Cloud Infrastructure to Extend Microsoft Azure AI Platform

                                                                          Press ReleaseOpenAI Selects Oracle Cloud Infrastructure to Extend Microsoft Azure AI Platform Oracle, Microsoft, and OpenAl are partnering to extend the Microsoft Azure Al platform to Oracle Cloud Infrastructure (OCI) to provide additional capacity for OpenAl. OpenAI is the AI research and development company behind ChatGPT, which provides generative AI services to more than 100 million users ever

                                                                            OpenAI Selects Oracle Cloud Infrastructure to Extend Microsoft Azure AI Platform
                                                                          • Soraの技術の要点を咀嚼する研究|しらいはかせ(Hacker作家)

                                                                            Video generation models as world simulators We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates on spacetime patches of video and image latent codes. Our largest model, Sora, is capable of ge

                                                                              Soraの技術の要点を咀嚼する研究|しらいはかせ(Hacker作家)
                                                                            • Metaが高性能映像処理モデル「DINOv2」のライセンスを更新して商用利用が可能に、同時にモデルの「公平性」を評価するためのデータセット「FACET」も公開へ

                                                                              Metaが2023年8月31日に、映像処理モデル「DINOv2」のライセンスをCC BY-NC 4.0からApache License 2.0に変更すると発表しました。これまで存在していた商用利用に関する制限が取り払われ、より自由にモデルを利用することが可能になっています。同時に、モデルの公平性を評価するためのデータセット「FACET」もリリースされました。 Announcing the commercial relicensing and expansion of DINOv2, plus the introduction of FACET https://ai.meta.com/blog/dinov2-facet-computer-vision-fairness-evaluation/ DINOv2は自己教師あり学習でトレーニングされたモデルで、画像から物体ごとに切り分ける「セマンティ

                                                                                Metaが高性能映像処理モデル「DINOv2」のライセンスを更新して商用利用が可能に、同時にモデルの「公平性」を評価するためのデータセット「FACET」も公開へ
                                                                              • K-Means Clustering for Unsupervised Machine Learning

                                                                                K-means clustering is a type of unsupervised learning when we have unlabeled data (i.e., data without defined categories or groups). Clustering refers to a collection of data points based on specific similarities. K-Means Algorithm K-means aims to find groups in the data, with the number of groups represented by the variable K. Based on the provided features, the algorithm works iteratively to ass

                                                                                  K-Means Clustering for Unsupervised Machine Learning
                                                                                • Are Software Jobs Well-Paying in Japan

                                                                                  If you're interested in pursuing a software developer job in Japan and wondering about the salary prospects, this article will provide you with valuable information. We'll explore various aspects of IT jobs in software development in Japan, including front-end, back-end, and full-stack positions. While being bilingual in Japanese is advantageous, it's worth noting that there is also a significant

                                                                                    Are Software Jobs Well-Paying in Japan