並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 232件

新着順 人気順

computer_visionの検索結果1 - 40 件 / 232件

  • OpenAIのBatch APIを使ってお得にプロンプトを一括処理してみる - Taste of Tech Topics

    はじめに こんにちは。データサイエンスチームYAMALEXのSsk1029Takashiです。 最近はOpenAIに日本支社が出来て、日本語対応が加速するというニュースにわくわくしています。 今回はそんなOpenAIから発表されたBatch APIという機能が便利、かつお得な機能だったのでどのように使えるのか試してみます。 Introducing the Batch API: save costs and get higher rate limits on async tasks (such as summarization, translation, and image classification). Just upload a file of bulk requests, receive results within 24 hours, and get 50% off API pri

      OpenAIのBatch APIを使ってお得にプロンプトを一括処理してみる - Taste of Tech Topics
    • 1bit LLM の時代は来るのか,来ないのか,どっちなんだい?|情報処理学会・学会誌「情報処理」

      徳永拓之(LeapMind(株)) 1bit LLMの時代が来る? 2024 年2 月,The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits¹⁾ というタイトルの論文がarXiv上で公開され,にわかに話題となりました.“1.58 Bits” という表現はあまりなじみがありませんが,log₂(3) = 1.58 . . . ということで,パラメーターを三値にした場合の情報量を示しているようです.この論文(以下b1.58 論文とする)は,同じ著者グループによる文献2)を少し拡張したもので,大規模言語モデル(LLM)の効率化についての研究です. 本稿の前半ではこれらの論文の主張を解説し,後半ではその主張の妥当性について検討します. なお,これらの2本の論文は,本稿執筆時点では,査読を経たものではありませんのでご注意くだ

        1bit LLM の時代は来るのか,来ないのか,どっちなんだい?|情報処理学会・学会誌「情報処理」
      • 大規模言語モデルのFine-tuningによるドメイン知識獲得の検討 - Preferred Networks Research & Development

        本記事は、2023年夏季インターンシッププログラムで勤務された竹田悠哉さんによる寄稿です。 はじめに 2023年度のPFN夏季インターンに参加した、東京大学大学院工学系研究科の竹田悠哉と申します。学部では画像生成の研究をしていましたが、技術の社会実装をより俯瞰的に学びたいと思い、現在は技術経営戦略学専攻で教育工学の研究をしています。 インターンでは「機械学習技術の社会実装」をテーマに、LLM(Large Language Model)にドメイン知識を習得させることに取り組みました。様々な設定において、主に英語で学習されたモデルであるLLaMA2に対して日本語のデータでのFine-tuningを行い、LoRAやInstruction Tuning、ドメイン知識の習得に関する知見を得ることができたと思います。本記事では、そこで利用した技術の紹介と、日本語におけるドメイン知識の習得に関する実験、

          大規模言語モデルのFine-tuningによるドメイン知識獲得の検討 - Preferred Networks Research & Development
        • 拡散モデルを用いた2Dバーチャル試着技術について - BASEプロダクトチームブログ

          はじめに こんにちは。BASEのデータ分析チーム(Data Strategy Team)で不正対策を行ったり、機械学習モデルを触ったりしている竹内です。 先日チーム内の論文読み会でニューラルネットを用いた画像合成によるバーチャル試着技術というトピックに触れる機会があったので、その最近のトレンドについて改めてブログという形でまとめてみました。 バーチャル試着は画像生成モデルの実用的なユースケースの一つとして今現在データセットの拡充やアーキテクチャの検証が進んでいる分野の一つであり、個人的には非常にアツいトピックだと感じています。 バーチャル試着とは バーチャル試着(Virtual Try On)とは、ある人物がある衣服を着用した状態を画像や3Dモデルなどの情報をもとに仮想的に実現し、どのように見えるか可視化する技術のことです。 ネットショップの普及により、店頭に出向かずともPCやスマートフォ

            拡散モデルを用いた2Dバーチャル試着技術について - BASEプロダクトチームブログ
          • OpenAI Sora に使われる技術

            TL; DR OpenAI が非常に高品質な動画生成モデル Sora を公開 画像生成モデル Diffusion-Transformer を利用 動画を3次元画像として扱うことで画像モデルを拡張 キャプションは DALL•E3 同様、キャプション生成モデルで作成 OpenAI Sora Sora は OpenAI が今年の2月に発表した、動画生成モデルです。まずはこのモデルの出力例を見てみましょう。 図1. Sora の生成例: https://cdn.openai.com/sora/videos/big-sur.mp4 各フレームの画像が非常に美しく生成されています。また、従来の動画生成では時間が経った際に写っているオブジェクトを保つことが難しく、消えたり現れたり、急に歪んだりするものが多かったのに対し、Sora では一度隠れてから再度現れる場合であっても、矛盾なく生成できています。 こ

              OpenAI Sora に使われる技術
            • ZOZOの新卒1年目MLエンジニアが行くCVPR 2024 参加レポート - ZOZO TECH BLOG

              はじめに こんにちは、推薦基盤ブロック、新卒1年目の住安宏介です。普段は推薦システムの開発・運用を担当しています。 2024年6月に開催されたコンピュータビジョン・パターン認識分野において世界最高峰の国際会議の1つであるCVPR(Conference on Computer Vision and Pattern Recognition)2024に参加しました。参加レポートとして発表内容や参加した感想を紹介いたします。また、最後にZOZO NEXTが行っているワークショップのスポンサー活動についてZOZO Researchの清水から紹介いたします。 目次 はじめに 目次 CVPR とは 開催地のシアトルについて 学会のスケジュール 企業展示ブースの様子 ポスターセッションの雰囲気 採択数増加に伴うポスターセッションの懸念とその実際 特に、印象に残った研究発表 SLICE: Stabilize

                ZOZOの新卒1年目MLエンジニアが行くCVPR 2024 参加レポート - ZOZO TECH BLOG
              • 運転版の"Sora"を作る: 動画生成の世界モデルTerraの開発背景

                1. はじめに Turing生成AIチームの荒居です。生成AIチームでは、完全自動運転の実現に向けて、現実世界の複雑な状況を理解し予測する動画生成AI、「世界モデル」の開発に取り組んできました。前回の私の記事では、その取り組みの中で調査したGAIA-1の紹介を行いました。今回は、Turingが開発した世界モデル"Terra"で利用している技術や課題・展望などについて紹介をしたいと思います。 この記事で解説している内容 世界モデルTerraは何ができるのか 世界モデルTerraはどのような仕組みで動いているのか どのような課題が残されているか Terraで生成した動画。Terraは運転環境に特化しており、車載カメラの一人称視点動画の生成を行うことができる 2. 世界モデルTerraは何ができるのか? Turingの世界モデルは大きく分けて二つのことができます。一つ目は短い動画を与えるとその続

                  運転版の"Sora"を作る: 動画生成の世界モデルTerraの開発背景
                • Kazumichi Komatsu

                  導入: 本テキストは2021年10月に京都市立芸術大学に提出された小松千倫の博士論文「表れる他者 − グラフィティおよびインターネットにおける諸操作の記述、あるいは遠さをつくるための研究」より第2章の一部を抜粋、修正しつつ掲載するものです。このテキストより前の部分(未掲載)では、InstagramやTinderを分析対象とし、それらのアプリケーションUI上に表示された単一のポストだけではなく、複数のポストのまとまりやそれらの順序に対して行われるユーザーの諸操作の傾向とその流通について記述していました。「編集操作」や「シークエンス」という語はそのような文脈で使用されています。以下第2章第8節から続く本文です。 8. TikTokとポップソングの信号化 私たちはTinderとInstagramの分析を通して複数のデータのシークエンスを対象にしたユーザーの編集操作の例を追ってきた。このようなシー

                  • MIT「AIが人の仕事をすぐに奪うことはない」、80年代のPC革命との違い | Forbes JAPAN 公式サイト(フォーブス ジャパン)

                    人工知能(AI)が人々の仕事に与える将来的な影響について、私たちはあまり多くを理解できていない。しかし、1950年代初頭にコンピュータがビジネスに導入され「オートメーション」という言葉が一般化して以来、AIが仕事に与える影響に関しては多くのことが語られており、最近では、AIが人々の仕事を奪う可能性について、さまざまなことが議論されている。 MITコンピュータ科学・人工知能研究所が先日発表した論文の「Beyond AI Exposure: Which Tasks are Cost-Effective to Automate with Computer Vision?(AIエクスポージャーの先にあるもの:どのようなタスクがコンピュータビジョンを用いてコスト効率良く自動化できるか?)」は、AIと仕事の未来の関係について非常に率直な予測を立てている。ここで喜ぶべきニュースは「コンピュータビジョンを

                      MIT「AIが人の仕事をすぐに奪うことはない」、80年代のPC革命との違い | Forbes JAPAN 公式サイト(フォーブス ジャパン)
                    • Unlock a new era of innovation with Windows Copilot Runtime and Copilot+ PCs

                      I am excited to be back at Build with the developer community this year. Over the last year, we have worked on reimagining  Windows PCs and yesterday, we introduced the world to a new category of Windows PCs called Copilot+ PCs. Copilot+ PCs are the fastest, most intelligent Windows PCs ever with AI infused at every layer, starting with the world’s most powerful PC Neural Processing Units (NPUs) c

                        Unlock a new era of innovation with Windows Copilot Runtime and Copilot+ PCs
                      • 生成AIを使えるかどうかはイシューではない - ニューロサイエンスとマーケティングの間 - Between Neuroscience and Marketing

                        Summilux 1.4/50 ASPH, Leica M10P @Chinkokuji Temple, Munakata, Japan 昨日のLLM(large language model 大規模言語モデル)議論の続きをもう少し書いてみようと思う。 kaz-ataka.hatenablog.com DS協会のスキル定義委員会ではIPAと協働し、2年に一度、データサイエンティストのスキル標準を見直し、改訂版を発表している*1。今年は奇しくも改訂年だったのだが、この春、わずか数ヶ月前に華々しく登場したChatGPTを目の前にしつつ、生成AI領域においてデータ×AIプロフェッショナル(データサイエンティスト DS)の場合、求められるスキルはどうかわるのか、という議論を随分とした。 データサイエンティスト協会 10thシンポジウム スキル定義委員会発表資料(2023年10月20日) 生成AIは

                          生成AIを使えるかどうかはイシューではない - ニューロサイエンスとマーケティングの間 - Between Neuroscience and Marketing
                        • Building Meta’s GenAI Infrastructure

                          Marking a major investment in Meta’s AI future, we are announcing two 24k GPU clusters. We are sharing details on the hardware, network, storage, design, performance, and software that help us extract high throughput and reliability for various AI workloads. We use this cluster design for Llama 3 training. We are strongly committed to open compute and open source. We built these clusters on top of

                            Building Meta’s GenAI Infrastructure
                          • GitHub - Skyvern-AI/skyvern: Automate browser-based workflows with LLMs and Computer Vision

                            🐉 Automate Browser-based workflows using LLMs and Computer Vision 🐉 Skyvern automates browser-based workflows using LLMs and computer vision. It provides a simple API endpoint to fully automate manual workflows on a large number of websites, replacing brittle or unreliable automation solutions. Traditional approaches to browser automations required writing custom scripts for websites, often rely

                              GitHub - Skyvern-AI/skyvern: Automate browser-based workflows with LLMs and Computer Vision
                            • Azure OpenAI Service で GPT-4 Turbo with Vision を使う

                              Microsoft Ignite 2023 にて、これらのモデルが近いうちに Azure OpenAI Service でも利用可能になることが発表されていましたが、このたびマルチモーダル入力対応の GPT-4 Turbo with Vision のプレビューが開始しました。(テキスト入力のみを受け付ける無印 GPT-4 Turbo は一足先にプレビュー開始していました。) 参考 New models and developer products announced at DevDay (本家 OpenAI) Azure OpenAI Service Launches GPT-4 Turbo and GPT-3.5-Turbo-1106 Models GPT-4 および GPT-4 Turbo プレビュー モデル 利用可能なリージョン 執筆時点で GPT-4 Turbo with Visi

                                Azure OpenAI Service で GPT-4 Turbo with Vision を使う
                              • 【参加レポート】3DV 2024に参加しました - ZOZO TECH BLOG

                                はじめに こんにちは。計測システム部、研究開発ブロックの皆川です。普段はコンピュータービジョンに関わる研究開発を担当しています。 2024年の3月に3次元コンピュータービジョンの国際学会である3DV 2024がスイスのダボスで開催され、幸運にも参加できたので、発表の内容や参加した感想をご紹介いたします。 目次 はじめに 目次 3DV 2024とは なぜ参加したのか 開催地のダボスと、会場のダボスコングレスセンターについて 学会のスケジュール 印象に残った発表 全体的な感想 3D Computer Vision for Dynamic Scene Understanding by Daniel Cremers ドライバーアシスト ドローンを使った研究 バンドル調整 初期のSLAM 直接的なSLAM ニューラルネットワークとSLAM さいごに おまけ 3DV 2024とは 先述の通り、3DVは

                                  【参加レポート】3DV 2024に参加しました - ZOZO TECH BLOG
                                • YOLOv8でナンバープレートを検出してAI-OCRで読み取ってみました。 〜ファインチューニングに使用したデータは、撮影した写真ではなく、Pythonで生成した画像(30,000枚・192,000アノテーション)です〜 | DevelopersIO

                                  5 AI-OCR AI-OCRとしては、MicrosoftのComputer Visionで提供されている、Read APIを使用させて頂きました。 参考: Computer Vision 3.2 GA Read API を呼び出す 最初は、ナンバープレート画像を、そのままOCRにかけてみたのですが、下段左の平仮名1文字のところの認識が難しいようでした。これは、このように「ひらがな」1文字だけが配置されることに、モデルが対応しきれていないような気がしました。 対策として、画像を3つの部分に分割し、それぞれでOCRにかけるようにしてみました。また、認識精度が上がるように、業務用(緑バックの白文字、及び、黒バックの黄色文字)は、ネガポジ反転し、最終的にグレースケール変換することにしました。 AI-OCRで処理しているコードと、それを使っている、全体のコードです。 ocr.py import t

                                    YOLOv8でナンバープレートを検出してAI-OCRで読み取ってみました。 〜ファインチューニングに使用したデータは、撮影した写真ではなく、Pythonで生成した画像(30,000枚・192,000アノテーション)です〜 | DevelopersIO
                                  • Cognition | Introducing Devin, the first AI software engineer

                                    /blog Introducing Devin, the first AI software engineer March 12, 2024 by Scott Wu Setting a new state of the art on the SWE-bench coding benchmark. Meet Devin, the world’s first fully autonomous AI software engineer. announcementsdevin Devin is a tireless, skilled teammate, equally ready to build alongside you or independently complete tasks for you to review. With Devin, engineers can focus on m

                                    • Don’t Build AI Products The Way Everyone Else Is Doing It

                                      If you want to build AI products that are unique, valuable, and fast, don't do what everybody else is doing. I'll show you what to do instead. What not to doThe vast majority of AI products being built right now are just wrappers over other models, such as those that essentially involve calling ChatGPT over an API. While that's incredibly easy — you send natural language in and get natural languag

                                        Don’t Build AI Products The Way Everyone Else Is Doing It
                                      • Look, Ma, No Matrices!

                                        Steven De Keninck Computer Vision Group • University of Amsterdam Putting PGA ($\mathbb R_{3,0,1}$) to the test! Since the 2019 SIGGRAPH course [1], Geometric Algebra, and Euclidean PGA (plane-based or projective geometric algebra) in particular, has been gaining traction within the computer graphics and machine learning communities [2, 3, 4]. Despite its broad applicability, including for higher

                                        • F1が走路外走行(トラックリミット)の検出をコンピュータービジョンとAIに任せる方針

                                          モータースポーツを統括する国際自動車連盟(FIA)が、2023年11月24日から26日にかけて開催されるF1第23戦アブダビGPで、コンピュータービジョンとAIを走路外走行(トラックリミット)の検出に導入する方針を明らかにしました。 FIA Insights - Computer Vision | Federation Internationale de l'Automobile https://www.fia.com/news/fia-insights-computer-vision Formula 1 hopes AI will help it figure out if a car breaks track limits https://www.engadget.com/formula-1-hopes-ai-will-help-it-figure-out-if-a-car-break

                                            F1が走路外走行(トラックリミット)の検出をコンピュータービジョンとAIに任せる方針
                                          • Introducing SAM 2: The next generation of Meta Segment Anything Model for videos and images

                                            Introducing SAM 2: The next generation of Meta Segment Anything Model for videos and images Following up on the success of the Meta Segment Anything Model (SAM) for images, we’re releasing SAM 2, a unified model for real-time promptable object segmentation in images and videos that achieves state-of-the-art performance.In keeping with our approach to open science, we’re sharing the code and model

                                              Introducing SAM 2: The next generation of Meta Segment Anything Model for videos and images
                                            • AnthropicのClaude 3 OpusのVision機能を日本語OCRとして使ってみる

                                              今月4日、AnthropicがClaude 3を発表しました。Anthropicの発表している評価結果では、OpenAI GPT-4やGoogleのGemini 1.0 Ultraを上回る高い性能を示しています。私もClaude 3 Sonnetを使って、翻訳やテストケース作成などの作業をいくつかやってもらいましたが、私の体感でもGPT-4と同等かそれを上回る高い性能だと感じました。 最近の生成AIは画像認識系機能を組み込んでおり、Claude 3もVision機能が提供されています。具体的には写真やグラフ、図などを読み込んで処理する用途が想定されているそうです。 私は以前から、「Azure Computer Vision APIの日本語OCR機能を使ってみる」、「Google Cloud Vision APIの日本語OCR機能を使ってみる」、「OpenAIのGPT-4 Turbo wit

                                                AnthropicのClaude 3 OpusのVision機能を日本語OCRとして使ってみる
                                              • Vision Pro is an over-engineered “devkit” // Hardware bleeds genius & audacity but software story is disheartening // What we got wrong at Oculus that Apple got right // Why Meta could finally have its Android moment

                                                by Hugo Barra (former Head of Oculus at Meta) Friends and colleagues have been asking me to share my perspective on the Apple Vision Pro as a product. Inspired by my dear friend Matt Mullenweg’s 40th post, I decided to put pen to paper. This started as a blog post and became an essay before too long, so I’ve structured my writing in multiple sections each with a clear lead to make it a bit easier

                                                  Vision Pro is an over-engineered “devkit” // Hardware bleeds genius & audacity but software story is disheartening // What we got wrong at Oculus that Apple got right // Why Meta could finally have its Android moment
                                                • Azure のGPT-4 Turbo with Visionを使ってみた - 電通総研 テックブログ

                                                  こんにちは。XI 本部 AI トランスフォーメンションセンター所属の後藤です。 本記事は「 電通国際情報サービス Advent Calendar 2023 」の12月20日(水)の回の記事になります。 本記事では、つい先日利用が可能となったAzureの「GPT-4 Turbo with Vision」の紹介と使い方の解説をします。 使ってみた所感として、今回のAzure版GPT-4 Turbo with Visionは単なるOpenAIの機能の追随に留まらず、Azure固有の追加機能である「Vision enhancement」が印象的でした。特に、画像や動画の扱いにおいて、OpenAIのモデルよりも応用範囲が大きく広がっていることが感じられました。 OpenAIのGPT-4Vに関してはTechBlogの以下の記事でも紹介されていますので、ぜひご参照ください。 参考:https://tec

                                                    Azure のGPT-4 Turbo with Visionを使ってみた - 電通総研 テックブログ
                                                  • GPT-4V(ision) System Cardをざっくり訳した - Qiita

                                                    はじめに OpenAIが3月に発表していたものの実装していなかった、画像および音声を取り扱うことのできるマルチモーダルモデル「GPT4-V」のdeployが発表されました。本当に全部この会社がやればいいんじゃないか? ChatGPTのPlus/Enterpriseユーザーに2週間かけて提供するそうです。最近ChatGPTのほうの処理能力が落ちつつあってGPT-4のAPIばっかり使ってるんですが、ChatGPT Plusは解約できそうにないですね。 GPT4-Vを中心としたV&LのLLMはDocumentUnderstandingの文脈での活用が期待されており、先日Googleを中心としたグループもLMDX: Language Model-based Document Information Extraction and Localizationという論文を発表していました。Geminiなん

                                                      GPT-4V(ision) System Cardをざっくり訳した - Qiita
                                                    • Stable Diffusionからの概念消去⑤:DiffQuickFix (論文)

                                                      Localizing and Editing Knowledge In Text-to-Image Generative Models (ICLR2024) 今回はtext-to-imageの概念消去に戻ってDiffQuickFixという手法をみます. 論文は60ページ以上あり, 非常に多くの結果が提供されていますが主にmain paperの部分を見ていきます. 図や表はことわりのない限り論文からの引用です. 書籍情報 Samyadeep Basu and Nanxuan Zhao and Vlad I Morariu and Soheil Feizi and Varun Manjunatha. Localizing and Editing Knowledge In Text-to-Image Generative Models. The Twelfth International Con

                                                        Stable Diffusionからの概念消去⑤:DiffQuickFix (論文)
                                                      • ChatGPTが「ディープフェイク」を見抜く、偽の顔画像と判定した根拠も説明

                                                        (出所:論文「Can ChatGPT Detect DeepFakes?A Study of Using Multimodal Large Language Models for Media Forensics」) インターネットではディープフェイクによる犯罪が相次いでいる。例えばSNSアカウントを作成し、そのプロフィル画像にAIで生成した人物の顔写真を使用する。そしてそのアカウントを使って詐欺を働く。 実在する人物の画像を使うと詐欺がばれやすい。Googleの画像検索などを利用されると、画像の流用に気づかれる可能性が高い。だが、AIが生成した顔写真を使えばその心配はない。 このような悪用を防ぐべく、AIが生成した顔写真を検出する方法がいろいろ提案されている。だがその多くは機械学習に基づいており、専用のプログラミング言語やツールを使用する必要がある。しかも既存の方法のほとんどは、顔写真が本

                                                          ChatGPTが「ディープフェイク」を見抜く、偽の顔画像と判定した根拠も説明
                                                        • 3次元物体検出もシンプルにTransformerで!PETRv2を理解する

                                                          Turing株式会社のアドベントカレンダー2日目です!1日目はCTOの青木さんのカレー屋さんとスタートアップ:CTO of the year 2023でオーディエンス賞受賞です。 自動運転・AIモデル開発チームの岩政(@colum2131)です。 Turingは完全自動運転車の開発を目標としており、自動運転AIや車両、LLMの開発など様々なことに取り組んでいます。今回の話は、自動運転AIの物体認識などのPerceptionタスクにおいて個人的に面白いなと思ったVision-CentircなEnd-to-Endモデルの紹介です[1]。 Transformerベースの画像認識 Transformerは、大規模言語モデル(Large Language Model; LLM)などに用いられる重要なアーキテクチャです。2017年に"Attention Is All You Need"というタイトルで

                                                            3次元物体検出もシンプルにTransformerで!PETRv2を理解する
                                                          • Contrastive Learningの最新動向のレビュー - Morpho Tech Blog

                                                            こんにちは。CTO室リサーチャーの鈴木です。今回は、深層学習の分野でここ数年盛り上がっているContrastive Learning系の手法について、主だった論文を系統的にまとめて紹介したいと思います。 はじめに 近年発展した自己教師あり学習(Self-Supervised Learning:SSL)は、アノテーション情報を人の手ではなく機械的に付与することで、データセットの構築にかかる時間やコストを軽減し、深層学習モデルの精度向上を目指した手法です。自然言語処理分野におけるSSLは大きな成功を収め、ChatGPT等の超高性能なチャットボットの出現にも影響を与えました。 SSLは主に深層学習モデルの「事前」学習として用いられます。SSLによって、文章や画像に含まれる一般的な特徴を大量のデータから学習することができます。これにより、文章生成や画像認識などの本学習の効率が向上し、最終的な性能向

                                                              Contrastive Learningの最新動向のレビュー - Morpho Tech Blog
                                                            • OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる

                                                              先日のOpenAI DevDayで、GPT-4 Turbo with visionというものが発表されました。Chat Completions APIで画像ファイルをインプットとして渡して、画像解析をしてくれるAPIです。 私は以前、「Azure Computer Vision APIの日本語OCR機能を使ってみる」や「Google Cloud Vision APIの日本語OCR機能を使ってみる」で、各クラウドの画像認識APIの日本語OCR機能を検証するエントリーを書きました。OpenAIも画像認識APIが使えるようになったので、まったく同じ検証方法で評価してみました。 GPT-4 Turbo with vision OCR機能の利用 OpenAIのAPI Keyを準備します。API Keyを取得されていない方は、「OpenAI API Key取得」で検索してください。 今回の検証コードは

                                                                OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる
                                                              • Mixture of Experts Explained

                                                                With the release of Mixtral 8x7B (announcement, model card), a class of transformer has become the hottest topic in the open AI community: Mixture of Experts, or MoEs for short. In this blog post, we take a look at the building blocks of MoEs, how they’re trained, and the tradeoffs to consider when serving them for inference. Let’s dive in! Table of Contents What is a Mixture of Experts? A Brief H

                                                                  Mixture of Experts Explained
                                                                • OpenAI Selects Oracle Cloud Infrastructure to Extend Microsoft Azure AI Platform

                                                                  Press Release OpenAI Selects Oracle Cloud Infrastructure to Extend Microsoft Azure AI Platform Oracle, Microsoft, and OpenAl are partnering to extend the Microsoft Azure Al platform to Oracle Cloud Infrastructure (OCI) to provide additional capacity for OpenAl. OpenAI is the AI research and development company behind ChatGPT, which provides generative AI services to more than 100 million users eve

                                                                    OpenAI Selects Oracle Cloud Infrastructure to Extend Microsoft Azure AI Platform
                                                                  • Soraの技術の要点を咀嚼する研究|しらいはかせ(AI研究/Hacker作家)

                                                                    Video generation models as world simulators We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates on spacetime patches of video and image latent codes. Our largest model, Sora, is capable of ge

                                                                      Soraの技術の要点を咀嚼する研究|しらいはかせ(AI研究/Hacker作家)
                                                                    • K-Means Clustering for Unsupervised Machine Learning

                                                                      K-means clustering is a type of unsupervised learning when we have unlabeled data (i.e., data without defined categories or groups). Clustering refers to a collection of data points based on specific similarities. K-Means Algorithm K-means aims to find groups in the data, with the number of groups represented by the variable K. Based on the provided features, the algorithm works iteratively to ass

                                                                        K-Means Clustering for Unsupervised Machine Learning
                                                                      • 【図解】一撃でわかるLLMの技術。アーキテクチャ設計からデータ収集までわかりやすく解説。 - すえつぐのNLP&LLM

                                                                        はじめに すえつぐ こんにちは!自然言語処理(NLP)・大規模言語モデル(LLM)の解説記事を書いている、すえつぐです! 今回は、大規模言語モデル(LLM)の技術について解説していきます。 具体的には、「大規模言語モデルは、どんなステップで、どうやって作られているのか?」に沿って技術を解説します。LLMのアーキテクチャの解説から、LLMの学習方法など、ディープな内容をわかりやすく解説していきます。 なぜ大規模言語モデル(LLM)の技術を知る必要があるのか ここまで読んで「私はLLMを使うだけ。だからLLMの技術を知る必要なくない?」と思った方も少なからずいるでしょう。確かに、今はLLMを使用するだけという人が多いかもしれません。 しかし、「LLMを使うだけの人」もLLMの技術を学ぶ価値はあります。 なぜなら、LLMの技術の知識は、あなたがLLMを選ぶ際にも役立つからです。 例えば、あなたが

                                                                          【図解】一撃でわかるLLMの技術。アーキテクチャ設計からデータ収集までわかりやすく解説。 - すえつぐのNLP&LLM
                                                                        • 第3世代の自動運転@CVPR2024

                                                                          はじめに Turing 生成AIチームの佐々木 (kento_sasaki1)です。生成AIチームでは、完全自動運転の実現に向けてマルチモーダル基盤モデルの開発に取り組んでいます。 先日、6月17日から6月21日にシアトルで開催されたコンピュータビジョン・機械学習系のトップカンファレンスCVPR 2024に参加し、Vision Language Model (VLM)のワークショップThe 3rd Workshop on Computer Vision in the Wildにて日本語VLM評価ベンチマークHeron-Benchの発表を行いました。 Heron-Benchについては、以前テックブログを公開していますのでぜひご覧ください。 CVPR 2024では、End-to-Endの自動運転やLLM (Large Language Model), VLM (Vision Language

                                                                            第3世代の自動運転@CVPR2024
                                                                          • Skyvern - Automate Browser Workflows with AI

                                                                            Skyvern uses a combination of computer vision and AI to understand content on a webpage, making it adaptable to any website

                                                                              Skyvern - Automate Browser Workflows with AI
                                                                            • Mastering All YOLO Models from YOLOv1 to YOLO-NAS: Papers Explained (2024)

                                                                              What is YOLO? You Only Look Once (YOLO): Unified, Real-Time Object Detection is a single-stage object detection model published at CVPR 2016, by Joseph Redmon, famous for having low latency and high accuracy. The entire YOLO series of models is a collection of pioneering concepts that have shaped today’s object detection methods. YOLO Models have emerged as an industry de facto, achieving high det

                                                                                Mastering All YOLO Models from YOLOv1 to YOLO-NAS: Papers Explained (2024)
                                                                              • Quickstart: Use GPT-4 Turbo with Vision on your images and videos with the Azure OpenAI Service - Azure OpenAI

                                                                                Get started using GPT-4 Turbo with images with the Azure OpenAI Service. GPT-4 Turbo model upgrade The latest GA release of GPT-4 Turbo is: gpt-4 Version: turbo-2024-04-09 This is the replacement for the following preview models: gpt-4 Version: 1106-Preview gpt-4 Version: 0125-Preview gpt-4 Version: vision-preview Differences between OpenAI and Azure OpenAI GPT-4 Turbo GA Models OpenAI's version o

                                                                                  Quickstart: Use GPT-4 Turbo with Vision on your images and videos with the Azure OpenAI Service - Azure OpenAI
                                                                                • k-NN (k-Nearest Neighbors) in Supervised Machine Learning

                                                                                  K-nearest neighbors (k-NN) is a Machine Learning algorithm for supervised machine learning type. It is used for both regression and classification tasks. As we already know, a supervised machine learning algorithm depends on labeled input data, which the algorithm learns to produce accurate outputs when input unlabeled data. k-NN aims to predict the test data set by calculating the distance betwee

                                                                                    k-NN (k-Nearest Neighbors) in Supervised Machine Learning