本文「computer_vision」を検索 - はてなブックマーク

1 - 40 件 / 234件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

computer_visionの検索結果1 - 40 件 / 234件

OpenAIのBatch APIを使ってお得にプロンプトを一括処理してみる - Taste of Tech Topics
- 115 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2024/04/17
はじめにこんにちは。データサイエンスチームYAMALEXのSsk1029Takashiです。最近はOpenAIに日本支社が出来て、日本語対応が加速するというニュースにわくわくしています。今回はそんなOpenAIから発表されたBatch APIという機能が便利、かつお得な機能だったのでどのように使えるのか試してみます。 Introducing the Batch API: save costs and get higher rate limits on async tasks (such as summarization, translation, and image classification). Just upload a file of bulk requests, receive results within 24 hours, and get 50% off API pri
- ChatGPT
- api
- AI
- あとで読む
- LLM
- GPT
- OpenAI
Arxiv RAGによる論文サーベイの自動生成 | Shikoan's ML Blog
- 87 users
- blog.shikoan.com
- テクノロジー
- 2024/04/27
2.3k{icon} {views} 複数のLLM（GPT/Claude3）とArxivの検索APIをRAGで統合し、論文サーベイの自動生成を作りました。検索結果の前処理や、サーベイ特有のプロンプトエンジニアリングやソートが重要で、最適化手法として古くからある巡回セールスマン問題（TSP）が有効に機能しました。また、生成部分ではGPTよりClaude3の明確な有効性を確認できました。できたもの Arxivの検索APIを使って検索拡張生成（RAG）したらサーベイを自動生成できたやっていること Arxivの検索ワードをGPT-4-Turboで生成 ArxivのAPIを叩いてヒューリスティックでフィルタリング OpenAIのEmbedding APIを叩く Embeddingに対して巡回セールスマン問題（TSP）を解いてソートをかける論文の要旨をGPT-3.5-Turboで要約ソートした
- RAG
- AI
- LLM
- あとで読む
- 自然言語処理
- アルゴリズム
- 論文
- 研究
1bit LLM の時代は来るのか，来ないのか，どっちなんだい？｜情報処理学会・学会誌「情報処理」
- 68 users
- note.com/ipsj
- テクノロジー
- 2024/04/04
徳永拓之（LeapMind（株）） 1bit LLMの時代が来る？　2024 年2 月，The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits¹⁾ というタイトルの論文がarXiv上で公開され，にわかに話題となりました．“1.58 Bits” という表現はあまりなじみがありませんが，log₂(3) = 1.58 . . . ということで，パラメーターを三値にした場合の情報量を示しているようです．この論文（以下b1.58 論文とする）は，同じ著者グループによる文献2）を少し拡張したもので，大規模言語モデル（LLM）の効率化についての研究です．本稿の前半ではこれらの論文の主張を解説し，後半ではその主張の妥当性について検討します．なお，これらの2本の論文は，本稿執筆時点では，査読を経たものではありませんのでご注意くだ
- LLM
- AI
- あとで読む
- 人工知能
- 機械学習
大規模言語モデルのFine-tuningによるドメイン知識獲得の検討 - Preferred Networks Research & Development
- 53 users
- tech.preferred.jp
- テクノロジー
- 2023/10/26
本記事は、2023年夏季インターンシッププログラムで勤務された竹田悠哉さんによる寄稿です。はじめに 2023年度のPFN夏季インターンに参加した、東京大学大学院工学系研究科の竹田悠哉と申します。学部では画像生成の研究をしていましたが、技術の社会実装をより俯瞰的に学びたいと思い、現在は技術経営戦略学専攻で教育工学の研究をしています。インターンでは「機械学習技術の社会実装」をテーマに、LLM（Large Language Model）にドメイン知識を習得させることに取り組みました。様々な設定において、主に英語で学習されたモデルであるLLaMA2に対して日本語のデータでのFine-tuningを行い、LoRAやInstruction Tuning、ドメイン知識の習得に関する知見を得ることができたと思います。本記事では、そこで利用した技術の紹介と、日本語におけるドメイン知識の習得に関する実験、
- LLM
- あとで読む
- AI
拡散モデルを用いた2Dバーチャル試着技術について - BASEプロダクトチームブログ
- 35 users
- devblog.thebase.in
- テクノロジー
- 2024/05/02
はじめにこんにちは。BASEのデータ分析チーム（Data Strategy Team）で不正対策を行ったり、機械学習モデルを触ったりしている竹内です。先日チーム内の論文読み会でニューラルネットを用いた画像合成によるバーチャル試着技術というトピックに触れる機会があったので、その最近のトレンドについて改めてブログという形でまとめてみました。バーチャル試着は画像生成モデルの実用的なユースケースの一つとして今現在データセットの拡充やアーキテクチャの検証が進んでいる分野の一つであり、個人的には非常にアツいトピックだと感じています。バーチャル試着とはバーチャル試着（Virtual Try On）とは、ある人物がある衣服を着用した状態を画像や3Dモデルなどの情報をもとに仮想的に実現し、どのように見えるか可視化する技術のことです。ネットショップの普及により、店頭に出向かずともPCやスマートフォ
Spacelyの研究開発プロジェクト紹介 - spacelyのブログ
- 32 users
- tech.spacely.co.jp
- テクノロジー
- 2023/09/01
はじめにスペースリーの研究開発チームでエンジニアをしている植木です。この記事ではスペースリーで行っている研究開発について紹介します。弊社は空間データプラットフォームを提供しており、具体的なアプリケーションとしては、不動産領域でのVR/Web内覧サービスや、研修領域に向けたVR研修サービスなどがあります。 VRというと3DCGのゲームやエンタメのイメージが強いと思いますが、弊社では360°カメラで撮影した実写の画像や動画をコンテンツとするサービスを展開しています。 VRを扱う会社でありつつ実写画像をメインで扱うため、画像や空間を認識するComputer Visionと、その結果をユーザに提示するComputer Graphicsの両方の研究開発を行っている点がユニークで魅力的かなと思います。この記事を通じて弊社の研究開発に少しでも興味を持ってもらえたら幸いです。弊社のサービスについて
OpenAI Sora に使われる技術
- 30 users
- zenn.dev/elith
- テクノロジー
- 2024/03/27
TL; DR OpenAI が非常に高品質な動画生成モデル Sora を公開画像生成モデル Diffusion-Transformer を利用動画を3次元画像として扱うことで画像モデルを拡張キャプションは DALL•E3 同様、キャプション生成モデルで作成 OpenAI Sora Sora は OpenAI が今年の2月に発表した、動画生成モデルです。まずはこのモデルの出力例を見てみましょう。図1. Sora の生成例: https://cdn.openai.com/sora/videos/big-sur.mp4 各フレームの画像が非常に美しく生成されています。また、従来の動画生成では時間が経った際に写っているオブジェクトを保つことが難しく、消えたり現れたり、急に歪んだりするものが多かったのに対し、Sora では一度隠れてから再度現れる場合であっても、矛盾なく生成できています。こ
- AI
- OpenAI
- あとで読む
- 機械学習
- 画像
- 動画
ZOZOの新卒1年目MLエンジニアが行くCVPR 2024 参加レポート - ZOZO TECH BLOG
- 28 users
- techblog.zozo.com
- テクノロジー
- 2024/07/11
はじめにこんにちは、推薦基盤ブロック、新卒1年目の住安宏介です。普段は推薦システムの開発・運用を担当しています。 2024年6月に開催されたコンピュータビジョン・パターン認識分野において世界最高峰の国際会議の1つであるCVPR（Conference on Computer Vision and Pattern Recognition）2024に参加しました。参加レポートとして発表内容や参加した感想を紹介いたします。また、最後にZOZO NEXTが行っているワークショップのスポンサー活動についてZOZO Researchの清水から紹介いたします。目次はじめに目次 CVPR とは開催地のシアトルについて学会のスケジュール企業展示ブースの様子ポスターセッションの雰囲気採択数増加に伴うポスターセッションの懸念とその実際特に、印象に残った研究発表 SLICE: Stabilize
ジョージア工科大学でコンピュータサイエンスを学び始める話 - Qiita
- 20 users
- qiita.com/kohei-arai
- テクノロジー
- 2023/08/21
目次はじめに何故出願したか何故ジョージア工科大学かどうやって準備したかおわりにはじめに既に先人たちが書かれている記事も多々ありますが、2023年3月にジョージア工科大学のコンピュータサイエンス修士過程に出願して合格しました。8月から授業が始まるので忘れない内に何故出願したのか、どのように出願準備したのかについてまとめようと思います。働きながら米国のコンピュータサイエンス大学院進学を考えている方々の参考になりますと幸いです。 Acceptance Letter ー合格証何故大学院に出願したかジョージア工科大学に出願した理由をざっくりまとめると、下記の3点です。「Data&AI周辺への理解を深めて顧客からの技術的信頼度を上げたい」「学問を続けられる環境に身を置きたい。加えて学位が欲しい」「世界中どこでも働けるポータブルスキルを持った人材になりたい」詳細は下記にプロフ
- education
Kazumichi Komatsu
- 16 users
- kazumichikomatsu.com
- テクノロジー
- 2024/04/02
導入：本テキストは2021年10月に京都市立芸術大学に提出された小松千倫の博士論文「表れる他者 − グラフィティおよびインターネットにおける諸操作の記述、あるいは遠さをつくるための研究」より第2章の一部を抜粋、修正しつつ掲載するものです。このテキストより前の部分（未掲載）では、InstagramやTinderを分析対象とし、それらのアプリケーションUI上に表示された単一のポストだけではなく、複数のポストのまとまりやそれらの順序に対して行われるユーザーの諸操作の傾向とその流通について記述していました。「編集操作」や「シークエンス」という語はそのような文脈で使用されています。以下第2章第８節から続く本文です。 8. TikTokとポップソングの信号化私たちはTinderとInstagramの分析を通して複数のデータのシークエンスを対象にしたユーザーの編集操作の例を追ってきた。このようなシー
- *Music
- あとで読む
MIT「AIが人の仕事をすぐに奪うことはない」、80年代のPC革命との違い | Forbes JAPAN 公式サイト（フォーブスジャパン）
- 15 users
- forbesjapan.com
- テクノロジー
- 2024/01/28
人工知能（AI）が人々の仕事に与える将来的な影響について、私たちはあまり多くを理解できていない。しかし、1950年代初頭にコンピュータがビジネスに導入され「オートメーション」という言葉が一般化して以来、AIが仕事に与える影響に関しては多くのことが語られており、最近では、AIが人々の仕事を奪う可能性について、さまざまなことが議論されている。 MITコンピュータ科学・人工知能研究所が先日発表した論文の「Beyond AI Exposure: Which Tasks are Cost-Effective to Automate with Computer Vision?（AIエクスポージャーの先にあるもの：どのようなタスクがコンピュータビジョンを用いてコスト効率良く自動化できるか？）」は、AIと仕事の未来の関係について非常に率直な予測を立てている。ここで喜ぶべきニュースは「コンピュータビジョンを
Unlock a new era of innovation with Windows Copilot Runtime and Copilot+ PCs
- 14 users
- blogs.windows.com
- テクノロジー
- 2024/05/22
I am excited to be back at Build with the developer community this year. Over the last year, we have worked on reimagining Windows PCs and yesterday, we introduced the world to a new category of Windows PCs called Copilot+ PCs. Copilot+ PCs are the fastest, most intelligent Windows PCs ever with AI infused at every layer, starting with the world’s most powerful PC Neural Processing Units (NPUs) c
- Windows
- Git
- 人工知能
- AI
- Microsoft
- プログラミング
- blog
生成AIを使えるかどうかはイシューではない - ニューロサイエンスとマーケティングの間 - Between Neuroscience and Marketing
- 14 users
- kaz-ataka.hatenablog.com
- テクノロジー
- 2023/12/17
Summilux 1.4/50 ASPH, Leica M10P @Chinkokuji Temple, Munakata, Japan 昨日のLLM（large language model 大規模言語モデル）議論の続きをもう少し書いてみようと思う。 kaz-ataka.hatenablog.com DS協会のスキル定義委員会ではIPAと協働し、2年に一度、データサイエンティストのスキル標準を見直し、改訂版を発表している*1。今年は奇しくも改訂年だったのだが、この春、わずか数ヶ月前に華々しく登場したChatGPTを目の前にしつつ、生成AI領域においてデータ×AIプロフェッショナル（データサイエンティスト DS）の場合、求められるスキルはどうかわるのか、という議論を随分とした。データサイエンティスト協会 10thシンポジウムスキル定義委員会発表資料（2023年10月20日）生成AIは
- ai
- marketing
Building Meta’s GenAI Infrastructure
- 13 users
- engineering.fb.com
- テクノロジー
- 2024/03/13
Marking a major investment in Meta’s AI future, we are announcing two 24k GPU clusters. We are sharing details on the hardware, network, storage, design, performance, and software that help us extract high throughput and reliability for various AI workloads. We use this cluster design for Llama 3 training. We are strongly committed to open compute and open source. We built these clusters on top of
- meta
- company
- AI
Azure OpenAI Service で GPT-4 Turbo with Vision を使う
- 8 users
- zenn.dev/microsoft
- テクノロジー
- 2023/12/13
Microsoft Ignite 2023 にて、これらのモデルが近いうちに Azure OpenAI Service でも利用可能になることが発表されていましたが、このたびマルチモーダル入力対応の GPT-4 Turbo with Vision のプレビューが開始しました。(テキスト入力のみを受け付ける無印 GPT-4 Turbo は一足先にプレビュー開始していました。) 参考 New models and developer products announced at DevDay (本家 OpenAI) Azure OpenAI Service Launches GPT-4 Turbo and GPT-3.5-Turbo-1106 Models GPT-4 および GPT-4 Turbo プレビューモデル利用可能なリージョン執筆時点で GPT-4 Turbo with Visi
【イベントレポート】3DV 2024に参加しました - ZOZO TECH BLOG
- 8 users
- techblog.zozo.com
- テクノロジー
- 2024/05/20
はじめにこんにちは。計測システム部、研究開発ブロックの皆川です。普段はコンピュータービジョンに関わる研究開発を担当しています。 2024年の3月に3次元コンピュータービジョンの国際学会である3DV 2024がスイスのダボスで開催され、幸運にも参加できたので、発表の内容や参加した感想をご紹介いたします。目次はじめに目次 3DV 2024とはなぜ参加したのか開催地のダボスと、会場のダボスコングレスセンターについて学会のスケジュール印象に残った発表全体的な感想 3D Computer Vision for Dynamic Scene Understanding by Daniel Cremers ドライバーアシストドローンを使った研究バンドル調整初期のSLAM 直接的なSLAM ニューラルネットワークとSLAM さいごにおまけ 3DV 2024とは先述の通り、3DVは
- event
YOLOv8でナンバープレートを検出してAI-OCRで読み取ってみました。〜ファインチューニングに使用したデータは、撮影した写真ではなく、Pythonで生成した画像（30,000枚・192,000アノテーション）です〜 | DevelopersIO
- 8 users
- dev.classmethod.jp
- テクノロジー
- 2023/10/02
5 AI-OCR AI-OCRとしては、MicrosoftのComputer Visionで提供されている、Read APIを使用させて頂きました。参考: Computer Vision 3.2 GA Read API を呼び出す最初は、ナンバープレート画像を、そのままOCRにかけてみたのですが、下段左の平仮名１文字のところの認識が難しいようでした。これは、このように「ひらがな」１文字だけが配置されることに、モデルが対応しきれていないような気がしました。対策として、画像を3つの部分に分割し、それぞれでOCRにかけるようにしてみました。また、認識精度が上がるように、業務用（緑バックの白文字、及び、黒バックの黄色文字）は、ネガポジ反転し、最終的にグレースケール変換することにしました。 AI-OCRで処理しているコードと、それを使っている、全体のコードです。 ocr.py import t
- YOLO
- 自動車
Don’t Build AI Products The Way Everyone Else Is Doing It
- 7 users
- www.builder.io
- テクノロジー
- 2023/11/11
If you want to build AI products that are unique, valuable, and fast, don't do what everybody else is doing. I'll show you what to do instead. What not to doThe vast majority of AI products being built right now are just wrappers over other models, such as those that essentially involve calling ChatGPT over an API. While that's incredibly easy — you send natural language in and get natural languag
Universal and Transferable Attacks on Aligned Language Models
- 7 users
- llm-attacks.org
- テクノロジー
- 2023/07/28
Universal and Transferable Adversarial Attacks on Aligned Language Models Andy Zou1, Zifan Wang2, Nicholas Carlini3, Milad Nasr3, J. Zico Kolter1,4, Matt Fredrikson1 1Carnegie Mellon University, 2Center for AI Safety, 3 Google DeepMind, 4Bosch Center for AI Overview of Research : Large language models (LLMs) like ChatGPT, Bard, or Claude undergo extensive fine-tuning to not produce harmful content
- security
GitHub - roboflow/supervision: We write your reusable computer vision tools. 💜
- 7 users
- github.com/roboflow
- テクノロジー
- 2023/08/15
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
F1が走路外走行(トラックリミット)の検出をコンピュータービジョンとAIに任せる方針
- 7 users
- gigazine.net
- テクノロジー
- 2023/11/24
モータースポーツを統括する国際自動車連盟(FIA)が、2023年11月24日から26日にかけて開催されるF1第23戦アブダビGPで、コンピュータービジョンとAIを走路外走行(トラックリミット)の検出に導入する方針を明らかにしました。 FIA Insights - Computer Vision | Federation Internationale de l'Automobile https://www.fia.com/news/fia-insights-computer-vision Formula 1 hopes AI will help it figure out if a car breaks track limits https://www.engadget.com/formula-1-hopes-ai-will-help-it-figure-out-if-a-car-break
GitHub - Skyvern-AI/skyvern: Automate browser-based workflows with LLMs and Computer Vision
- 7 users
- github.com/Skyvern-AI
- テクノロジー
- 2024/03/15
🐉 Automate Browser-based workflows using LLMs and Computer Vision 🐉 Skyvern automates browser-based workflows using LLMs and computer vision. It provides a simple API endpoint to fully automate manual workflows, replacing brittle or unreliable automation solutions. Traditional approaches to browser automations required writing custom scripts for websites, often relying on DOM parsing and XPath-b
Stable Diffusion Web UIの解像度をSDXLにあわせたドロップダウンにする - きしだのHatena
- 6 users
- nowokay.hatenablog.com
- テクノロジー
- 2023/08/07
Stable Diffusionの新しいバージョン、SDXLが出ています。ただ、SDXLは大きい画像で学習しているためか、ちゃんとした画像を生成するにはそれなりの解像度を設定する必要があります。ということで、Stable Diffusion Web UIの解像度設定をスライダーからドロップダウンにしてよさげな値を指定しやすくしてみました。 SDXLでは512x512で画像を生成すると、こういうパターンが生成されることが多くなります。まともなものが生成されても、ちょっと画力低くないですかと言いたくなるものになってしまいます。ということで、SDXLを使うときのオススメ解像度がいくつか出てきていますね。 https://www.reddit.com/r/StableDiffusion/comments/15c3rf6/sdxl_resolution_cheat_sheet/ アニメ画風の
- article
AnthropicのClaude 3 OpusのVision機能を日本語OCRとして使ってみる
- 6 users
- zenn.dev/tomioka
- テクノロジー
- 2024/03/12
今月4日、AnthropicがClaude 3を発表しました。Anthropicの発表している評価結果では、OpenAI GPT-4やGoogleのGemini 1.0 Ultraを上回る高い性能を示しています。私もClaude 3 Sonnetを使って、翻訳やテストケース作成などの作業をいくつかやってもらいましたが、私の体感でもGPT-4と同等かそれを上回る高い性能だと感じました。最近の生成AIは画像認識系機能を組み込んでおり、Claude 3もVision機能が提供されています。具体的には写真やグラフ、図などを読み込んで処理する用途が想定されているそうです。私は以前から、「Azure Computer Vision APIの日本語OCR機能を使ってみる」、「Google Cloud Vision APIの日本語OCR機能を使ってみる」、「OpenAIのGPT-4 Turbo wit
- あとで読む
OpenMMLabの始め方@SUMMER 2023 - Qiita
- 6 users
- qiita.com/fam_taro
- テクノロジー
- 2023/07/17
Rist Kaggle チームの藤本(@fam_taro)です。今回は Rist Kaggle合宿2023夏の時間を使って、最近の OpenMMLab の始め方をまとめてみました。本記事内ではその中の mmdetection を使って説明していきますが、他の OpenMMLab の使い方もカバーする内容となってます。また記事の後半では Kaggle のコードコンペなどに参加したいときの使い方も記載します。 1. OpenMMLabとは下図と紹介文は公式サイトより引用 OpenMMLab builds the most influential open-source computer vision algorithm system in the deep learning era. It aims to provide high-quality libraries to reduc
- python
- あとで読む
Vision Pro is an over-engineered “devkit” // Hardware bleeds genius & audacity but software story is disheartening // What we got wrong at Oculus that Apple got right // Why Meta could finally have its Android moment
- 6 users
- hugo.blog
- テクノロジー
- 2024/03/15
by Hugo Barra (former Head of Oculus at Meta) Friends and colleagues have been asking me to share my perspective on the Apple Vision Pro as a product. Inspired by my dear friend Matt Mullenweg’s 40th post, I decided to put pen to paper. This started as a blog post and became an essay before too long, so I’ve structured my writing in multiple sections each with a clear lead to make it a bit easier
- Technology
Azure のGPT-4 Turbo with Visionを使ってみた - 電通総研テックブログ
- 6 users
- tech.dentsusoken.com
- テクノロジー
- 2023/12/24
こんにちは。XI 本部 AI トランスフォーメンションセンター所属の後藤です。本記事は「電通国際情報サービス Advent Calendar 2023 」の12月20日（水）の回の記事になります。本記事では、つい先日利用が可能となったAzureの「GPT-4 Turbo with Vision」の紹介と使い方の解説をします。使ってみた所感として、今回のAzure版GPT-4 Turbo with Visionは単なるOpenAIの機能の追随に留まらず、Azure固有の追加機能である「Vision enhancement」が印象的でした。特に、画像や動画の扱いにおいて、OpenAIのモデルよりも応用範囲が大きく広がっていることが感じられました。 OpenAIのGPT-4Vに関してはTechBlogの以下の記事でも紹介されていますので、ぜひご参照ください。参考：https://tec
- AI
- あとで読む
GPT-4V(ision) System Cardをざっくり訳した - Qiita
- 5 users
- qiita.com/Ikwus
- テクノロジー
- 2023/09/28
はじめに OpenAIが3月に発表していたものの実装していなかった、画像および音声を取り扱うことのできるマルチモーダルモデル「GPT4-V」のdeployが発表されました。本当に全部この会社がやればいいんじゃないか？ ChatGPTのPlus/Enterpriseユーザーに2週間かけて提供するそうです。最近ChatGPTのほうの処理能力が落ちつつあってGPT-4のAPIばっかり使ってるんですが、ChatGPT Plusは解約できそうにないですね。 GPT4-Vを中心としたV&LのLLMはDocumentUnderstandingの文脈での活用が期待されており、先日Googleを中心としたグループもLMDX: Language Model-based Document Information Extraction and Localizationという論文を発表していました。Geminiなん
- AI
- GPT-4V
Stable Diffusionからの概念消去⑤：DiffQuickFix (論文)
- 5 users
- zenn.dev/fmuuly
- テクノロジー
- 2024/04/17
Localizing and Editing Knowledge In Text-to-Image Generative Models (ICLR2024) 今回はtext-to-imageの概念消去に戻ってDiffQuickFixという手法をみます. 論文は60ページ以上あり, 非常に多くの結果が提供されていますが主にmain paperの部分を見ていきます. 図や表はことわりのない限り論文からの引用です. 書籍情報 Samyadeep Basu and Nanxuan Zhao and Vlad I Morariu and Soheil Feizi and Varun Manjunatha. Localizing and Editing Knowledge In Text-to-Image Generative Models. The Twelfth International Con
- text
- image
NeRFの仕組みを1からわかりやすくまとめたい - kentaPtの日記
- 5 users
- kentapt.hatenablog.com
- テクノロジー
- 2023/09/05
1. はじめに NeRF (Neural Radiance Field) とは、複雑なシーンに対して、任意の視点からの3次元的なシーンを画像から再構成する技術です。以下の動画にあるように、物体に対して、様々な角度から見たときのシーンをキレイに再現することができます。反射に関しても、それぞれの角度から見たときの見え方が反映されており、角度によって同じ場所でも微妙に違う反射特性を見て取ることができます。この手法を利用して、例えば、地点AとBで画像を取得した場合、その中間地点の任意の角度から対象物体を見たときのシーンを生成可能です。この記事では、このNeRFと呼ばれる技術と、それを実行するにあたって必要な周辺の技術について簡単にまとめたいと思います。以下に示す、NeRFの論文と照らし合わせてながら解説を行います。しかし、本記事では、NeRFを実行するまでの流れを示すため、各要素技術に関しては詳
3次元物体検出もシンプルにTransformerで！PETRv2を理解する
- 5 users
- zenn.dev/turing_motors
- テクノロジー
- 2023/12/03
Turing株式会社のアドベントカレンダー2日目です！1日目はCTOの青木さんのカレー屋さんとスタートアップ：CTO of the year 2023でオーディエンス賞受賞です。自動運転・AIモデル開発チームの岩政(@colum2131)です。 Turingは完全自動運転車の開発を目標としており、自動運転AIや車両、LLMの開発など様々なことに取り組んでいます。今回の話は、自動運転AIの物体認識などのPerceptionタスクにおいて個人的に面白いなと思ったVision-CentircなEnd-to-Endモデルの紹介です[1]。 Transformerベースの画像認識 Transformerは、大規模言語モデル(Large Language Model; LLM)などに用いられる重要なアーキテクチャです。2017年に"Attention Is All You Need"というタイトルで
- 画像
Contrastive Learningの最新動向のレビュー - Morpho Tech Blog
- 4 users
- techblog.morphoinc.com
- テクノロジー
- 2023/10/31
こんにちは。CTO室リサーチャーの鈴木です。今回は、深層学習の分野でここ数年盛り上がっているContrastive Learning系の手法について、主だった論文を系統的にまとめて紹介したいと思います。はじめに近年発展した自己教師あり学習（Self-Supervised Learning：SSL）は、アノテーション情報を人の手ではなく機械的に付与することで、データセットの構築にかかる時間やコストを軽減し、深層学習モデルの精度向上を目指した手法です。自然言語処理分野におけるSSLは大きな成功を収め、ChatGPT等の超高性能なチャットボットの出現にも影響を与えました。 SSLは主に深層学習モデルの「事前」学習として用いられます。SSLによって、文章や画像に含まれる一般的な特徴を大量のデータから学習することができます。これにより、文章生成や画像認識などの本学習の効率が向上し、最終的な性能向
- 機械学習
- AI
OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる
- 4 users
- zenn.dev/tomioka
- テクノロジー
- 2023/11/13
先日のOpenAI DevDayで、GPT-4 Turbo with visionというものが発表されました。Chat Completions APIで画像ファイルをインプットとして渡して、画像解析をしてくれるAPIです。私は以前、「Azure Computer Vision APIの日本語OCR機能を使ってみる」や「Google Cloud Vision APIの日本語OCR機能を使ってみる」で、各クラウドの画像認識APIの日本語OCR機能を検証するエントリーを書きました。OpenAIも画像認識APIが使えるようになったので、まったく同じ検証方法で評価してみました。 GPT-4 Turbo with vision OCR機能の利用 OpenAIのAPI Keyを準備します。API Keyを取得されていない方は、「OpenAI API Key取得」で検索してください。今回の検証コードは
- 人工知能
Mixture of Experts Explained
- 4 users
- huggingface.co
- テクノロジー
- 2023/12/12
With the release of Mixtral 8x7B (announcement, model card), a class of transformer has become the hottest topic in the open AI community: Mixture of Experts, or MoEs for short. In this blog post, we take a look at the building blocks of MoEs, how they’re trained, and the tradeoffs to consider when serving them for inference. Let’s dive in! Table of Contents What is a Mixture of Experts? A Brief H
Stable Diffusion Web UIにFooocusのスタイルを取り込む - きしだのHatena
- 4 users
- nowokay.hatenablog.com
- テクノロジー
- 2023/09/11
FooocusというStable DiffusionのUIではスタイルを設定するだけで呪文が不要のシンプルなプロンプトでの画像生成が可能になっています。そのスタイルをAUTOMATIC1111/Stable Diffusion Web UIに取り込めるようにしてみました。いろいろ過程を書いてるので、最後まで読むのがめんどかったら、このstyles.csvをStable Diffusion Web UIのフォルダ直下に置くと読み込まれる。すでにスタイルを設定しているのであれば、既存データを追加しておく。 https://gist.github.com/kishida/9e062c8d3f57dc68e8270b8417feecea#file-styles-csv Fooocusはrun.batを起動するだけでインストールができるお手軽UIなのだけど、すでにAUTOMATIC1111 we
- article
OpenAI Selects Oracle Cloud Infrastructure to Extend Microsoft Azure AI Platform
- 4 users
- www.oracle.com
- テクノロジー
- 2024/06/12
Press ReleaseOpenAI Selects Oracle Cloud Infrastructure to Extend Microsoft Azure AI Platform Oracle, Microsoft, and OpenAl are partnering to extend the Microsoft Azure Al platform to Oracle Cloud Infrastructure (OCI) to provide additional capacity for OpenAl. OpenAI is the AI research and development company behind ChatGPT, which provides generative AI services to more than 100 million users ever
- 人工知能
- あとで読む
Soraの技術の要点を咀嚼する研究｜しらいはかせ(Hacker作家)
- 3 users
- note.com/o_ob
- テクノロジー
- 2024/02/18
Video generation models as world simulators We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates on spacetime patches of video and image latent codes. Our largest model, Sora, is capable of ge
Metaが高性能映像処理モデル「DINOv2」のライセンスを更新して商用利用が可能に、同時にモデルの「公平性」を評価するためのデータセット「FACET」も公開へ
- 3 users
- gigazine.net
- テクノロジー
- 2023/09/01
Metaが2023年8月31日に、映像処理モデル「DINOv2」のライセンスをCC BY-NC 4.0からApache License 2.0に変更すると発表しました。これまで存在していた商用利用に関する制限が取り払われ、より自由にモデルを利用することが可能になっています。同時に、モデルの公平性を評価するためのデータセット「FACET」もリリースされました。 Announcing the commercial relicensing and expansion of DINOv2, plus the introduction of FACET https://ai.meta.com/blog/dinov2-facet-computer-vision-fairness-evaluation/ DINOv2は自己教師あり学習でトレーニングされたモデルで、画像から物体ごとに切り分ける「セマンティ
- あとで読む
K-Means Clustering for Unsupervised Machine Learning
- 3 users
- www.ejable.com
- テクノロジー
- 2023/11/10
K-means clustering is a type of unsupervised learning when we have unlabeled data (i.e., data without defined categories or groups). Clustering refers to a collection of data points based on specific similarities. K-Means Algorithm K-means aims to find groups in the data, with the number of groups represented by the variable K. Based on the provided features, the algorithm works iteratively to ass
Are Software Jobs Well-Paying in Japan
- 3 users
- dev.to/naokotakahashi
- テクノロジー
- 2023/07/17
If you're interested in pursuing a software developer job in Japan and wondering about the salary prospects, this article will provide you with valuable information. We'll explore various aspects of IT jobs in software development in Japan, including front-end, back-end, and full-stack positions. While being bilingual in Japanese is advantageous, it's worth noting that there is also a significant