cvの人気記事 202件 - はてなブックマーク

1 - 40 件 / 202件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

cvの検索結果1 - 40 件 / 202件

cvに関するエントリは202件あります。機械学習、 AI、画像などが関連タグです。人気エントリには『クリエイティブコーディングの教科書』などがあります。

クリエイティブコーディングの教科書
- 1643 users
- zenn.dev/baroqueengine
- テクノロジー
- 2021/11/21
ゲームエンジンや3Dソフトウェアを利用して高度な表現ができるこの時代でも、プリミティブな描画や動き、アルゴリズムから学べることは多い。それらをJavaScriptで書くクリエイティブコーディングという形で学べる手引書が本書となる。
Googleが「ガビガビの低解像度画像を高解像度画像に変換するAIモデル」の性能を改善、人間が判別できないレベルに
- 712 users
- gigazine.net
- テクノロジー
- 2021/08/31
GoogleのAI研究チームであるGoogle AIが、低解像度画像にあえてノイズを追加して「純粋なノイズ」になるまで加工し、そこから高解像度画像を生成する「diffusion model(拡散モデル)」という手法を改善する新たなアプローチを発表しました。「画質の悪い低解像度画像から高解像度画像を生成する技術」には、古い写真の復元から医療用画像の改善まで幅広い用途が想定され、機械学習の活躍が期待されているタスクの1つです。 Google AI Blog: High Fidelity Image Generation Using Diffusion Models https://ai.googleblog.com/2021/07/high-fidelity-image-generation-using.html Enhance! Google researchers detail new m
- AI
- google
- 画像
- あとで読む
- 技術
- GIGAZINE
- 機械学習
- 画像処理
- 写真
- 人工知能
Stable Diffusion を基礎から理解したい人向け論文攻略ガイド【無料記事】
- 593 users
- ja.stateofaiguides.com
- テクノロジー
- 2022/10/11
図解Stable Diffusion
- 578 users
- okuranagaimo.blogspot.com
- テクノロジー
- 2022/10/09
ジェイ・アラマールのブログより。 AIによる画像生成は、(私を含めて)人々の度肝をぬく最新のAIの能力です。テキストの説明から印象的なビジュアルを作り出す能力は、魔法のような品質を持ち、人間がアートを創造する方法の変化を明確に指し示しています。Stable Diffusionのリリースは、高性能(画質だけでなく、速度や比較的低いリソース/メモリ要件という意味での性能)なモデルを一般の人々に提供することになったのは、この開発における明確なマイルストーンです。 AI画像生成を試してみて、その仕組みが気になり始めた方も多いのではないでしょうか。ここでは、Stable Diffusionの仕組みについて優しく紹介します。 Stable Diffusionは、様々な使い方ができる汎用性の高いものです。まず、テキストのみからの画像生成(text2img)に焦点を当てます。上の画像は、テキスト入力と生
- AI
- あとで読む
- 機械学習
- 画像
- Stable Diffusion
- 学習
- イラスト
- 人工知能
- 勉強
- algorithm

Sakana AI
- 557 users
- sakana.ai
- テクノロジー
- 2024/03/21
更新（2025年1月28日）論文「Evolutionary Optimization of Model Merging Recipes」が論文誌「Nature Machine Intelligence」に採択され本日掲載されました。最新バージョンでは本アプローチをさらに実証する新たな実験結果を含んでいます。ぜひ以下からご覧ください。 https://www.nature.com/articles/s42256-024-00975-8 Sakana AIは2024年3月に「進化的モデルマージ」を公開し、大きな反響を呼びました。公開時には国内外の多くのメディアに取り上げられニュースになりました。進化的モデルマージはmergekitやOptuna Hubといった著名なOSSフレームワークにも実装され、多様なユーザーがそれを活用し、数々の個性的なモデルが作成・公開されてきました。また、社内外の複
- AI
- あとで読む
- LLM
- アルゴリズム
- 人工知能
- 開発
- 日本語
- 機械学習
- deeplearning
- 設計
世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説！ - Qiita
- 517 users
- qiita.com/omiita
- テクノロジー
- 2022/12/05
追記: U-Netの中間層は常にSelf-Attentionとなります。ご指摘いただきました。ありがとうございます。（コード）オミータです。ツイッターで人工知能のことや他媒体の記事などを紹介しています。 @omiita_atiimoもご覧ください！世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説！未来都市にたたずむサンタクロース（Stable Diffusionで生成） 2022年8月、世界に大きな衝撃が走りました。それは、Stable Diffusionの公開です。Stable Diffusionは、テキストを受け取るとそれに沿った画像を出力してくれるモデルです1。Stable Diffsuionは10億個近いパラメータ数をもち、およそ20億個の画像とテキストのペア（LAION-2B）で学習されています。これにより、Stable Diffusionは入
- AI
- あとで読む
- 機械学習
- Stable Diffusion
- 画像
- StableDiffusion
- 学習
- 勉強
- イラスト
- qiita
年末年始に振り返る 2021年の人工知能10大トレンドと必読論文
- 516 users
- ja.stateofaiguides.com
- テクノロジー
- 2021/12/30
ルールベース画像処理のススメ
- 374 users
- speakerdeck.com/fkubota
- テクノロジー
- 2021/06/18
データ分析LT会第二回で発表した際の資料です。 youtube: https://www.youtube.com/watch?v=jDZwX3jxhK4 conppass url: https://kaggle-friends.connpass.com/event/214854/ gi…
カルマンフィルターが自動運転の自己位置推定で使われるまで - TIER IV Tech Blog
- 355 users
- tech.tier4.jp
- テクノロジー
- 2021/08/04
はじめまして、ティアフォー技術本部 Planning / Controlチームで開発を行っている堀部と申します。今回は状態推定の王道技術「カルマンフィルター」が実際に自動運転で用いられるまでの道のりやノウハウなどを書いていこうと思います。みなさんはカルマンフィルターという言葉を聞いたことがありますでしょうか。カルマンフィルターとは「状態推定」と呼ばれる技術の一種であり、自動運転においては現在の走行状態、例えば車速や自分の位置を知るために用いられます。非常に有名な手法で、簡単に使えて性能も高く、状態推定と言えばまずカルマンフィルターと言われるほど不動の地位を確立しており、幅広いアプリケーションで利用されています。使い勝手に定評のあるカルマンフィルターですが、実際に自動運転のシステムとして実用レベルで動かすためには多くの地道な作業が必要になります。この記事では、カルマンフィルターが
商用利用可能な最新モデル『chilled_remix』とは？導入方法を解説
- 315 users
- codewizardry.net
- テクノロジー
- 2023/04/20
chilled_remixとは？ chilled_remixはStableDiffusionとよばれる画像生成AIで動作する生成モデルの一つで、リアルなアジア系美少女の生成を得意としています。以下の画像はchilled_remixを使用して私が作成した画像です。リアルなアジア系美少女が得意なStableDiffusion生成モデルには、他に有名なものとしてChilloutMixやChilled_re_genericなどがあります。しかし、これらのモデルは現在商用利用ができません。一方でchilled_remixは商用利用が可能なため、とても重宝されるモデルとして注目を集めています。 chilled_remixのライセンス表記 chilled_remixはChilled_re_genericのレシピ発案者として知られる鎖城郎郭様によって4/19に公開されました。生成した画像の販売だけでな
OCR処理プログラム及び学習用データセットの公開について | NDLラボ
- 310 users
- lab.ndl.go.jp
- テクノロジー
- 2022/04/25
2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館（以下、「当館」とします。）が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。リポジトリ : https://github.com/ndl-lab/
- OCR
- あとで読む
- github
- 勉強
- 学習
- 資料
- 機械学習
- 図書館
- python
- AI
GPT-4Vができることをまとめてみた - 電通総研テックブログ
- 260 users
- tech.dentsusoken.com
- テクノロジー
- 2023/10/12
こんにちは。ISID 金融ソリューション事業部の若本です。先日、GPT-4から発展し、画像も扱うことができるGPT-4 with vision（GPT-4V）が発表されました。GPT-4Vは大規模マルチモーダルモデル（LMMs: Large multimodal models）と呼ばれるAIモデルの一種であり、GPT-4の入力として「画像」を拡張したものになります。今日は Microsoft Researchの論文[1]を中心に、Open AIの発表したSystem Card[2]も踏まえ、GPT-4Vでできることや苦手とすること、そして実用上の制限について解説します。 GPT-4Vの特徴 ① 画像とテキストを入力にできる GPT-4Vでは、GPT-4のテキスト入力に加えて画像も入力することが可能になりました。画像は複数枚入力することが可能であり、かつ、画像とテキストを任意に交互に組
- ChatGPT
- あとで読む
- AI
- GPT
- 画像
- 自然言語処理
- 機械学習
- OpenAI
- LLM
DiffusionによるText2Imageの系譜と生成画像が動き出すまで
- 252 users
- speakerdeck.com/nhamanasu
- テクノロジー
- 2023/03/01
2022年を境に爆発的な流行を見せはじめた AI 画像生成。コアとなる拡散モデルの基礎解説、研究領域で育てられた技術が一般層にまで羽撃いた変遷、その過程で生じた解決されるべき問題点、および日進月歩で増え続ける発展的な手法群について、網羅的に流れを追いかけるメタサーベイを作成しました。明日にでも世…
- AI
- あとで読む
- 機械学習
- 画像
- deeplearning
- Stable Diffusion
- image
- StableDiffusion
- cv
- technology
Stable Diffusion Public Release — Stability AI
- 248 users
- stability.ai
- テクノロジー
- 2022/08/23
It is our pleasure to announce the public release of stable diffusion following our release for researchers [https://stability.ai/stablediffusion] Over the last few weeks, we all have been overwhelmed by the response and have been working hard to ensure a safe and ethical release, incorporating data from our beta model tests and community for the developers to act on. In cooperation with the tirel
【Stable Diffusion】Mistoon_Animeの利用方法
- 210 users
- self-development.info
- テクノロジー
- 2023/07/07
「テレビアニメのようなキャラ画像を生成したい」「2次元のアニメ画像を生成したい」このような場合には、Mistoon_Animeがオススメです。この記事では、Mistoon_Animeについて解説しています。本記事の内容 Mistoon_Animeとは？Mistoon_Animeの利用方法Mistoon_Animeの動作確認それでは、上記に沿って解説していきます。
Hirokatsu Kataoka | 片岡裕雄 on Twitter: "深層学習が登場してからの、直近１０年分のコンピュータビジョンを俯瞰するセッションです！分野の主要な流れを凝縮して「たったの」４０分で解説していきます。 #NVIDIA #GTC22 https://t.co/QCH1o73T9x https://t.co/iHj3nbpxyc"
- 202 users
- twitter.com/HirokatuKataoka
- テクノロジー
- 2022/03/11
深層学習が登場してからの、直近１０年分のコンピュータビジョンを俯瞰するセッションです！分野の主要な流れを凝縮して「たったの」４０分で解説していきます。 #NVIDIA #GTC22 https://t.co/QCH1o73T9x https://t.co/iHj3nbpxyc
- 機械学習
- あとで読む
- CV
- AI
- Deep Learning
- 技術
C++でOpenCV完全入門！
- 172 users
- zenn.dev/turing_motors
- テクノロジー
- 2023/01/27
この記事は「自動運転システムをエッジデバイスに組み込むための技術」を3回に分けて紹介するTURINGのテックブログ連載の第1回の記事「C++でOpenCV完全入門！」です。第2回の「OpenCVをNPPにした結果→10倍高速に！」、第3回の「詳解V4L2 (video for linux 2)」もぜひご覧ください！はじめにこんにちは。完全自動運転EVを開発するベンチャー企業、TURING株式会社でインターンをしている東大工学部3年の井上信多郎です。我々人類は、車を運転するにあたって多くの情報を目から取り入れています。目から取り入れた情報を元に、アクセル・ブレーキ・ハンドルを操作しています。自動運転の場合、その目に相当するセンサがカメラであり、カメラから得た情報を元に車を運転することになります。カメラから得る情報とは、ずばり画像です。画像の中から信号、標識、前方車両などの必要なもの
- opencv
- c++
- あとで読む
- 画像
- C
- CV
- 入門
- techfeed
- カメラ
Stable Diffusion から特定の概念を忘れさせる学習を行ってみる
- 167 users
- zenn.dev/aics
- テクノロジー
- 2023/06/29
TL;DR ESD の手法で LoRA を学習してみたらそれっぽい感じのことができたよ VRAM 8GB で余裕で学習できるようになったよ (元は20GB要求) LoRA として保存できるようになったので重みの取り回しが良くなったよマイナス適用によって、概念を削除するだけでなく強調することもできたよ一度でも画像生成 AI に触ったことがあると、より楽しんで読めると思います。論文とかどうでもいいから学習方法知りたい！という方は実際に学習してみるへどうぞ！今回作成したものコード: モデルなど: 前提 Stable Diffusion とは、Stability AI らが公開したオープンソースの画像生成 AI であり、テキストによる指示で様々な画像を生成することができる。本来の Stable Diffusion は、実写画像や海外風のイラストを出力することが得意だが、アジア系の
PythonとWinRT OCRで文字認識 - Qiita
- 148 users
- qiita.com/relu
- テクノロジー
- 2021/06/05
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
Civitai | Discover and Create AI Art
- 148 users
- civitai.com
- テクノロジー
- 2022/11/12
All sorts of cool pictures created by our community, from simple shapes to detailed landscapes or human faces. A virtual canvas where you can unleash your creativity or get inspired. All sorts of cool pictures created by our community, from simple shapes to detailed landscapes or human faces. A virtual canvas where you can unleash your creativity or get inspired.
- AI
- StableDiffusion
- 画像生成
- webサービス
- Stable Diffusion
- 機械学習
- ツール
- 画像
- 絵
Stable Diffusion発! 画像生成ブームに見るジェネラティブAIの人・もの・お金事情 - NTT docomo Business Engineers' Blog
- 132 users
- engineers.ntt.com
- テクノロジー
- 2022/12/28
この記事は NTTコミュニケーションズ Advent Calendar 2022 18日目です…が、少々遅れてお届けします。はじめに PS本 5G&IoTサービス部　増田です。Advent Calendar参加も（たぶん）3年目となりました。「テキスト指示をもとに、AIがお好みの画像を生成する（Text-to-Image）」「今ある画像へ、テキスト指示で編集を加える（Image-to-Image）」 -- そんな画像生成AIが注目を集めています。2022年の上半期、Open AIによるDALL-E 2の公開、Midjourneyの登場と盛り上がりを見せました。2022年8月23日のStable Diffusion一般公開からは、使ってみた報告、従来研究との融合、商用プロダクト応用と、研究者、アーティスト、プログラマなど様々な人の参加により、界隈はさらに活気づいています。画像生成AIの
- AI
- あとで読む
- 人工知能
- 機械学習
- 画像
- techfeed
【自動運転】信号機認識に挑む / 走行画像15,000枚のアノテーションとYOLOXモデルによる深層学習実践
- 127 users
- zenn.dev/turing_motors
- テクノロジー
- 2023/01/06
こんにちは。TURING株式会社でインターンをしている、東京大学学部3年の三輪と九州大学修士1年の岩政です。 TURINGは完全自動運転EVの開発・販売を目指すスタートアップです。私たちの所属する自動運転MLチームでは完全自動運転の実現のため、AIモデルの開発や走行データパイプラインの整備を行っています。完全自動運転を目指すうえで避けて通れない課題の一つに信号機の認識があります。AIが信号機の表示を正しく理解することは、自動運転が手動運転よりも安全な運転を達成するために欠かせません。信号機を確実に認識したうえで、周囲の状況を総合的に判断して車体を制御し、安全かつ快適な走行を実現する必要があります。 TURINGでは信号機の認識に取り組むため、15,000枚規模のデータセットを準備し、高精度なモデルのための調査・研究を開始しました。この記事ではデータセットの内製とその背景にフォーカスしつつ
- AI
- あとで読む
- 機械学習
- 画像
- 深層学習
- 自動運転
- ロボット
- 交通
OpenCVをNPPにした結果→10倍高速に！
- 123 users
- zenn.dev/turing_motors
- テクノロジー
- 2023/02/03
この記事は「自動運転システムをエッジデバイスに組み込むための技術」を3回に分けて紹介するTURINGのテックブログ連載の第2回の記事「OpenCVをNPPにした結果→10倍高速に！」です。第1回の「C++でOpenCV完全入門！」、第3回の「詳解V4L2 (video for linux 2)」もぜひご覧ください！はじめに TURINGで働いている木更津高専の越智です。TURINGでは「We Overtake Tesla」を目標に掲げて、完全自動運転EVの開発・製造を行っています。 TURINGでは、社内で使っている自動運転ソフトウェアにおいて、画像処理部分のライブラリをOpenCVからNVIDIA Performance Primitives(NPP)に変更するプロジェクトに取り組んでいました。これによって、CPUで動かしていた画像処理をGPUバックエンドで動かすことができるようにな
- OpenCV
- NPP
- あとで読む
- GPU
- 画像処理
- CPU
- 画像
- コンピュータ
- 研究
DALL·E 2 を早くも破る！超リアル画像生成モデル Imagen を解説
- 122 users
- ja.stateofaiguides.com
- テクノロジー
- 2022/06/09
畳み込み+Attention=最強？最高性能を叩き出した画像認識モデル「CoAtNet」を解説！ - Qiita
- 107 users
- qiita.com/omiita
- テクノロジー
- 2021/11/16
1. CoAtNetの解説 1.1 畳み込みとSAの復習コンピュータビジョンで用いられている大きな仕組みに畳み込みとSelf-Attention(=SA)があります。畳み込みではEfficientNet、SAではViTが有名ですね。EfficientNetについてはこちらの拙著記事、ViTについてはこちらの拙著記事をご参照ください。CoAtNetでは、この畳み込みとSAの良いとこ取りをしたブロックを作ることが一番の目的になっています。畳み込みとSAの式を復習しておきましょう。ここでは畳み込みの中でもDW(=Depthwise)畳み込みを取り扱います。そして、本論文では分かりやすさを優先しているのか、式の細かいところ(SAにおけるqkvの埋め込みなど)はあえて排除しているように見えるので、理解しやすいです。 1.1.1 畳み込みの式本論文では、畳み込みの中でもDW(=Depthwise)
- 機械学習
- あとで読む
- AI
- deeplearning
- Qiita
- 画像
Make-A-Video by Meta AI
- 101 users
- makeavideo.studio
- 学び
- 2022/09/29
Make-A-Video is a state-of-the-art AI system that generates videos from text. Make-A-Video research builds on the recent progress made in text-to-image generation technology built to enable text-to-video generation. The system uses images with descriptions to learn what the world looks like and how it is often described. It also uses unlabeled videos to learn how the world moves. With this data, M
- AI
- 画像生成
- 動画
- 人工知能
- video
- あとで読む
- 機械学習
- meta
- DeepLearning
AI×医用画像の現状と可能性_2022年版/AI×medical_imaging_in_japan_2022
- 98 users
- speakerdeck.com/tdys13
- テクノロジー
- 2022/12/29
AI×医用画像の現状と可能性_2020年上半期版/AI×medical imaging in japan (first half of 2020)
- AI
- あとで読む
- 画像
- 研究
- 機械学習
Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
- 79 users
- vcai.mpi-inf.mpg.de
- テクノロジー
- 2023/05/19
Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold Abstract Synthesizing visual content that meets users' needs often requires flexible and precise controllability of the pose, shape, expression, and layout of the generated objects. Existing approaches gain controllability of generative adversarial networks (GANs) via manually annotated training data or a prior 3D
- AI
- GAN
- 画像生成
- 画像
- generator
- あとで読む
- 論文
Zero-shot Learning網羅的サーベイ：CLIPが切り開いたVision & Languageの新しい世界 - エクサウィザーズ Engineer Blog
- 70 users
- techblog.exawizards.com
- テクノロジー
- 2023/05/10
こんにちは！　画像システムグループで機械学習エンジニアをやっている小島です。この記事では、今ホットな「Zero-shot Learning」と「Vision & Language」に関する最新情報を、CLIPという研究を起点として網羅的にサーベイをしていきます。このために論文1000本に目を通し、70本程度を記事にしました。 Zero-shotやVision & Languageは、Stable Diffusionに代表される画像生成AIとも密接に関連している技術です。この記事を通して、Vision & Languageの奥深い世界を体感できるでしょう。注意事項この記事は非常に長いため、全部読むのに1時間以上かかる可能性があるので、休憩を取りながら、または必要な部分だけ読んでください。各セクションを個別に読んでも問題ありません。また、文章中の画像は、特別な記載がない限り、引用元の論
- 機械学習
- あとで読む
- cv
- deep learning
- nlp
GitHub - chenfei-wu/TaskMatrix
- 70 users
- github.com/chenfei-wu
- テクノロジー
- 2023/03/09
Now TaskMatrix supports GroundingDINO and segment-anything! Thanks @jordddan for his efforts. For the image editing case, GroundingDINO is first used to locate bounding boxes guided by given text, then segment-anything is used to generate the related mask, and finally stable diffusion inpainting is used to edit image based on the mask. Firstly, run python visual_chatgpt.py --load "Text2Box_cuda:0,
- chatgpt
- AI
- microsoft
- NLP
- image
- github
ブラウザで動くリアルタイム画像/音声処理アプリをStreamlitでサクッと作る
- 67 users
- zenn.dev/whitphx
- テクノロジー
- 2021/12/09
Overview 画像/音声処理をリアルタイムで行う、Webブラウザから利用できるアプリをStreamlitで作る方法を解説します。 StreamlitのおかげでPythonだけでwebアプリが作れます。さらに、一番簡単な例なら10行程度のPythonコードで、webカメラを入力にしてブラウザから利用できるリアルタイム画像処理アプリケーションになります。 Webベースなのでクラウドにデプロイでき、ユーザに簡単に共有して使ってもらえ、UIもイマドキで綺麗です。人物・物体検知、スタイル変換、画像フィルタ、文字起こし、ビデオチャット、その他様々な画像・音声処理の実装アイディアをデモ・プロトタイピングするのになかなかハマる技術スタックではないでしょうか。 Webブラウザから利用できる物体検知デモの例。実行中に閾値をスライダーで変えられる。オンラインデモ🎈 同様にスタイル変換デモの例。実行中にモ
- Streamlit
- python
- 画像処理
- あとで読む
- ブラウザ
- web
- webサービス
- 画像
RaspberryPi AI Cameraで冷蔵庫の在庫管理してみた。 - Qiita
- 66 users
- qiita.com
- テクノロジー
- 2025/06/11
はじめにこんにちは！ソニーセミコンダクタソリューションズの平尾と申します。 2024年9月にRaspberry Pi AI Cameraが発売されました。このカメラを使うことで、エッジ環境でのAIモデル活用が手軽かつ簡単に実現できるようになりました。 AIを活用して「あったらいいな」と思うアプリケーションの1つに、冷蔵庫の在庫管理があるのではないでしょうか。「あるはず」と思い込んで帰宅したのに、実際には材料が足りなかった時の絶望感は、皆さん1回は経験されていることと思います (筆者は毎月のように経験しています…) 。そこで今回は、Raspberry Pi AI CameraとRaspberry Pi Zero 2 W (以下、Pi Zero 2 W) を使用して、冷蔵庫内の在庫管理アプリケーションを開発しました！設置スペースを最小限に抑えるため、コンパクトなPi Zero 2 Wを採
- AI
- あとで読む
自然言語処理とVision-and-Language / A Tutorial on NLP & Vision-and-Language
- 58 users
- speakerdeck.com/kyoun
- テクノロジー
- 2022/06/14
2022年度人工知能学会全国大会（第36回）チュートリアル講演資料
脳が知覚した内容を「Stable Diffusion」が画像化　脳活動を解析　阪大などが技術開発
- 56 users
- www.itmedia.co.jp
- テクノロジー
- 2023/03/08
Innovative Tech：このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: ＠shiropen2 大阪大学大学院生命機能研究科と情報通信研究機構CiNetに所属する研究者らが発表した論文「High-resolution image reconstruction with latent diffusion models from human brain activity」は、潜在拡散モデルを用い、磁気共鳴機能画像法（fMRI）により得られた人間の脳活動から画像を生成する手法を提案した研究報告である。実験参加者に画像を見せた際のfMRI信号から潜在拡散モデルで画像を生成する。【修正履歴:3月8日午後6時40分更新：掲載当初のタイトルから一部内容を修正
- 脳
- AI
- 研究
- 学習
- 画像
- 人工知能
- technology
驚くほどキレイな三次元シーン復元、「3D Gaussian Splatting」を徹底的に解説する - Qiita
- 55 users
- qiita.com/scomup
- テクノロジー
- 2024/05/22
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに最近、3D業界で大きな衝撃を与えた「3D Gaussian Splatting」1について、ご存知でしょうか？数少ない写真から、目を奪われるほど美しい三次元シーンを再構成できるデモを見て私も大感動しました。なぜこんなに美しいのか、どんな技術で実現したのか、興味が湧いています！ "普通の3D物体ではなく、カメラの移動に合わせて、水面に映る景色も正確に表現しています。これはなかなか凄い..." 私も時間をかけて論文や公開されたコード2を勉強しました。本家の実装はCUDA化されており、難解な部分が多く、論文に書かれていないこともあり
物体検出ライブラリの紹介と所感 - arutema47's blog
- 54 users
- aru47.hatenablog.com
- テクノロジー
- 2022/01/01
記事について画像はDetectron2より物体検出をほとんど使っていない方を対象として、2021年末の物体検出ライブラリを俯瞰することが本記事の目的。ある程度物体検出の経験ある方は学ぶことは少ないと思う。またあくまで書いてあるのは筆者の感想であるので人によっては全く違う意見になることもあるかと。また本記事ではモデルの技術的な説明はありません。それらについて理解を深める際は参考ページや元論文を当ってみると良いかと思います。また大変遅くなりましたが、本記事はKaggleアドベントカレンダー（裏）の24日目でもあります（年明けちゃってすみません）。 qiita.com 記事について紹介するライブラリ一覧所感アンサンブルについて精度vs速度トレードオフライブラリ紹介 yolov5 学習について推論について Yolox 学習について Efficientdet 学習コード torc
マイクロソフトのノーコードツールLobeで私服が「地雷系」か「量産型」か判定するアプリを作ってみた！
- 54 users
- ascii.jp
- テクノロジー
- 2022/03/12
PCやスマホのカメラ、写真を使って「地雷系」か「量産型」かを判定できるウェブアプリで、私服を判定する著者の様子メンヘラテクノロジーの高桑蘭佳です。 2019年頃ぐらいからメディアでも取り上げられるようになった記憶があるファッションスタイルの「地雷系」と「量産型」。現在もSNSや街でまだまだ見かけることが多いファッションです。そんな中、たまに議論になるのが「地雷系」と「量産型」の違いです。たとえば、以下のツイートのような形で両者の違いについて解説している人もいます。最近流行りの『地雷系』と『量産型』の違いなどをクソ真面目に分析してみました🎀🔪 pic.twitter.com/wly5fLyoA5 — 🐰れーかるる🍎アパレル予約受付中 (@kappe_reeka) June 5, 2020 🎀🖤🎀🖤🎀🖤🎀 あなたはどっち?! 量産と地雷の違い♡̷̷ 🎀🖤🎀🖤
- ツール
- あとで読む
- 学習
- AI
- アプリ
- 人工知能
- Microsoft
深層学習を用いた三次元点群処理入門
- 52 users
- speakerdeck.com/nnchiba
- テクノロジー
- 2022/05/14
第230回CVIM研究発表会チュートリアルでの「深層学習を用いた三次元点群処理入門」のスライド資料です図などは各論文から引用しています
Muse: Text-To-Image Generation via Masked Generative Transformers
- 45 users
- muse-model.github.io
- テクノロジー
- 2023/01/03
Muse: Text-To-Image Generation via Masked Generative Transformers Huiwen Chang*, Han Zhang*, Jarred Barber†, AJ Maschinot†, José Lezama, Lu Jiang, Ming-Hsuan Yang, Kevin Murphy, William T. Freeman, Michael Rubinstein†, Yuanzhen Li†, Dilip Krishnan† *Equal contribution. †Core contribution. We present Muse, a text-to-image Transformer model that achieves state-of-the-art image generation performance
- 機械学習
- ai
- deepLearning
- google
- 画像
自社OCRエンジン「NineOCR」の学習効率化のため SageMaker Training を導入した話 - Sansan Tech Blog
- 43 users
- buildersbox.corp-sansan.com
- テクノロジー
- 2023/03/06
はじめに NineOCR とは NineOCR が抱える課題 Amazon SageMaker Training とは SageMaker Training の始め方事前準備 AWS が提供しているコンテナイメージを拡張する方法独自のコンテナイメージに SageMaker Training Toolkit をインストールする方法スクラッチでコンテナイメージを作成する方法まとめ学習ジョブの実行学習結果の確認終わりにはじめにこんにちは、研究開発部の石井です。本エントリーでは、弊社の OCR エンジン「NineOCR」の開発フローに SageMaker Training を導入した話を紹介します。 NineOCR とは NineOCR は Sansan が独自に開発した名刺特化の OCR エンジンです。名刺をデータ化するフローの中で実際に活用されており、タスクの高速化・高精