"Number Go Up: Inside Crypto’s Wild Rise and Staggering Fall" by investigative reporter Zeke Faux has several chapters on FTX's founder, Sam Bankman-Fried, but it's also about crypto more broadly.
先日、革新的な画像の異常検知(SAA)が出てきました。 何やら革命的な臭いがする... SAMを使った異常検知手法https://t.co/wmwFcbULdq コードはこちらhttps://t.co/3npK3FhnEz pic.twitter.com/JDs30bEJyQ — shinmura0 (@shinmura0) May 22, 2023 本稿では、操作手順 & 触ってみた感想をご報告します。 特長 本題に入る前に、どこら辺が革新的なのかざっくり説明します。 ※ SAAの詳細は論文をご参照ください。 学習データは不要 通常、学習(正常)データを数百枚用意しますが、この手法では正常データを必要としません。 ドメイン知識を導入できる 予め、異常の傾向をプロンプトに入れることにより、異常の特徴をモデルに教えることができます。 二点目が特に大きく、今までの異常検知では、積極的に異常の傾
要約 Electron + Vue.js で、OpenCVをビジュアルプログラミング的に実行できるアプリ(仮称: OpenCVFlow)を自分の勉強がてら作ってみました。 上の動画のように、画像処理を定義したブロックを並べ、それをリンクでつなげることで、処理を順次実行して結果を確認、保存することができます。機能としてはそれほど多くなく、実用まではいかないかもしれませんが、なにか参考になれば幸いです。(個人的には、ElectronやVue.jsを本格的に使用するのは初めてでしたが、それなりに動くものが作れて満足しています。) 採用技術 アプリケーションエンジン: Electron フロントエンドフレームワーク: Vue.js UIフレームワーク: Photon OpenCVライブラリ: opencv4nodejs デザインパターン: アトミックデザイン アトミックデザインについて 今回は、U
AIを使って画像を生成する時、「ちょっとだけ修正を加えたい」と思うことは多いもの。そんな人たちの夢をかなえるツールが「DragGAN」です。DragGANは画像の中で動かしたいポイントを指示するだけでAIが自動で修正してくれるというもので、2023年5月に論文だけが提出されていましたが、2023年6月22日にソースコードが公開され、同時にデモも登場しました。 GitHub - XingangPan/DragGAN: Official Code for DragGAN (SIGGRAPH 2023) https://github.com/XingangPan/DragGAN Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold https://vcai.mpi-inf.mpg.
複数の視点の画像から、新たな視点の画像を合成して作り出す「Novel View Synthesis」というタスクがある。VRやスポーツの自由視点映像などには不可欠な技術だ。この領域で驚異的な性能を発揮したのが「NeRF」(ナーフ)。果たしてどんなアルゴリズムで、美しい合成画像を作り出せるのか。世界中の研究者や技術者に衝撃を与えたその技術を、論文からひもといていく。 まずは下の3枚の画像を見ていただきたい(図1)。左の2枚の写真を基に、一番右の画像のような新たな視点の画像を生成する技術を、今回は紹介していく。コンピュータービジョン分野やコンピューターグラフィックス分野の主要な研究課題の1つであり、応用先にはVR(仮想現実)やスポーツの自由視点映像など、様々な分野が挙げられる。 これは「Novel View Synthesis」という、複数の視点の画像を手がかりに新たな視点の画像を合成する技術
話題のAI画像生成で動画を変換してみました。Stable Diffusion(AUTOMATIC1111)を魔改造してmovie2movie(動画→動画)変換してます。不安定に見えますが、試行錯誤を経てだいぶ絵っぽく見えてきてます。ただ迫真空手部しか変換してみてないので、今後色々やってみようかと思います。元動画の解像度が低いからか元とかけ離れた画像を生成しまくって、調整すっげぇキツかったゾ...。▼実現方法1. 動画→フレーム出力2. フレームをSwinIRで4倍高解像度化3. ポスタリゼーションをかけて境界をくっきりさせてみました(階調は10弱、ですかね...)4. 画像を512px * 512px にリサイズ5. img2img変換(余力があればここでもう一回高解像度化してみても良いかも。)6. フレーム→動画出力※プロンプトはシーン毎に少しずつ変えてみてます。すべてpythonで自動
Imperatoria Hoppo (イムペラトリア・北方) @ImperatoriaH @you629 私は海外の人間ですが、AIで作られた"アート"に対するバックラッシュには心から同意できます。 技術を身につけようとしない人が、本来は他人の作品から盗んで自分のものだと主張するための言い訳だと思うんです。 2022-10-04 13:14:26 そまりあ @somalia24906989 @you629 日本よりも海外の方がイラストレーターの地位が高いんですよね。今だに写真<イラストなので。歴史ある雑誌にもイラストが載っていた記憶が。 となれば、海外の方の反発も相当なものなのでしょうね。 2022-10-04 16:53:01
3つの要点 ✔️ 低解像から高解像へ変換 ✔️ 時間的に一貫したフレームを生成するために双方向損失関数を採用 ✔️ 超解像度へ変換するTecoGANを提案 Learning Temporal Coherence via Self-Supervision for GAN-based Video Generation Temporally Coherent GANs for Video Super-Resolution (TecoGAN) written by Mengyu Chu, You Xie, Jonas Mayer, Laura Leal-Taixé, Nils Thuerey (Submitted on 23 Nov 2018 (v1), last revised 21 May 2020 (this version, v4)) Comments: Published by arXi
Photoshopには、RAWファイル現像プラグイン「Camera Raw」が付属しています。2021年3月にリリースされた「Camera Raw13.2」には、カメラで撮影した画像の解像度を2倍にする機能「スーパー解像度」が追加されているので、実際に使ってみました。 新機能「スーパー解像度」の活用方法 https://blog.adobe.com/jp/publish/2021/03/10/cc-photo-from-the-acr-team-super-resolution.html ◆「スーパー解像度」の使い方 実際に「スーパー解像度」を使って、画像の解像度を2倍にしてみます。まずは、Camera Rawで編集したい画像のRAWファイルを読み込みます。なお、「スーパー解像度」は記事作成時点では、最大で長辺6万5000ピクセル、あるいは総画素数500メガピクセルまでの画像に対応していま
ThreeDPoseTrackerとは まずは下記の動画をご覧ください。画像をクリックすると別タブでYoutubeが開きます。 ThreeDPoseTracker v0.1.0 Introduction movie 他にもこの辺を見て頂くとわかりやすいかもしれません。 USBカメラだけでできる モーションキャプチャを作ってみた - Motion capture with USB Cam only - 【NT京都2020】 https://youtu.be/L0ieoaOD6Po ThreeDPoseTrackerは、USBカメラや踊ってみた等の動画だけでモーションキャプチャーができるWindows10用アプリケーションです。ノートPCであれば内蔵のカメラを使えば追加の機材は必要ありません。ですが、ちょっと(かなり)強めのグラフィック環境が必要です。具体的にはGTX1050以上は欲しいです。
関連記事 pixiv、AIイラスト急増で機能改修 検索フィルター、専用ランキングなど実装へ ピクシブが「pixiv」を、AI生成作品と人間の作品をすみ分けできるよう機能改修すると発表した。10月下旬に、検索時のフィルタリングやAI生成作品限定のランキング機能などを追加する。 「ファンアートは自分で描いて」 画像生成AIのイラストにVTuberが苦言 「ファンアートは自分で描いて」──画像生成AIが描いたAIイラストを巡って、バーチャルYouTuber(VTuber)の投稿が話題だ。SNS上などでは現在、3日にサービスを始めた画像生成AI「NovelAI Diffusion」などの影響から、AIイラストの投稿が相次いでいる。 「イラストやデザインの仕事は退屈」──Stable Diffusion開発元の代表インタビュー記事が話題 「イラストやデザインの仕事は退屈」──画像生成AI「Stabl
動機 TensorFlowの登場をきっかけに 機械学習によるアイドル顔識別 という取り組みをしていて、3年以上かけてコツコツとアイドルの自撮りを収集してラベルをつけてデータセットを作ってきたけど、 アイドルヲタクはもう辞めてしまって 現場にも全然行かなくなり、卒業・脱退の情報を追いながらラベルを更新していく作業を続ける情熱はすっかり薄れてしまった。 もうアイドル顔識別プロジェクトは終了にしよう、と思った。 しかし折角今まで集めたデータを捨ててしまうのは勿体無い。せめて最後に何か活用できないものか。 と考えて、「画像生成」に再び取り組んでみることにした。 過去に試したことはあったけど、それほど上手くはいっていない。 TensorFlowによるDCGANでアイドルの顔画像生成 TensorFlowによるDCGANでアイドルの顔画像生成 その後の実験など この記事を書いたのが2016年。 この後
ラズパイでAI画像認識環境構築 ひさしぶりにラズパイでディープラーニングしようと思ったら、色々変わっていたのでメモ。 追記:ラズパイ5に関しては以下記事参照ください。 前提 ハードウェアやソフトウェアの前提は以下です。 Raspberry Pi 4 Raspberry Pi OS(64-bit) with Desktop 2023-02-21(Bullseye) USBカメラ OSは64bitを使用します。32bitだとライブラリのバージョンが変わってくるのでこの記事のままだとインストールできませんので注意してください。 SDカードの書き込みやハードウェアのセッティングに関しては、以下記事参照ください。 また、上記記事では、カメラとしてRaspberry Pi カメラモジュールを使っていますが、Raspberry Pi OSがBullseyeになってから、使用するライブラリが変わった(Pi
こんにちは!Mercari Advent Calendar 2020 の3日目は、メルカリWebPlatformチーム/Software Engineerの@_mkazutaka がお送りします。普段はメルカリのウェブ周りの開発をしておりGoやPHPやTypeScriptを書いています。 メルカリでは半期に一度エンジニアのためのお祭りMercari Hack Weekを開催しています。この記事では、第2回Mercari Hack Weekから筆者が取り組んでいるRust/Wasmを使ったバーコードリーダについて紹介します。 こちらプロダクションには出してるものでありません。お願いすればプロダクションへのリリースを許してもらえたと思いますが、筆者自身が出さない選択肢を取ったのでそれも含めて紹介します。 (注釈: いくつかの画像処理の話が出てきますが、筆者は画像処理の専門家でもなければ大学院で
Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Google ResearchとイスラエルのTel Aviv Universityに所属する研究者らが発表した論文「Sketch-Guided Text-to-Image Diffusion Models」は、落書きのようにざっと描いた絵を入力テキストに従って詳細な画像を生成する深層学習モデルを提案した研究報告だ。手描きのスケッチを任意のテキストプロンプトによるスタイル制御で、自然な高精細画像に変換する。 大規模なテキストから画像への拡散モデルは、与えられたテキストプロンプトに従った前例のない品質の多様な画像の合成を可能にし、コンテンツの作成と編集のための刺激的なツールとなってきた。 しか
昨夜GoogleがPixel6を発表して紹介動画をざっと見てたけど カメラ機能の紹介で「AI技術を駆使してこんなに簡単自然に写真の中の〇〇が消せます!」みたいなのにやたら力が入ってて、なんだかなーという気分になった 新型コロナが流行る前の年、娘の幼稚園の入園式の記念写真撮影を友人が買って出てくれた おかげで俺と嫁はスマホやデジカメを気にする事なく式に参列することができた 数日後、友人から写真が送られてきたのだが、その中にぎょっとするものがあった それは正門前で娘と嫁が並んでいる記念写真だった 娘と嫁以外の人間が一人も写っていなかった 全く同じ構図で他の参列者や児童や先生が写っているものもあったので、何かのアプリで除去したものだとすぐに気づいた 友人なりにサービスしたつもりだったのだろうが、その写真を見た娘は泣き出してしまった 俺と嫁は「きっとカメラが壊れていたんだよ」と娘をなだめてその場を
Raspberry Pi4 単体で TensorFlow Lite はどれくらいの速度で動く?【2020年12月版】RaspberryPiTensorflowLitexnnpack 1. はじめに 今から半年前の2020年6月、ラズパイ4上でTensorFlow Liteを使った様々なAI認識アプリを動かしてみて、その動作速度をまとめました。 当時のTensorFlowはバージョン2.2でしたが、現在は 2.4(rc4) へと進んでいます。進化が極めて速いDeepLearningの世界において、この半年間でTensorFlow Liteはどう変化したでしょうか。もし「手持ちのアプリは何も変えてないのに、TensorFlow Liteを新しくするだけでめっちゃ速く動くようになったぜ」というのだと嬉しいですよね。 本記事では、前回計測に用いたアプリを再び最新版のTensorFlow Lite環
Reanimateはアニメーションを作成するためのライブラリです。 ReanimateはHaskellのライブラリとして実装されているのでプログラムによってアニメーションを記述することができます。ライブラリに実装されている機能も多く、ドキュメントも豊富ですし、オンラインのPlaygroundまで用意されていてかなり完成度の高いライブラリになっています。さらにLaTeXや物理エンジン(Chipmonk 2D), POV-Ray, Blenderなど外部ツールとの連携もサポートされています。アニメーションの各フレームはSVGで書き出されるようになっており、幾何学的な図形やSVGフォントを使った文字などから構成されたアニメーションを作るのが得意です。作ったアニメーションは最終的にMP4, GIF, WebMに出力することができます(中間生成物である各フレームのSVGを取り出すことも可能です)。
文章(プロンプト)を入力するだけで画像を生成してくれるAI「Stable Diffusion」が大きな注目を集めていますが、Stable Diffusionを使うには高性能GPUを搭載したマシンを用意する必要があるため興味はあっても使うのを諦めていた人も多いはず。そんな中、iPhoneに搭載されたチップを利用してオフラインでもStable Diffusionを用いた画像生成を可能にするアプリ「Draw Things」が公開されました。実際にDraw Thingsを使ってみたところ、モデルデータの切り替えやシード値の手動入力など高度な機能が山盛りの高性能画像生成アプリに仕上がっていたので、インストール手順や使い方をまとめてみました。 Draw Things: AI-assisted Image Generation https://draw.nnc.ai/ Draw Thingsを使うには、
三雲岳斗 @mikumo 画像生成AIに美樹さやかさんのデータを学習させたら、指定してないのに勝手に佐倉杏子さんらしき人物が隣に映り込むようになった、って記事を読んで感動してる 独りぼっちは、寂しいもんな… six-loganberry-ba7.notion.site/22-09-26-Stabl… pic.twitter.com/Zx5UZBAY1y 2022-09-28 18:47:35 リンク Notion Notion – The all-in-one workspace for your notes, tasks, wikis, and databases. A new tool that blends your everyday work apps into one. It's the all-in-one workspace for you and your team 406
昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成(Text To Speech)の表現力について非常に興味を持っています。 私は以前、「OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日本語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ
2000年から開発が続いているFFmpegはオープンソースで開発されるコーデックツールで、動画や音声を記録・変換・再生するためのフリーソフトウェアです。FFmepgの開発体制は2011年にFFmpegとLibavという2つのプロジェクトに分裂した過去があり、この経緯についてグラフィックやアート関連のエンジニアであるbµg氏が自身のブログで説明しています。 The FFmpeg/Libav situation http://blog.pkh.me/p/13-the-ffmpeg-libav-situation.html FFmpegの開発プロジェクトがスタートした時、同時期にオープンソースのメディアプレイヤーであるMPlayerの開発プロジェクトがスタートしました。FFmpegは音声や動画を変換したり再生したりするためのライブラリとツールをまとめたもので、MPlayerもFFmpegのAPI
MIRU 2019 チュートリアル http://cvim.ipsj.or.jp/MIRU2019/index.php?id=tutorial 松井 勇佑(東京大学生産技術研究所)http://yusukematsui.me/index_jp.html ベクトルの集合を前にして新たにクエリベクトルが与えられたとき、そのクエリに最も似ているベクトルを高速に探す処理を近似最近傍探索という。近似最近傍探索は画像検索をはじめ様々な文脈で用いられる基本的な操作であり、速度・メモリ使用量・精度のトレードオフの中で様々な手法が提案されている。本チュートリアルでは、アプローチや対象とするデータの規模に応じて近年の手法を分類し、その概観を示す。また、各手法に対応するライブラリを紹介し、大規模データに対する探索を行いたい場合にどのように手法を選択すべきかの道筋を示す。
Abstract Recent breakthroughs in text-to-image synthesis have been driven by diffusion models trained on billions of image-text pairs. Adapting this approach to 3D synthesis would require large-scale datasets of labeled 3D assets and efficient architectures for denoising 3D data, neither of which currently exist. In this work, we circumvent these limitations by using a pretrained 2D text-to-image
「Stable Diffusion」のような画像生成AIは、ゲーム開発の場面で実際に使い物になるのでしょうか。マウスコンピューターのクリエイター向けPC「DAIV」のDAIV DD-I9G90(NVIDIA GeForce RTX 4090搭載)とDAIV DD-I7N60(NVIDIA RTX A6000搭載)を比較しながら、筆者が開発に関わるインディゲーム「Project-GENESIS」での背景のプロトタイプ制作を通じて、その可能性を探りました。画像の出力(生成)速度だけであればRTX 4090に圧倒的に軍配が上がりますが、複数のアプリをまたがった作業をする場合にはVRAM(ビデオメモリ)搭載量が48GBと多いRTX A6000が生産性を高めると考えて良さそうです。コンピュータの世界ではいつの時代も「速さは正義」であることを、画像生成AIを実践で使おうとして改めて痛感しました。 2機
Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 台湾大学、米Google、米カリフォルニア・マーセッド大学、米バージニア工科大学による研究チームが開発した「Learning to See Through Obstructions」は、画像内の手前に映りこんだ不要な障害物を除去する、機械学習ベースの技術だ。窓越しに撮影したときの水滴やガラスの反射、被写体の手前にあるフェンスなどを自然に消すことができる。 背景にある対象物と障害物要素はそれぞれのレイヤーがカメラに対して異なる深度に位置しているため、撮影した画像では2つのレイヤー間で動きが異なる。フレームごとに視点がずれるよう連続に複数枚撮影することで発生する背景と映り込み箇所の位置ずれ量の
この記事は「自動運転システムをエッジデバイスに組み込むための技術」を3回に分けて紹介するTURINGのテックブログ連載の第2回の記事「OpenCVをNPPにした結果→10倍高速に!」です。 第1回の「C++でOpenCV完全入門!」、第3回の「詳解V4L2 (video for linux 2)」もぜひご覧ください! はじめに TURINGで働いている木更津高専の越智です。TURINGでは「We Overtake Tesla」を目標に掲げて、完全自動運転EVの開発・製造を行っています。 TURINGでは、社内で使っている自動運転ソフトウェアにおいて、画像処理部分のライブラリをOpenCVからNVIDIA Performance Primitives(NPP)に変更するプロジェクトに取り組んでいました。これによって、CPUで動かしていた画像処理をGPUバックエンドで動かすことができるようにな
自分がアップロードした写真からAIが「存在しないそっくりさん」を作り出してくれ、アップロードした写真を別の人物と掛け合わせたり、人物写真の人種・性別・年齢などを細かく調整したりすることも可能な「Artbreeder」が公開中です。敵対的生成ネットワーク(GAN)を利用しており、無料で使用することが可能で、ポートレート以外にも風景画やアニメキャラなども作成できるというネットサービスを実際に使ってみました。 Artbreeder https://artbreeder.com/ まずは上記URLにアクセスして「Start」をクリック。 Googleアカウントでもサインインできますが、今回はアカウントを作成していくため「Make an account」をクリック。 ユーザー名・メールアドレス・パスワードを入力し、チェックボックスにチェックを入れたら「Register」をクリック。 するとこんな感じ
こんにちは、デイリーポータルZ編集部 石川です。 デイリーポータルZは今年19周年を迎えたよみものサイトで、多すぎてもはや忘れましたが1万本だか2万本だかの過去記事アーカイブを保有しています。 例えばこれなんかは2005年のヒット記事。 納豆を一万回混ぜるより サイドバー等のガワはちょっとずつ変えつつも、本文部分はHTMLごと当時のものがいまだ使用されています。 時事ネタを載せているニュースサイトと違って、いま読んでも楽しんでいただける記事が多いと自負しています。納豆は2005年も2021年も変わらず納豆ですからね。 書き手としても、自分で書いた記事でも15年くらいたつとすっかり忘れてるので、フレッシュな気持ちで読み返せます。 しかしいま読むにはいかんせん、画像が小さい!ネット回線も細かったし、なんたってモニタの解像度が1080ピクセルとかだったころのページです。現代のモニタで見ると、ほと
くずし字の解読は、文学や歴史学など「文系」の専門家の領域ですが、AIの開発は、日頃プログラミングやシステムの開発に携わる「理系」の研究者が得意とするところです。 そのうちの1人、国際コンペに参加した福岡県の土井賢治さんを訪ねました。土井さんはIT企業のエンジニアで、ネットオークションに出品された商品が本物か偽物かを、投稿された画像から判断するシステムの構築に携わっています。 くずし字は「存在を知っている程度」だったということで、みずから読むことはできません。そんな土井さんが今回のコンペに参加した理由を聞いてみると、意外なきっかけがあったことが分かりました。 「ラーメンの画像から店を当てるシステム」を応用できると考えたというのです。 土井さんは、SNSに投稿されたラーメンの画像がどこの店舗で出されたのかを、数万枚の画像データをもとにAIが予測するシステムを運営していて、ファンの間で人気となっ
絵描きの民主化だと言われているが、画像掲示板のネタか、政治家揶揄するための画像作り、くらいにしかなってない。 そしてそれすら皆飽きるの早くて、書き込み量も減ってきている。 NovelAIでも1ヶ月経ち、サブスク登録した人も辞めていっている。 ネット上からかなりの量の画像を学習させているわけだが、お金が取れるクオリティの画像は少なく、結局の所ノイズにしかなっていない。 調整しようとしているパラメータに対して、自然言語だけでは調整しきれてないし、毎回違う画像が出てきてしまっている。 リコメンド機能もまだない。レイヤー構造もまだない。解像度も足りない。 次々と技術は出てきて、何かできそうだという感じはあるが、 多額を注ぎ込んでも、ここまでしか出来ず、毎回学習に金がかかるのなら回収できそうにないとか、金額もある。
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く