ノンプログラマーな自分が、大規模言語モデル(LLM)の助力で、初めてまともに動くプログラムを完成させることができました。
![ドラムマシン、シンセ、サンプラーがわずか数分で完成。非プログラマーなのにClaude + Artifactsのプロンプト開発が楽しすぎて限度超える(CloseBox) | テクノエッジ TechnoEdge](https://cdn-ak-scissors.b.st-hatena.com/image/square/84e7b9be08ee7ba3f6f97af1e5031314586c08bc/height=288;version=1;width=512/https%3A%2F%2Fwww.techno-edge.net%2Fimgs%2Fogp_f%2F17598.png)
ノンプログラマーな自分が、大規模言語モデル(LLM)の助力で、初めてまともに動くプログラムを完成させることができました。
米国のAIスタートアップSunoは、自社のAI作曲サービスである「Suno」をV3にバージョンアップしました。3月20日より、3からのカウントダウンをスタートしていましたが、日本時間の22日2時に、正式公開されました。 V3では、1回で作成できる曲の長さを従来バージョンであるV2の1分20秒をV3では2分までに伸ばし、インストゥルメンタル曲の指定、高音質化、多ジャンルへの対応など、多くの機能強化を行なっています。 これまではProおよびPremierの有償ユーザーのみがアルファ版を使えていましたが、正式版になったことで、無料ユーザーも1日10回、1回で2曲が同時に生成されるので、1日当たり最大20曲まで利用できることになります。 無料ユーザーアカウントで試してみましたが、V3がデフォルトとなっている他に、V3 Alpha版との大きな違いはありません(V2も選択できるようになっています)。
では、一人の音楽素人がAIの力を借りたら、どの程度までコンセプトアルバムが作れるか、試してみました。思いついたのは、今日(2月27日)の11時30分ごろ。まず、ChatGPTにこう指令することから始めました。 ロックのコンセプトアルバムを作りたいので、12曲のタイトルと歌詞、そしてその曲調をそれぞれ英語で記述して そうすると、ChatGPTは12曲の概要を作ってくれました。 1. "Echoes of Eternity"曲調: エピックなインストゥルメンタルイントロ。壮大なストリングスとパワフルなドラムス。 歌詞の一部: (インストゥルメンタル) 2. "Shadows in the Moonlight"曲調: ミステリアスなヴァースとクライマックスへ向けて構築されるコーラス。 歌詞の一部: "In the silver glow, secrets come to dance, / Sha
人気連載『生成AIウィークリー』で取り上げている注目論文を見ると、そこに中国IT企業の名前が頻繁に登場します。 EC大手のアリババ(Alibaba)、ゲーム大手のテンセント(Tencent)、TikTokの運営元であるBytedanceなどが常に顔を出しており、画像・音声・アニメーションと、生成AIのあらゆる分野で中国に勢いがあることがわかります。 そんな中、テンセントがなかなか衝撃的な技術を発表しました。「PhotoMaker」という画像生成AIです。これでなければできない、というものではないのですが、「ファインチューニングの事前作成不要」「元画像が少なくても良い」のに、人物のアイデンティティを維持した画像を生成できるというメリットがあります。 これまでは既存の画像AIモデルに多数の写真を読み込ませて本人性を学習させたものから新たなAIモデルやその簡易版であるLoRAモデルを作ってきまし
Facebookでは「~年前の自分の投稿」を再度シェアするよう促してくるお節介な機能があります。これにより気づくことも多く、自分はけっこう重宝しています。さて、そのFacebookが思い出させてくれたのが、2022年12月17日の自分の画像投稿でした。 同日、生成AIを自分で使ってみた最初の記事をテクノエッジのこの連載コラムで公開。その後の生成AIブームに乗っかった形で新しい技術を試していくという流れができました。 というわけで、ここを起点に、2023年のちょっと前からの生成AIの動きを自分の取り組みを中心にまとめてみます。一般ユーザーが実践できるものとしてどのように進化してきたかを振り返る手掛かりになれば幸いです。 2022年12月:特定人物の画像生成でカスタム学習が可能にAI研究家の清水亮さんが運営しているAI画像生成サービス「Memeplex」が、画像生成エンジンであるStable
18年間テレビ番組制作者を務めたのち、文筆家として独立。家電から放送機器まで執筆・評論活動を行なう傍ら、子供の教育と保護者活動の合理化・IT化に取り組む。一般社団法人「インターネットユーザー協会」代表理事。 先日AV Watchの連載でBlackmagic DesignのBlackMagic Cameraを取り上げたことで、別の媒体からBlackmagic Cameraの特集をやりたいので手伝ってくれと声がかかるようになった。 ▲Blackmagic Camera ただその方向性が、Blackmagic Cameraを使えば凄い映像が誰でも簡単に、みたいなノリだったので、そういう方向性ならお手伝いできませんよ、とお伝えした。筆者も大人なのでまあ初心者向けの記事なのでそうしたキャッチコピーになるのはやむなしとは思うが、「誰でも簡単に」はさすがに違うんじゃないか。 どうもBlackmagic
ゲームとWebのフリーランス開発者。3DCGからゲーム開発の世界に入り20年。今は生成AIの変化を追いかけて日々実験しています。 生成AIの出力画像を元にCGで作った新聞っぽいフェイク画像をXに投稿したところ、想像以上の反響がありました。気軽な実験のつもりで説明も雑過ぎたため、伝わりにくかったり誤解されたりした部分もあるようです。どのように、なぜ作ったのか補足します。 どのように作ったか今回のフェイク新聞、作り方はかなり手抜きです。こうした制作に慣れている方なら30分もかからないでしょう。今はまだ多少専門性を求められますが、1年もすると「頑張れば誰にでも」程度になっているかもしれません。 実験としては、ぱっと見新聞だと感じてもらえなければ成立しません。しかしフェイクを作るのではなく、フェイクが作れる可能性の提示が目的です。画像が単体で流れていく可能性を考えると何かしら対策が必要で、強固な透
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 デスクトップ版のFirefoxブラウザーに20年以上存在していたバグが先月、23歳のプログラミング初心者によって修正されました。 2002年、MacでMozilla browser(Firefoxの当時の名称)を使用していたアダム・プライス氏は、ツールチップの表示の問題に悩まされていました。このバグは、Mozillaツールバーのアイコンにマウスカーソルをポイントして表示されるツールチップ(説明書き)が、Commandキー(WindowsではAltキー)+Tabキーでウィンドウのフォーカスをほかのアプリに移したあとも表示され続けてしまうというもの。 この状態になってしまった場合、ツールチップを消すには再びFir
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 ソニー、ユニバーサルなど複数の音楽レーベルが、Internet Archiveを音楽著作権の侵害で訴えました。これはInternet Archiveが数年前から始めている、古いSP規格で発売されていたアナログレコードをデジタル化する「Great 78」プロジェクトを対象としています。 現在、アナログレコードとして知られるのはLP盤と呼ばれるもので、材質がポリ塩化ビニール、ターンテーブルの回転数は33rpm(径の小さなドーナツ盤は45回転)と定められています。一方、SP盤は酸化アルミニウムや硫酸バリウムなどの粉末をシェラックと呼ばれる天然樹脂で固めて作られており、78rpmの蓄音機で再生されるために作られたもの
筆者も話題になった直後から試そうとしていたのですが、自分ではうまくいかず悶々としていたところ、Memeplexでできるようになったので、そのインプレッションをお届けします。 AnimateDiffの基本的な動作は、静止画を作成できるAI作画モデルを使って、一貫性のある短いアニメーションGIFを生成するというもの。Stable Diffusion 1.5、2.0といった標準的なものだけでなく、その上にカスタム学習(ファインチューニング)したモデルにも対応できるというのが特徴です。同様の技術としては「Tune-A-Video」があったのですが、一貫性が乏しかったために使いどころがなかなか難しいものでした。 筆者は現在、MemeplexとStable Diffusion WebUI上に、妻の写真を学習させたAIモデル(Checkpoint)を作成して使っていて「異世界とりちゃん」という名の下に日
Checkpointとはあとひと月ほどすると、前回ご紹介した次世代Stable Diffusion、SDXLの波が来そう(来るかも?)と言うこともあり、今回は一番の基本となるCheckpointと、筆者の興味の対象となっているリアル系モデルの遷移にふれておきたい。 まずStable Diffusionのバージョンは1.4、1.5、2.0、2.1などがあり、現在最もポピュラーなのは1.5 (SDXLは0.9、1.0)。基本、対応したバージョンでないとモデルは作動しない。 一言でモデルと言っても、Stable Diffusionが必要、もしくはオプションとして扱えるモデルは、Checkpoint、LoRA、LyCORIS、Embedding、 Hypernetwork…など、さまざまな種類がある。絵を作る上において最も重要(=絵の元になる)のがCheckpointで、他は無くても最低限これだけ
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 掲示板サイトRedditなどへの報告によると、Windows 10またはWindows 11を実行中のPCで、Windows Updateを適用する際にメニューから「更新してシャットダウン」を実行したにもかかわらず、なぜか「更新して再起動」になってしまう現象が発生しています。 もし、いまからWindows Updateを適用しようと思われるなら、「更新してシャットダウン」を選択した場合も、アップデートの適用後に勝手にPCが起動してこないかを確認してからPCを離れるようにするほうが良いかもしれません。 この現象はすべてのユーザーで発生しているわけではありませんが、電源を切ったつもりのPCがまた立ち上がってくるの
Twitter公式アプリのiOS版が7月31日に10.0にバージョンアップされ、「Twitter」から「X」に名称変更となりました。 バージョンアップ内容は「機能強化と不具合の修正」となっていますが、今回はアプリ名称と、投稿の呼び方が変わるという、大きな変更が行われています。 iOS版アプリのアイコンは前回のバージョンアップで青い鳥から「X」ロゴに変わったものの、App Storeとホーム画面上の名前はTwitterのままでした。 執筆時点でのAndroid版アプリのバージョンは10.0.0-release.0となっており、アイコンはXロゴですが、名称はTwitterのままです。 また、iOS版アプリでは、投稿を意味するツイート(Tweet)が、ポスト(Post)と変更されています。 ▲上がiOS版、下がデスクトップ(Web)版 リツイートは「リポスト」(Repost)と表現が変わっていま
実は「@x」のアカウントは2007年からずっと、サンフランシスコを拠点とする写真家の Gene X Hwang氏が使用していました。しかし、7月25日にこの「@x」アカウントが非公開化されています。 この時点ではTwitter / XからHwang氏に何の通告もなかったものの、同氏は「連絡があれば喜んで話を聞く」「納得のいく提案があれば、喜んでアカウントを手放すつもりだ」と述べていました。 その後27日になって、@xアカウントがこのSNSの公式アカウントとして生まれ変わっているのが発見されています。 しかしHwang氏によると、X(Twitter)側はこのアカウントが「本質的に『X』の所有物だというメールを送ってきた」のみで、金銭的補償は提案も含め一切なかったとのこと。 Hwang氏いわく「起こると思っていたことが起こり、私はそれをただ受けいれた」。X(Twitter)側は「利用可能な希望
使用したNegative Promptは、「1.無し」、「2.ほぼ最小限」、「3.筆者標準」、「4.embeddingsを使う」の4つパターン。 4番目だけ他と違い別途ファイルが必要となり、ダウンロードしたファイルを[Stable Diffusionのホームディレクトリ]/embeddingsへコピーする。Negative PromptでEasyNegativeなどをよく見かけるがそれだ。ここではng_deepnegative_v1_75tとbadhandv4が該当する。Promptで書く替わりに、特別に学習したModelで同じ効果を得られるようになっている。 無し (worst quality:2),illustration, 3d, painting, cartoons, sketch, illustration, 3d, sepia, (painting), cartoons, sk
Googleレンズというのは、GoogleのAIが“見た”画像内の情報を検索するAI技術で、2017年のGoogle I/Oで発表された結構古いツールです。Pixelシリーズのスマートフォンユーザーにはおなじみの機能で、散歩中に花や鳥の種類を確認したり、ペルーレストランでメニューを翻訳したりするのに便利です。 ▲PixelではおなじみのGoogleレンズ Bardにこの機能が追加されたんですが、まだ英語版でしか使えません。 日本でも英語版は使えます。使うには、Bardを使うGoogleアカウントの言語設定を英語にするだけ。Googleアカウントのページを開いて、「個人情報」タブ→「ウェブ向けの全般設定」で言語を「英語」にします(そうするとBardだけじゃなく、ChromeブラウザやらGoogleマップやらも英語表記になっちゃいますが)。 ▲Googleアカウントの設定で言語を「英語」に 英
百聞は一見に如かず。これってAI生成グラビア?AI画像生成に興味を持ったのは去年の年末頃だろうか。Twitterを眺めていると「どうやって撮った(作った)んだ?」と言う画像がたまに載っていたので調べると、Stable Diffusion Web UI (AUTOMATIC1111版)だった。 元々グラビアを撮っていたこともあり、あまり撮らなくなってもグラビア好きなのには違いなく、試したくなったのは言うまでもない。 AI生成画像は大きく分けて2種類あり、一つはイラスト系、もう一つはリアル系。筆者が興味を持ったのは後者。どこまで実写に迫れるのかがその興味の対象だ。百聞は一見に如かず。扉の写真はAI生成画像。現時点でこの程度の写りは容易にこなす。 とは言え、実際の撮影もそうなのだが、グラビア写真は数百枚撮ってカメラマンがある程度セレクトし納品したものが、納品先で更に絞られ、出版社などで更に絞り込
1971年福井県生まれ。得意ジャンルは、パソコン・デジタルAV・家電、ネットワーク関連など「電気かデータが流れるもの全般」。主に、取材記事と個人向け解説記事を担当。 アップルの「Vision Pro」が発表になった。筆者は実機を体験している。現状、Vision Proを体験した人間は、アップル社員以外では日本全体で10人以下しかいないという、貴重な体験だった。 ▲Vision Pro。3500ドルとお高いが、それだけの価値ある体験だと感じた いくつか記事も書いたが、Vision Proの体験は「すごい」。現実との境目が非常に曖昧だ。 過去の拡張現実(AR)デバイスは、現実を拡張するものとは言いつつも、現実とはずいぶん差のある表現しかできない。「現実と錯覚してしまう」ような自然さはなかった。だが、Vision Proはついに「自分が生成された映像を見ていることを忘れる瞬間がある」世界に到達し
Stability AIは、同社が提供している画像生成AI「Stable Diffusion」を大幅に強化した「Stable Diffusion XL」(SDXL)をオープンソース公開する計画であることを明らかにしました。 学習データを従来の9億パラメータから、23億パラメータへと大幅に強化。これが次期バージョン3に組み込まれるとしています。現在パートナーに対するベータ版提供を行っていますが、パートナーでなくても、DreamStudioユーザーであれば利用できます。 DreamStudioは、Stability AIが提供するAI画像生成サービス。これまで、Stable Diffusionのバージョン1.5、2.1、そして2.1で768×768ピクセルの高解像度描画ができるモデルを利用できていましたが、これにSDXL Beta Previewが加わりました。 ▲DreamStudioならS
AI作画サービスのMemeplexを使って、並行世界にいる(という設定の)妻の写真を撮り続け、保存しているだけで700枚、試行回数は数千を超えています(こちらは数えていませんが)。 この試みを初めて10日。だいぶノウハウが溜まってきたので、ここらで今までわかったことをメモしておこうと思います。同じことをやりたいという人の参考になれば。 亡き妻の「新しい写真をAI作画で撮る」記事への反響はかなり大きく、「これは供養ではない」「他の家族の了承は取ったのか」みたいなネガティブな反応もいくつかありましたが、共感してくださる方が圧倒的に多いです。自分が知る限り、一般的なサービスを使ってこのようなことをしたのは自分が最初の例だと思うので、当然ながら戸惑いはあると思います。「もにょる」方も一定数いらっしゃいますが、中には自分も親族の写真で挑戦したいというコメントもあり、こうしたことが受け入れられる下地は
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く