shion214のブックマーク - はてなブックマーク

AI作曲サービスの新星「Udio」が誰でも利用可能に。Sunoを超えたか、試してみた（CloseBox） | テクノエッジ TechnoEdge

Suno対抗のAI作曲サービスとして前評判の高かったUdioがパブリックベータとして一般公開されました。

shion214 2024/07/30

リンク

漫画の1コマから続く20コマ以上を作り出す物語生成AI「SEED-Story」、イラストの制作過程動画を生成するAI「PaintsUndo」など生成AI技術5つを解説（生成AIウィークリー） | テクノエッジ TechnoEdge

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。この1週間の気になる生成AI 技術をピックアップして解説する「生成AIウィークリー」（第55回）では、1枚の完成したイラスト絵を入力に、そのイラストの制作過程のタイムラプス動画を生成する「PaintsUndo」や、画像とテキストをペアにした1コマを入力に、続きの物語を生成する「SEED-Story」などを取り上げます。生成AI論文ピックアップ 1枚の画像から3Dキャラクターを1分で生成するモデル「CharacterGen」音声と静止画の顔を入力に、話している動画を生成するAI「EchoMimic」漫画の1コマを入力に、続きのコマを作り出す物語生成AI「SEED-Story」 3次元データを活用した新しい画像マッチング技術「MASt3R」イラス

shion214 2024/07/18

リンク

万能系Artifacts登場。「Poe Previews」ならGeminiもGPT-4もClaudeもAI共同開発者にできる（CloseBox） | テクノエッジ TechnoEdge

このところプログラミングの楽しみを覚えて毎日Claude ArtifactsとChatGPT Artifactsで遊んでいる筆者ですが、またまた新しいツールに出会ってしまいました。それは、PoeのPreviewsという新機能。 Poeは、ChatGPT、Claude、Gemini、Mistralといった複数の最新LLM（大規模言語モデル）を呼び出して対話ができる総合窓口的AIエージェントサービスです。AIアグリゲーターという人もいます。似たようなサービスに、先ごろソフトバンクが利用者に1年間無料で提供し始めたPerplexityがありますね。個別のLLMと契約をしなくても、Poeと月額契約（3000円から）を結ぶと、それぞれの最新モデルが使えるというメリットもあります。そんなPoeが投入したPreviewsは、Claude 3.5 Sonnetで使えるようになったプログラミングコンパ

shion214 2024/07/10

リンク

ChatGPT Artifactsができた？　GPT-4oでもClaudeみたいな楽しいプロンプト開発ができるのだ（CloseBox） | テクノエッジ TechnoEdge

この問題を解決するにはどうしたら良いか？　ChatGPTにもGeminiにも毎月お布施をしているし、彼らも同レベルの機能を持っているのだから、Claudeの休眠期間中はそっちを使えばいいのではないか。そう考えていたところ、良い助け舟が。 ChatGPTにArtifacts機能を追加しますよ、というソフトの開発者からメンションが飛んできました。このソフトはGitHubで公開されているので、普段使っているM1 iMacにインストールしてみました。git cloneしてNode.jsをインストールしてという、自分にとってはなかなかハードルの高いインストール方法でしたがなんとか動くようになりました。使うにはOpenAIのAPI Keyが必要です。つまりChatGPT-Artifactsという名前ではありますが、実際はAPIで呼び出しているわけです。ChatGPTっぽいプロンプト操作でGPT-

shion214 2024/07/09

リンク

Soraレベルの超高性能動画生成Luma AI「Dream Machine」が2枚の元絵指定できる「キーフレーム」機能追加。弱点の「別人化問題」がこれで解消するか、試してみた（CloseBox） | テクノエッジ TechnoEdge

現時点で一般に使える最高レベル動画生成AI、Luma AIの「Dream Machine」に新しい機能「Keyframes」が投入されました。プロンプトでの指定以外に、2枚の参照画像を入力し、それを始点と終点にできる、ある意味モーフィング的な機能です。 Dream Machineは高性能ではあるのですが、学習データが欧米に偏っているためか、日本人の画像を元にしても途中で欧米人に変身しがちという問題がありました。このため、欧米化する直前のところまでしか使えず、5秒間やそれをExtendした10秒といった長尺の動画は絵に描いた餅状態でした。こうした「別人化」「欧米化」問題がこれで解消するか、実際に検証してみました。 ■2枚の銀塩写真から動画を作る同じときに撮影したこの2枚の写真をキーフレームの始点と終点にします。最初の画像を入力すると、End Frameの入力が可能になります。（▲最初の画

shion214 2024/07/03

リンク

生成AIグラビアをグラビアカメラマンが作るとどうなる？第27回：SD3 Mediumリリース！Part2(西川和久) | テクノエッジ TechnoEdge

現役グラビアカメラマンでありエンジニアでもある西川和久氏による生成AIグラビア連載の第27回は、前回に続いて最新の画像生成AIモデル Stable Diffusion 3 Medium について。『生成AIグラビアをグラビアカメラマンが作るとどうなる？連載』記事一覧』前回に引き続きStable Diffusion 3 Mediumの話連載第26回にSD3 Medium(以降SD3 Medium)の話を書いたが、今回はその続きとなる。前回の記事ではSD3 Mediumの特徴として Baseモデルなのに高画質。そして日本人含むアジア系もOK 商用利用不可。個人レベルでの商用利用は、クリエイターライセンス($20/月)を契約結構な頻度で致命的な問題が発生する Promptで左右など、位置関係が指示でき再現可能。文字もOK(英語のみ) 生成環境は現状でComfyUI(系)のみ。基本Work

shion214 2024/07/03

リンク

AI生成の動画を“5倍以上長く”する拡張モデル「ExVideo」、無音動画に“それっぽい音”を挿入できる「FoleyCrafter」など生成AI技術5つを解説（生成AIウィークリー） | テクノエッジ TechnoEdge

Googleがオープンな言語モデル「Gemma 2」を開発者向けに公開しました。90億パラメータと270億パラメータの2サイズを提供しています。さて、この1週間の気になる生成AI 技術をピックアップして解説する「生成AIウィークリー」（第53回）では、生成する動画時間の延長や無音ビデオに適した音を生成するなど動画AIに関する内容が盛りだくさんです。生成AI論文ピックアップ既存のAIが生成する動画の時間を長くするモデル「ExVideo」、Stable Video Diffusion生成動画を5倍以上の長さに拡張言語より視覚に重きを置く、オープンなマルチモーダル大規模言語モデル「Cambrian-1」はGPT-4VやGemini Proと同等レベルイベントカメラを使用するAIビデオ超解像技術「EvTexture」、特にテクスチャ領域で画質向上長い動画を理解できるオープンソースなAIモ

shion214 2024/07/02

リンク

ドラムマシン、シンセ、サンプラーがわずか数分で完成。非プログラマーなのにClaude + Artifactsのプロンプト開発が楽しすぎて限度超える（CloseBox） | テクノエッジ TechnoEdge

ノンプログラマーな自分が、大規模言語モデル（LLM）の助力で、初めてまともに動くプログラムを完成させることができました。

shion214 2024/07/01

リンク

直感的コントロールも予告した話題の高性能動画AI、Luma AI「Dream Machine」、10秒以上の動画生成が可能になったので試してみた（CloseBox） | テクノエッジ TechnoEdge

SoraやKLINGレベルの「今使える高性能動画生成AIサービス」として登場したLuma AIの「Dream Machine」が機能追加のアップデートを果たしました。従来の5秒からのExtend（延長）が可能になりました。過去にDream Machineで作った動画も含め、10秒以上のAI動画を生成できることになります。一方、動画生成AIでは老舗のRunwayも、高性能新世代モデル「Gen-3 Alpha」の投入を予告するなど、これから激しい競争になることが予想されます。筆者はStandardプラン（月120回）を使い切ったので、Proプランに切り替えました。Standardプラン以上では、商用利用とウォーターマークの消去も可能です。無料プランは現在、1日生成回数が5回までに制限されています。（▲Luma Dream Machineの月額プラン）

shion214 2024/06/19

リンク

生成AIグラビアをグラビアカメラマンが作るとどうなる？第26回：ローカルで使えるSD3 Mediumリリース！実力を試す(西川和久) | テクノエッジ TechnoEdge

API形式の利用だと、コストがかさむのはもちろん、Promptや生成した画像を調べ肌色過多の場合は表示できないという、グラビアを扱う筆者にとって致命的な問題がある(笑)。 SD3 Mediumがリリースされたことで、ようやくSD 1.5やSDXL同様、普通にローカルPCで生成可能になった！ただし、商用利用不可。個人レベルでの商用利用は、クリエイターライセンス($20/月)を契約しなければならない。なお普通に肌の露出が多い程度はOKだが、いわゆるNSFWな肌色過多は出せない様、意図的にコントロールされている。またこの影響で、ある意味致命的な問題も発生する。この辺りの話は次回にしたいと思う。 SD3 MediumのMediumとは、2B(20億)パラメータでの構成という意味となる。対してAPI版はLargeと呼ばれ8B(80億)パラメータで構成されている。従って、全く同じ設定でも、解釈の度合

shion214 2024/06/19

リンク

もうSoraは不要なのか。動画生成AIの新基準、Luma AI「Dream Machine」をサブスクしてわかった「ハリー・ポッターに出てくるような魔法」の使いこなし術（CloseBox） | テクノエッジ TechnoEdge

このサービスの有償プランに申し込んで使って、少しプロンプトのコツが掴めたので、お伝えしたいと思います。ただ、自分が使った目的は映画などの映像制作ではなく、あくまでも静止画、それも人物を動かすことなのでご注意を。より具体的には、11年前に他界した妻の動く姿を見ることです。 ■フィルムカメラの写真を動かすまずやってみたのは、実際に撮った写真をDream Machineで動かすことです。使った写真は、1978年から1987年にかけてフィルムカメラで撮影したもの。子供が生まれてビデオカメラ（ビデオ8mm）を買ったのが1987年なので、それまでは動いている映像がほとんどなかったのです。例外として、学園祭の劇で主役を演じたものと、特捜最前線でエキストラをやったときのものは残っていますが。多くの人にとって、1980年代以前の、動きのある映像は残っていないと思います（8mmフィルム愛好家がいる家庭

shion214 2024/06/14

リンク

レゴ新製品アイデアに『アップルストア』、iMac G3やVision Proも再現。1万票獲得で商品化審査 | テクノエッジ TechnoEdge

ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 LEGOがファンからの新製品のアイデアを募集するデザイン提案サイト「LEGO IDEAS」に『アップルストア』が登場しました。ユーザーからの得票数が1万票を超えると、レゴ社が製品化を審査・検討します。 LEGO IDEASとは、LEGOのファンが独自に考えたデザインアイデアを提案し、他のファンたちからの投票によって製品化を検討するサービス。もともとは日本の「CUUSOO」と呼ばれるサービスとLEGOのコラボレーションによって始まった日本限定の企画で、過去には潜水調査船の「しんかい6500」や探査機の「はやぶさ」も商品化していました。 2014年にLEGO IDEASに名称を変更、現在は世界中のファンから製品

shion214 2024/05/29

リンク

“株”選びにGPT-4の利益予測は使えるのか？　“文学作品”を翻訳する複数AIが働く出版社「TransAgents」など重要論文5本を解説（生成AIウィークリー） | テクノエッジ TechnoEdge

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第48回目は、生成AI最新論文の概要5つを紹介します。生成AI論文ピックアップ “文学作品”を翻訳する、実際の出版社を真似たAI会社「TransAgents」任意のアスペクト比と高解像度の画像を効率的に認識できる大規模マルチモーダルモデル「LLaVA-UHD」 GPT-4は投資先選びに活用できるのか？　企業の財務諸表を分析し将来の利益を予測「Claude 3.0 Sonnet」が内部でどう考えているかをAnthropicが公開 LoRAより効率的な高いランクでファインチューニングする新しい手法「MoRA」 “文学作品”を翻訳する、実際の出版社を真似たAI会社「T

shion214 2024/05/28

リンク

AI作曲「Suno」新バージョンがWAV高音質化、最長4分の曲を一発でエンディングまで完成。無修正で良曲量産可能に（CloseBox） | テクノエッジ TechnoEdge

このところUdioやSonautoの新機能搭載で押され気味だったAI作曲サービスの「Suno」が反撃に出ました。バージョン3.5のEarly Access版（有料プランユーザーのみに提供）を利用すると、これまでの2分間制限が最長4分まで拡大。延長時間も従来の1分を2分に伸ばしています。これだけの長さがあれば大抵のポピュラー曲はエンディングまでいけます。 4分の曲をUdioで生成しようとすると、8回の命令が必要になります。さらに、生成に要する時間はUdioの方がはるかに長くかかるので、全体としての作業時間には大きな差が生じます。それがSuno 3.5ならば数秒でできてしまうのです。また、Style of Musicのキーワードがサジェストされるようになっていて便利です。文字数制限は相変わらずきついですけど。さらにうれしいのは、日本語歌詞の読み方が、従来は間違いが多かったのが、ほぼ問題な

shion214 2024/05/26

リンク

Windows PC画面を常時記録・AIで全検索できる『Recall』(回顧)機能、マイクロソフトが発表。『Copilot+ PC』向け | テクノエッジ TechnoEdge

Recallは、かつてWindows 10に搭載されていた『タイムライン』の拡張版といった機能。アクティブな画面のスナップショットを数秒ごとに常時取得し、スライダーで遡ったり、Copilotを通じて内容を検索できる機能です。記録したスナップショットはCopilot によるAI検索が可能。たとえば数日前にWEBで検索して見たページが思い出せないような場合、覚えている要素、たとえば「赤い車」や「白いスニーカー」などと検索すると、撮影されたスナップショットの中から該当するものを見つけてくれます。単に過去の画像を表示するだけではなく、その時に使用していたアプリを開くこともできるようになるとのことです。 (▲画像：Recall機能のデモ。スライダーで過去に遡って画面を見られる) スナップショットはPCのローカルストレージ内に保存し、デバイス上の暗号化とBitLockerで保護します。特定のユーザ

shion214 2024/05/22

リンク

Googleが“一歩先の未来を予知”できる時系列予測AI基盤モデル「TimeFM」公開、LSTMの進化形「xLSTM」など重要論文5本を解説（生成AIウィークリー） | テクノエッジ TechnoEdge

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第46回目は、生成AI最新論文の概要5つを紹介します。生成AI論文ピックアップ LSTMの進化形「xLSTM」登場。Transf ormerと同等かそれ以上の性能 Google、タンパク質を予測するモデル「AlphaFold 3」発表 Googleが“未来予知”する時系列予測AI基盤モデル「TimeFM」を開発。金融や気象、交通などの一歩先を予測 Llama3 70Bと同等の性能を示す、オープンソース大規模言語モデル「DeepSeek-V2」 IBM、コーディング専用AIモデル「Granite Code Models」を開発 LSTMの進化形「xLSTM」登場。Tra

shion214 2024/05/13

リンク

AIの新星ニューラルネットワーク「KAN」とは？　LLMが“カンニング”して評価を盛ってた？　など重要論文5本を解説（生成AIウィークリー） | テクノエッジ TechnoEdge

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第45回目は、生成AI最新論文の概要5つを紹介します。生成AI論文ピックアップ高精度なニューラルネットワーク・アーキテクチャ「KAN」をMITなどの研究者らが開発 1手先のトークン予測ではなく、4手先のトークンを同時に予測するモデルをMetaなどが開発医療分野に特化したマルチモーダル大規模言語モデル「Med-Gemini」をGoogleが開発大規模言語モデルが答えに相当するベンチマークを事前に学習し、高い評価を出していた？　AIカンニング問題を指摘した研究一貫性の高い長編ビデオをテキストから生成するAIモデル「StoryDiffusion」高精度なニューラ

shion214 2024/05/07

リンク

自分の声のまま多言語な声に変換できる商用利用可能な音声クローンAI「OpenVoice V2」、AppleとMicrosoftがスマホ上でも動く生成AIを発表など重要論文5本を解説（生成AIウィークリー） | テクノエッジ TechnoEdge

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第44回目は、生成AI最新論文の概要5つを紹介します。生成AI論文ピックアップマイクロソフトがスマホ上でローカル実行可能な小規模言語モデル「Phi-3」を発表アップル、iPhone上でも動作可能な大規模言語モデル「OpenELM」をオープンソースで発表 OpenAI、大規模言語モデルへの攻撃を防ぐ手法「The Instruction Hierarchy」を発表あらゆる音声を複製し、多言語でさまざまな内容を話させるAIモデル「OpenVoice V2」。日本語対応、無料で商用利用可能なオープンソース Web上の大量画像とテキストを使って、高速かつ高精度に画像認識

shion214 2024/05/02

リンク

povoが楽天モバイルと全面対決、データ使い放題が月3278円　「300GB（90日間）」も (石野純也) | テクノエッジ TechnoEdge

慶應義塾大学卒業後、新卒で出版社の宝島社に入社。独立後はケータイジャーナリスト/ライターとして幅広い媒体で執筆、コメントなどを行う。ケータイ業界が主な取材テーマ。 KDDIが povo 2.0の新たなトッピングを導入しました。1つ目が「データ使い放題（7日間）12回分」。もう1つが「300GB（90日間）」というトッピングです。通常、この手のトッピングは期間限定としてイベントや大型連休などに合わせて提供されることが多い印象で、今回の2つのトッピングも一応は、期間が区切られるもののようです。ただし、どちらも終了時期は未定となっており、かなり通常トッピングに近い位置づけと言えそうです。 povo2.0に、“楽天モバイル対抗”と呼べそうな2つのトッピングが登場した　2つのトッピングの金額を見ていくと、“楽天モバイル対抗”の色合いが非常に濃いことが分かります。まず、データ使い放題ですが、こち