タグ

ブックマーク / note.com/shi3zblog (22)

  • VisionProは結局「買い」なのか?|shi3z

    いよいよVisionProの日発売が間近に迫ってきている。 日発売に合わせて新しいアプリが次々発表されている。 特に注目しているのは日経空間版 これは色々なアーティストを超高精細なVR撮影とCGを組み合わせた全く新しいエンターテインメントコンテンツだ。 これで見るとアーティストがほぼ目の前に「居る」という感覚がすごい。 ある意味で物のコンサート以上に臨場感がある。 Oculus版もあるので比べてみたのだがOculus3と同じコンテンツを見てもリアリティが全然違う。 また、Gucciのアプリもすごい https://www.inc.com/jason-aten/gucci-made-an-app-for-apple-vision-pro-its-best-ive-seen-yet.html VRというよりも、新しいプレゼンテーションの方法というのがしっくりくる。 こないだリンクマンとS

    VisionProは結局「買い」なのか?|shi3z
  • 真・ラクガキや写真からいい感じのアニメタッチの絵を生成する852話さんのモデルを試すComfyUIワークフロー|shi3z

    852話さんが毎日のように新しい研究成果をTwitter(X)にアップしてるので僕も試してたくなり挑戦してみた。 特に最近はラクガキから絵を作るControlNetをやっているらしい。 しかし、これ、ダウンロードすれば誰でも使えるというわけではなかったので色々試行錯誤した過程を記すことにした。うまくハマればすごいツールになるはずだが、ピーキーなところもあるので注意されたし。 今回は852話さんのscribble_xlのnormal、hard、veryhardと、AnimagineXLを使った。852話さんのモデルはmodels/controlnetフォルダに、AnimagineXLはcheckpointフォルダにそれぞれ格納すること。 このプラグインを入れるには、ComfyUI ManagerをインストールしたComfyUIで、Managerをクリック 一番下から二番目がManagerする

    真・ラクガキや写真からいい感じのアニメタッチの絵を生成する852話さんのモデルを試すComfyUIワークフロー|shi3z
  • 噂のノーコードAIシステム開発環境Difyを使ってツールを作ってみた。使った感想|shi3z

    最近にわかに話題のLLMツール「Dify」を僕も使ってみた。 いいところと「?」となったところがあったので纏めておく Difyとは、GUIでワークフローを組むことができるLLM-OPSツールだ。 ComfyUIのようにワークフローが組めたり、GPTsのように自分専用のアシスタントを作れたりできる。 特に、OpenAIのGPTシリーズとAnthropicのClaude-3、そしてCohereのCommand-R+なんかを組み合わせて色々できるところは良いところだと思う。また、ローカルLLMにも対応しているので、企業内でのチャットボットを作るんだったらGPTsよりこっちの方がいいだろう。 元々色々なテンプレートが用意されているが、テンプレだけ使うとGPTsっぽいものを作れる(それだってすごいことだが)。テンプレを改造するだけでも欲しいものが作れる人はいるし、ここはノーコード環境と言える テンプ

    噂のノーコードAIシステム開発環境Difyを使ってツールを作ってみた。使った感想|shi3z
  • AI時代に起業するということ|shi3z

    生成AI以前と以後で、会社のあり方は決定的に変化していくのだと思う。 たとえば、昨日はとある会議で、「この(AI)サービスの原価はいくらか」という議論が沸き起こった。 AIサービスなのだから、AIの利用料くらいしかかからないかというとそうでもない。実際、AIを動かすためにはAIそのものにかかるお金以外の人件費がかかる。誰かに売る人の人件費や、システム開発のための人件費や、サポートのための人件費だ。ただ、AIサービスの場合、人件費を極限まで最小化することができる、という点が決定的に違う。 また「AIの利用料」も、「APIの利用料」なのか、ベアメタルサーバーの月額利用料なのか、それとも自社に持っているGPUマシンの電気代なのか、という議論のポイントがある。 あまり多くの人は語らないことだが、実は起業には再現性がある。 つまり、一度でも事業をうまく立ち上げたことがある経験を持つ人は、次も事業をう

    AI時代に起業するということ|shi3z
  • Command-R+の衝撃! 100Bモデルで本当にこんなことできんの!?ダウンロードしてローカルで実行可能|shi3z

    Command-R+の衝撃! 100Bモデルで当にこんなことできんの!?ダウンロードしてローカルで実行可能 Transformerの発明者らが起業したCohereAIがとんでもないモデルを出してきた。この業界では毎週のように「えーー!」ということが起きるのだが、その中でも年に1,2回起きる「えーーーっ」が起きたのでブログでも紹介しておきたい。 Command-R+(おそらくコマンダープラスと読むのが正しい)というモデルは、わずか100Bで、GPT-4,Claude-3並と言われるモデルだ。しかし、それを主張するだけのモデルなど腐るほどある。だが、実際に触ってみると期待外れということが多かった。 ところがCommand-R+は、その性能は桁違いである。というか、もはや僕という人間如きがちょっと触ったくらいでは「GPT-4よりいいね」とか「ここら辺甘いね」とか判断がつかなくなってきてる。しか

    Command-R+の衝撃! 100Bモデルで本当にこんなことできんの!?ダウンロードしてローカルで実行可能|shi3z
  • Claude-3でアニメーション書かせてみた!AIアニメ新時代|shi3z

    学校の先生の皆さんに朗報です。 もうアニメーションをパワポで頑張って作る必要はないかもしれません。 まあ別のことを頑張らなければなりませんが。 Claude-3は、Pythonでアニメーションを生成するプログラムを生成できます。 「こんな感じのアニメーションを作るPythonコードを書け」と言えば作ってくれます。 まず百聞は一見にしかず。こちらをご覧あれ これはニューラルネットの基中の基である「三層パーセプトロン」の動作をアニメーション化したものです。これは便利。今までKeynoteとかのアニメーション機能を駆使して作っていたのですが、できることとできないことがあり、どうしても妥協するしかありませんでした。 このアニメーションのように、パーセプトロンの上をどのように信号が流れていくかを可視化するのは専用のプログラムを書かなくてはならず、非常に面倒でした。仕事でなければやってらんねえ。

    Claude-3でアニメーション書かせてみた!AIアニメ新時代|shi3z
  • 驚異の1ビットLLMを試す。果たして本当に学習できるのか?|shi3z

    昨日話題になった「BitNet」という1ビットで推論するLLMがどうしても試したくなったので早速試してみた。 BitNetというのは、1ビット(-1,0,1の三状態を持つ)まで情報を削ぎ落とすことで高速に推論するというアルゴリズム。だから正確には0か1かではなく、-1か0か1ということ。 この手法の行き着くところは、GPUが不要になり新しいハードウェアが出現する世界であると予言されている。マジかよ。 https://arxiv.org/pdf/2402.17764.pdf ということで早速試してみることにした。 オフィシャルの実装は公開されていないが、そもそも1ビット(と言っていいのかわからない,-1,0,1の三状態を持つからだ。 論文著者はlog2(3)で1.58ビットという主張をしている)量子化のアルゴリズム自体の研究の歴史は古いので、BitNetによるTransformerの野良実装

    驚異の1ビットLLMを試す。果たして本当に学習できるのか?|shi3z
  • VisionPro大集合 ようやくわかりかけてきた使い方|shi3z

    VisionPro、やっぱり最高だ。部分的に もう一個くらい欲しいかもしんない。 昨日は長岡に出張してを自動執筆するサンプルコードを例に取りながらコードリーディング、つまり「コードを読む」ことを目的として講義した。 新幹線の中でMacBookAir(M1)を開き、VisionProと接続した瞬間、俺は泣いた。いや、泣いてないけど。心で泣いた。 Macの画面が空中に飛び出してくるやってみないとこの便利さはわからないだろうが、衝撃的に便利なのである。 今まで、新幹線で、飛行機で、幾度もPCを開いては変な姿勢で目を凝らすということを強いられてきた。 ところが、もうVisionProのある世界ではそんな悩みとは無縁だ。 好きなところ、好きな空間に好きな大きさでディスプレイを配置できるのである。 考えようによっては、自室よりも自由度が高い。 しかも、YouTubeを流しながらプログラミングする、な

    VisionPro大集合 ようやくわかりかけてきた使い方|shi3z
  • ごめんVisionPro誤解してた (๑˃̵ᴗ˂̵)|shi3z

    朝起きて、「うーんまだ布団から出たくないな」と思ったとき、おもむろにVisionProを被ってみた。 暗い部屋では認識が格段に悪くなるが、なぜPSVRではこういう使い方をしなかったのかわかった。後頭部だ。 PSVRは後頭部にゴツい部品があって、それで寝ながらVRを見るということが少し難しくなってる。VisionProの標準のバンドはこういうときにちょうどいい。 VisionProでTerminalを動かして、継之助の様子を見る。今日も元気に学習しているようだ。 昨日寝落ちした Amazon Primeの「沈黙の艦隊」第五話と六話を見る。音がいい。空間オーディオに対する長年の研究が結実してる感じ。しかもすごくいい音なのだ。 昨日、路上で歩きながら使ってみた(技適の特例申請には移動経路を申告済み)。路上で使うと思わぬ欠点というか盲点にぶちあたる。ウィンドウがついてこないのだ。 他のHMDと違い

    ごめんVisionPro誤解してた (๑˃̵ᴗ˂̵)|shi3z
  • Apple Vision ProはHoloLensの完成形。現時点での限界値|shi3z

    昔は海外の電波を発する新製品は国内で使用できなかったが、今は総務省の技適の特例制度を利用することでいち早く試すことができる。 「海外法令」云々のところで多少つまづいたが、これはFCC IDを検索すれば解決した。 https://fccid.io/BCGA2117 VisionProのFCC IDはBCGA2117だった。 これで準備完了。 吾輩は、かつては1990年代にキヤノンのMR(混合現実感)システムや理化学研究所のSR(代替現実感)システムを試し、大学院の履修生をやっていた頃はVR特講を受講し、学生対抗国際VR(人工現実感)コンテストに参加したこともある。htc Viveでいくつかのデモを作り(ほとんどは非公開)、Oculusもほとんど持ってるくらいはHMD好きである。片目リトラクタブルHMDで自転車の走行を支援するシステムのデモも2008年頃に作った。 2017年には機械学習したM

    Apple Vision ProはHoloLensの完成形。現時点での限界値|shi3z
  • Copilot Studioを使ってみた。注意点と実際にかかるお金の話など|shi3z

    Copilot StudioはMicrosoft 365 E5というお高いパッケージに入らないとプレビュー版すら使えないらしい。 仕方ないので会社で入りましたよ。会社に所属してるのは3人だけど、E5だと25人分のアカウントがついてくる。 しかし!!! 金さえ払えば使えるというほどイージーなものではなかったので皆さんにお伝えします。ちなみにE5に入っただけで月額45000円(1800円x25で)になりました(ただし七日間の試用期間中にキャンセルすれば無料に)。 まずMicrosoft365で企業アカウントを作り、会社のメンバー的な人に個人アカウントを発行します(この時点でかなりハードルが高い)。 そしてCopilot Studioのページからリンクに飛べば、企業の個人アカウントでログインできた。やったぜ! しかしログインしても、様子がおかしい。 なんかフローチャートが出てきて、フローチャート

    Copilot Studioを使ってみた。注意点と実際にかかるお金の話など|shi3z
  • OpenInterpreter / ついにAIがガチのアシスタントに!これは凄い、というか凄すぎる|shi3z

    凄いものが出てきてしまった。 ChatGPTの「Code Interpreter」が話題になったが、あれはあくまでクラウド上で動いているだけ。それを模してローカルで動作するようになった「Open Interpreter」は、衝撃的な成果である。 Open Interpreterのインストールは簡単。コマンド一発だ $ pip install open-interpreter起動も簡単 $ interpreter -yこれだけでOK。 あとはなんでもやってくれる。 たとえばどんなことができるのかというと、「AppleとMetaの株価の推移をグラフ化してくれ」と言うとネットから自動的に情報をとってきてPythonコード書いてグラフをプロットしてくれる。 凄いのは、ローカルで動くのでたとえばApplescriptを使ってmacOSで動いているアプリを直接起動したり操作したりできる。「Keynot

    OpenInterpreter / ついにAIがガチのアシスタントに!これは凄い、というか凄すぎる|shi3z
  • これぞ10万トークン!Anthropicの最新LLM「Claude2」を早速試す!|shi3z

    持つべきものはアメリカ在住の友達! OpenAIを抜けた人たちが作ったAnthropic社が、ChatGPTに対抗しうる強力なAIをリリースした Anthropicの最新LLMであるClaude2は、ベンチマークでGPT-3以上GPT-4未満と言われている。しかしその特徴は、10万トークンという長大なトークンを扱えると主張されていることにある。 ちなみに大規模言語モデルでトークン数を沢山扱えるという主張には注意すべきという意見もあるのでご注意。 I'm calling the Myth of Context Length: Don't get too excited by claims of 1M or even 1B context tokens. You know what, LSTMs already achieve infinite context length 25 yrs ag

    これぞ10万トークン!Anthropicの最新LLM「Claude2」を早速試す!|shi3z
  • VisionOSでプログラミングをほんのちょっとだけ触ってみて思ったこと|shi3z

    VisionOSのSDKが公開されたので出先でダウンロードして早速試してみた。エミュレータはそれだけで楽しい。VisionOSでどんなことができるか想像しやすい。どんなイメージビデオよりも説得力があり、肌触りがある。 VisonOSのSDKはMacApple IDがあれば誰でも無料でダウンロードできる。たぶん。僕は何年も個人アカウントのApple Developer Promgramへの支払いをしてない。 UnityでVisionOSを触る前にSwiftでVisionOSを触ってみる。 触ってみてわかったのは、全く絶望的なくらい、「空間大のiPad」でしかないということ。 プログラミングモデル的にはこれまでiOSアプリを作ってきた人にとってはかなりとっつきやすいだろう。例えば平面的なアプリなら、ほとんどそのまま動きそうである。 反面、例えばお絵描きアプリみたいなのが標準で入っているが、お

    VisionOSでプログラミングをほんのちょっとだけ触ってみて思ったこと|shi3z
  • ファインチューニングなしで好きな画像が出せるFastComposer|shi3z

    8時間前、MITのハン研究室からFastComposerが発表された。 一枚だけ画像を用意するだけで特定の人物を登場させたり、複数人数を出すこともできる。 映画ファンの男性と俺めちゃめちゃ簡単な上、めちゃめちゃ処理が速く、めちゃめちゃ面白いのでMemeplexにも入れようか考え中。 GPUある人は↓から

    ファインチューニングなしで好きな画像が出せるFastComposer|shi3z
  • alpaca_cleanedを日本語化して公開しました|shi3z

    こっちのほうがデータが整理されているという話です

    alpaca_cleanedを日本語化して公開しました|shi3z
  • 完全フリーで3GBのVRAMでも超高速に動く14B大規模言語モデルRWKVを試す|shi3z

    Transformerは分散できる代償として計算量が爆発的に多いという不利がある。 一度みんなが忘れていたリカレントニューラルネットワーク(RNN)もボケーっとしている場合ではなかった。 なんと、GPT3並の性能を持つ、しかも完全にオープンな大規模言語モデルが公開されていた。 そのなもRWKV(RuwaKuvと発音しろと書いてある。ルワクフ?) RWKVはRNNなのでGPUメモリをそれほど大量に必要としない。 3GBのVRAMでも動くという。 時間がない方はビデオをご覧ください 僕の失敗は、何も考えずにgit lfs installでディレクトリごとコピーしようとしたこと。 このディレクトリには過去のモデルデータが全部あるので、ひとつ30GBのモデルデータを何十個もダウンロードしようとしていて終わらなかったのだ。 モデルデータは一とつあれば十分なのでひとつだけにする。 次に、chatのリポ

    完全フリーで3GBのVRAMでも超高速に動く14B大規模言語モデルRWKVを試す|shi3z
  • ChatGPT(GPT4)に漫画を直接描かせてみる|shi3z

    どわ~!GPT-4汎用知能論文でGPT-4からSVG漫画一発出しする例!!ちゃんとコマ割ってフキダシ書いて台詞書いてる!!これにStable Diffusionを接続したらどうなるか考えよう pic.twitter.com/1H1Ggzr0WK — うみゆき@AI研究 (@umiyuki_ai) March 23, 2023 SVG!そういうのもあるのか 早速GPT4でやってみた。でも僕のChatGPTのGPT4はまだ8Kトークンまでしか対応してなさそうなのでへぼいのご愛嬌 女の子がお化けと出会って仲良くなるグラフィックノベルをSVGで1ページ分書いて下さい。お化けの名前は「五反田」で、語尾に「ごた」と言います 漫画を出力してもらうプロンプトすると、まずは漫画の内容っぽいのが出てくる SVG形式で書くことはできませんが、シーンと対話のアイデアを提供することができます。以下にグラフィックノ

    ChatGPT(GPT4)に漫画を直接描かせてみる|shi3z
  • GPT-4 APIがやってきた!3.5と"性能"を比較する|shi3z

    Waiting Listにもっと時間がかかるかと思ったのだが、予想外に早く(一日)APIのロックが解除された。ただしまずは8Kトークン版のみ。 GPT-3.5が4Kトークンだったから倍の長さのストーリーが出せるということだ。 ただし値段はChatGPT APIの10倍。元に戻った感じ。 これはどっちを使うべきか結構悩むぞ。 こんな感じで呼ぶ % curl https://api.openai.com/v1/chat/completions \ -H 'Content-Type: application/json' \ -H 'Authorization: Bearer APIKEY'\ -d '{ "model": "gpt-4", "messages": [{"role": "user", "content": "宮崎駿について"}], "temperature": 0.7 }'答えはこ

    GPT-4 APIがやってきた!3.5と"性能"を比較する|shi3z
  • GPT-4使ってみた|shi3z

    意外とあっさり公開されたGPT-4。 ChatGPT Plus(月額20ドル)に課金すると使えるらしいので早速使ってみた。 動画は以下 動画を聞き流しながら文を読むのを推奨します まず物語を考えさせてみる。 プロンプト Aという主人公がなんらかの出来事を経験して、自分の能力を使ってA’という状態になった  というのが物語である UberEats配達員を主人公とした物語のあらすじをひとつ考えてみてください これに対する回答 物語のタイトル: 『配達の軌跡:A'への変容』 あらすじ: Aは、ごく普通のUberEats配達員として日々働いていた。ある日、彼が配達をしている途中で、謎の小包が彼のバッグに入っていることに気付く。好奇心に駆られたAは、その小包を開けてしまう。中から現れたのは、謎の古びた護符だった。 その護符を手にした瞬間、Aは突如として特別な能力を手に入れる。彼は時間を操作できるよ

    GPT-4使ってみた|shi3z