shirotorabyakkoのブックマーク - はてなブックマーク

これはもう実質AGIでは? AIが勝手にブラウザを操作していろいろやってくれちゃう BrowserUseが爆誕｜shi3z

今日もいつものようにシラスでデイリーAIニュースを配信していると、とんでもないものにでくわした。もうタイトルに書いてあるけど、AIが勝手にブラウザを操作して色々やってくれてしまう、その名もBrowserUseだ。インストールは超簡単。 macなら以下の二行だけだ。 $ pip install browser-use $ playwright install使うのも超簡単だが、コマンドラインに落ちるのが怖い人々には簡単に見えないかもしれない。環境変数のOPENAI_API_KEYとかにAPIキーを入れておくこと。 $ python >>> from langchain_openai import ChatOpenAI >>> from browser_use import Agent INFO [browser_use] BrowserUse logging setup complete

shirotorabyakko 2024/12/24

AI

リンク

VisionProは結局「買い」なのか?｜shi3z

いよいよVisionProの日本発売が間近に迫ってきている。日本発売に合わせて新しいアプリが次々発表されている。特に注目しているのは日経空間版これは色々なアーティストを超高精細なVR撮影とCGを組み合わせた全く新しいエンターテインメントコンテンツだ。これで見るとアーティストがほぼ目の前に「居る」という感覚がすごい。ある意味で本物のコンサート以上に臨場感がある。 Oculus版もあるので比べてみたのだがOculus3と同じコンテンツを見てもリアリティが全然違う。また、Gucciのアプリもすごい https://www.inc.com/jason-aten/gucci-made-an-app-for-apple-vision-pro-its-best-ive-seen-yet.html VRというよりも、新しいプレゼンテーションの方法というのがしっくりくる。こないだリンクマンとS

shirotorabyakko 2024/06/27

リンク

真・ラクガキや写真からいい感じのアニメタッチの絵を生成する852話さんのモデルを試すComfyUIワークフロー｜shi3z

852話さんが毎日のように新しい研究成果をTwitter(X)にアップしてるので僕も試してたくなり挑戦してみた。特に最近はラクガキから絵を作るControlNetをやっているらしい。しかし、これ、ダウンロードすれば誰でも使えるというわけではなかったので色々試行錯誤した過程を記すことにした。うまくハマればすごいツールになるはずだが、ピーキーなところもあるので注意されたし。今回は852話さんのscribble_xlのnormal、hard、veryhardと、AnimagineXLを使った。852話さんのモデルはmodels/controlnetフォルダに、AnimagineXLはcheckpointフォルダにそれぞれ格納すること。このプラグインを入れるには、ComfyUI ManagerをインストールしたComfyUIで、Managerをクリック一番下から二番目がManagerする

shirotorabyakko 2024/05/29

AI

リンク

噂のノーコードAIシステム開発環境Difyを使ってツールを作ってみた。使った感想｜shi3z

最近にわかに話題のLLMツール「Dify」を僕も使ってみた。いいところと「?」となったところがあったので纏めておく Difyとは、GUIでワークフローを組むことができるLLM-OPSツールだ。 ComfyUIのようにワークフローが組めたり、GPTsのように自分専用のアシスタントを作れたりできる。特に、OpenAIのGPTシリーズとAnthropicのClaude-3、そしてCohereのCommand-R+なんかを組み合わせて色々できるところは良いところだと思う。また、ローカルLLMにも対応しているので、企業内でのチャットボットを作るんだったらGPTsよりこっちの方がいいだろう。元々色々なテンプレートが用意されているが、テンプレだけ使うとGPTsっぽいものを作れる(それだってすごいことだが)。テンプレを改造するだけでも欲しいものが作れる人はいるし、ここはノーコード環境と言えるテンプ

shirotorabyakko 2024/05/08

リンク

AI時代に起業するということ｜shi3z

生成AI以前と以後で、会社のあり方は決定的に変化していくのだと思う。たとえば、昨日はとある会議で、「この(AI)サービスの原価はいくらか」という議論が沸き起こった。 AIサービスなのだから、AIの利用料くらいしかかからないかというとそうでもない。実際、AIを動かすためにはAIそのものにかかるお金以外の人件費がかかる。誰かに売る人の人件費や、システム開発のための人件費や、サポートのための人件費だ。ただ、AIサービスの場合、人件費を極限まで最小化することができる、という点が決定的に違う。また「AIの利用料」も、「APIの利用料」なのか、ベアメタルサーバーの月額利用料なのか、それとも自社に持っているGPUマシンの電気代なのか、という議論のポイントがある。あまり多くの人は語らないことだが、実は起業には再現性がある。つまり、一度でも事業をうまく立ち上げたことがある経験を持つ人は、次も事業をう

shirotorabyakko 2024/04/10

AI

リンク

Command-R+の衝撃! 100Bモデルで本当にこんなことできんの!?ダウンロードしてローカルで実行可能｜shi3z

Command-R+の衝撃! 100Bモデルで本当にこんなことできんの!?ダウンロードしてローカルで実行可能 Transf ormerの発明者らが起業したCohereAIがとんでもないモデルを出してきた。この業界では毎週のように「えーー!」ということが起きるのだが、その中でも年に1,2回起きる「えーーーっ」が起きたのでブログでも紹介しておきたい。 Command-R+(おそらくコマンダープラスと読むのが正しい)というモデルは、わずか100Bで、GPT-4,Claude-3並と言われるモデルだ。しかし、それを主張するだけのモデルなど腐るほどある。だが、実際に触ってみると期待外れということが多かった。ところがCommand-R+は、その性能は桁違いである。というか、もはや僕という人間如きがちょっと触ったくらいでは「GPT-4よりいいね」とか「ここら辺甘いね」とか判断がつかなくなってきてる。しか

shirotorabyakko 2024/04/08

AI
LLM

リンク

Claude-3でアニメーション書かせてみた!AIアニメ新時代｜shi3z

学校の先生の皆さんに朗報です。もうアニメーションをパワポで頑張って作る必要はないかもしれません。まあ別のことを頑張らなければなりませんが。 Claude-3は、Pythonでアニメーションを生成するプログラムを生成できます。「こんな感じのアニメーションを作るPythonコードを書け」と言えば作ってくれます。まず百聞は一見にしかず。こちらをご覧あれこれはニューラルネットの基本中の基本である「三層パーセプトロン」の動作をアニメーション化したものです。これは便利。今までKeynoteとかのアニメーション機能を駆使して作っていたのですが、できることとできないことがあり、どうしても妥協するしかありませんでした。このアニメーションのように、パーセプトロンの上をどのように信号が流れていくかを可視化するのは専用のプログラムを書かなくてはならず、非常に面倒でした。仕事でなければやってらんねえ。

shirotorabyakko 2024/03/12

AI
Claude

リンク

驚異の1ビットLLMを試す。果たして本当に学習できるのか?｜shi3z

昨日話題になった「Bit Net」という1ビットで推論するLLMがどうしても試したくなったので早速試してみた。 Bit Netというのは、1ビット(-1,0,1の三状態を持つ)まで情報を削ぎ落とすことで高速に推論するというアルゴリズム。だから正確には0か1かではなく、-1か0か1ということ。この手法の行き着くところは、GPUが不要になり新しいハードウェアが出現する世界であると予言されている。マジかよ。 https://arxiv.org/pdf/2402.17764.pdf ということで早速試してみることにした。オフィシャルの実装は公開されていないが、そもそも1ビット(と言っていいのかわからない,-1,0,1の三状態を持つからだ。論文著者はlog2(3)で1.58ビットという主張をしている)量子化のアルゴリズム自体の研究の歴史は古いので、Bit NetによるTransf ormerの野良実装

shirotorabyakko 2024/02/29

リンク

VisionPro大集合ようやくわかりかけてきた使い方｜shi3z

VisionPro、やっぱり最高だ。部分的にもう一個くらい欲しいかもしんない。昨日は長岡に出張して本を自動執筆するサンプルコードを例に取りながらコードリーディング、つまり「コードを読む」ことを目的として講義した。新幹線の中でMacBook Air(M1)を開き、VisionProと接続した瞬間、俺は泣いた。いや、泣いてないけど。心で泣いた。 Macの画面が空中に飛び出してくるやってみないとこの便利さはわからないだろうが、衝撃的に便利なのである。今まで、新幹線で、飛行機で、幾度もPCを開いては変な姿勢で目を凝らすということを強いられてきた。ところが、もうVisionProのある世界ではそんな悩みとは無縁だ。好きなところ、好きな空間に好きな大きさでディスプレイを配置できるのである。考えようによっては、自室よりも自由度が高い。しかも、YouTubeを流しながらプログラミングする、な

shirotorabyakko 2024/02/15

リンク

ごめんVisionPro誤解してた (๑˃̵ᴗ˂̵)｜shi3z

朝起きて、「うーんまだ布団から出たくないな」と思ったとき、おもむろにVisionProを被ってみた。暗い部屋では認識が格段に悪くなるが、なぜPSVRではこういう使い方をしなかったのかわかった。後頭部だ。 PSVRは後頭部にゴツい部品があって、それで寝ながらVRを見るということが少し難しくなってる。VisionProの標準のバンドはこういうときにちょうどいい。 VisionProでTerminalを動かして、継之助の様子を見る。今日も元気に学習しているようだ。昨日寝落ちした Amazon Primeの「沈黙の艦隊」第五話と六話を見る。音がいい。空間オーディオに対する長年の研究が結実してる感じ。しかもすごくいい音なのだ。昨日、路上で歩きながら使ってみた(技適の特例申請には移動経路を申告済み)。路上で使うと思わぬ欠点というか盲点にぶちあたる。ウィンドウがついてこないのだ。他のHMDと違い

shirotorabyakko 2024/02/11

リンク

Apple Vision ProはHoloLensの完成形。現時点での限界値｜shi3z

昔は海外の電波を発する新製品は国内で使用できなかったが、今は総務省の技適の特例制度を利用することでいち早く試すことができる。「海外法令」云々のところで多少つまづいたが、これはFCC IDを検索すれば解決した。 https://fccid.io/BCGA2117 VisionProのFCC IDはBCGA2117だった。これで準備完了。吾輩は、かつては1990年代にキヤノンのMR(混合現実感)システムや理化学研究所のSR(代替現実感)システムを試し、大学院の履修生をやっていた頃はVR特講を受講し、学生対抗国際VR(人工現実感)コンテストに参加したこともある。htc Viveでいくつかのデモを作り(ほとんどは非公開)、Oculusもほとんど持ってるくらいはHMD好きである。片目リトラクタブルHMDで自転車の走行を支援するシステムのデモも2008年頃に作った。 2017年には機械学習したM

shirotorabyakko 2024/02/08

リンク

Copilot Studioを使ってみた。注意点と実際にかかるお金の話など｜shi3z

Copilot StudioはMicrosoft 365 E5というお高いパッケージに入らないとプレビュー版すら使えないらしい。仕方ないので会社で入りましたよ。会社に所属してるのは3人だけど、E5だと25人分のアカウントがついてくる。しかし!!! 金さえ払えば使えるというほどイージーなものではなかったので皆さんにお伝えします。ちなみにE5に入っただけで月額45000円(1800円x25で)になりました(ただし七日間の試用期間中にキャンセルすれば無料に)。まずMicrosoft365で企業アカウントを作り、会社のメンバー的な人に個人アカウントを発行します(この時点でかなりハードルが高い)。そしてCopilot Studioのページからリンクに飛べば、企業の個人アカウントでログインできた。やったぜ! しかしログインしても、様子がおかしい。なんかフローチャートが出てきて、フローチャート

shirotorabyakko 2023/11/17

リンク

OpenInterpreter / ついにAIがガチのアシスタントに!これは凄い、というか凄すぎる｜shi3z

凄いものが出てきてしまった。 ChatGPTの「Code Interpreter」が話題になったが、あれはあくまでクラウド上で動いているだけ。それを模してローカルで動作するようになった「Open Interpreter」は、衝撃的な成果である。 Open Interpreterのインストールは簡単。コマンド一発だ $ pip install open-interpreter起動も簡単 $ interpreter -yこれだけでOK。あとはなんでもやってくれる。たとえばどんなことができるのかというと、「AppleとMetaの株価の推移をグラフ化してくれ」と言うとネットから自動的に情報をとってきてPythonコード書いてグラフをプロットしてくれる。凄いのは、ローカルで動くのでたとえばApplescriptを使ってmacOSで動いているアプリを直接起動したり操作したりできる。「Keynot

shirotorabyakko 2023/09/08

AI

リンク

これぞ10万トークン!Anthropicの最新LLM「Claude2」を早速試す!｜shi3z

持つべきものはアメリカ在住の友達! OpenAIを抜けた人たちが作ったAnthropic社が、ChatGPTに対抗しうる強力なAIをリリースした Anthropicの最新LLMであるClaude2は、ベンチマークでGPT-3以上GPT-4未満と言われている。しかしその特徴は、10万トークンという長大なトークンを扱えると主張されていることにある。ちなみに大規模言語モデルでトークン数を沢山扱えるという主張には注意すべきという意見もあるのでご注意。 I'm calling the Myth of Context Length: Don't get too excited by claims of 1M or even 1B context tokens. You know what, LSTMs already achieve infinite context length 25 yrs ag

shirotorabyakko 2023/07/14

LLM
AI

リンク

VisionOSでプログラミングをほんのちょっとだけ触ってみて思ったこと｜shi3z

VisionOSのSDKが公開されたので出先でダウンロードして早速試してみた。エミュレータはそれだけで楽しい。VisionOSでどんなことができるか想像しやすい。どんなイメージビデオよりも説得力があり、肌触りがある。 VisonOSのSDKはMacとApple IDがあれば誰でも無料でダウンロードできる。たぶん。僕は何年も個人アカウントのApple Developer Promgramへの支払いをしてない。 UnityでVisionOSを触る前にSwiftでVisionOSを触ってみる。触ってみてわかったのは、全く絶望的なくらい、「空間大のiPad」でしかないということ。プログラミングモデル的にはこれまでiOSアプリを作ってきた人にとってはかなりとっつきやすいだろう。例えば平面的なアプリなら、ほとんどそのまま動きそうである。反面、例えばお絵描きアプリみたいなのが標準で入っているが、お

shirotorabyakko 2023/06/24

リンク

ファインチューニングなしで好きな画像が出せるFastComposer｜shi3z

8時間前、MITのハン研究室からFastComposerが発表された。一枚だけ画像を用意するだけで特定の人物を登場させたり、複数人数を出すこともできる。映画ファンの男性と俺めちゃめちゃ簡単な上、めちゃめちゃ処理が速く、めちゃめちゃ面白いのでMemeplexにも入れようか考え中。 GPUある人は↓から

shirotorabyakko 2023/05/18

AI

リンク

alpaca_cleanedを日本語化して公開しました｜shi3z

こっちのほうがデータが整理されているという話です

shirotorabyakko 2023/04/04

リンク

完全フリーで3GBのVRAMでも超高速に動く14B大規模言語モデルRWKVを試す｜shi3z

Transf ormerは分散できる代償として計算量が爆発的に多いという不利がある。一度みんなが忘れていたリカレントニューラルネットワーク(RNN)もボケーっとしている場合ではなかった。なんと、GPT3並の性能を持つ、しかも完全にオープンな大規模言語モデルが公開されていた。そのなもRWKV(RuwaKuvと発音しろと書いてある。ルワクフ?) RWKVはRNNなのでGPUメモリをそれほど大量に必要としない。 3GBのVRAMでも動くという。時間がない方はビデオをご覧ください僕の失敗は、何も考えずにgit lfs installでディレクトリごとコピーしようとしたこと。このディレクトリには過去のモデルデータが全部あるので、ひとつ30GBのモデルデータを何十個もダウンロードしようとしていて終わらなかったのだ。モデルデータは一とつあれば十分なのでひとつだけにする。次に、chatのリポ

shirotorabyakko 2023/03/26

AI

リンク

ChatGPT(GPT4)に漫画を直接描かせてみる｜shi3z

どわ～！GPT-4汎用知能論文でGPT-4からSVGで漫画一発出しする例！！ちゃんとコマ割ってフキダシ書いて台詞書いてる！！これにStable Diffusionを接続したらどうなるか考えよう pic.twitter.com/1H1Ggzr0WK — うみゆき@AI研究 (@umiyuki_ai) March 23, 2023 SVG!そういうのもあるのか早速GPT4でやってみた。でも僕のChatGPTのGPT4はまだ8Kトークンまでしか対応してなさそうなのでへぼいのご愛嬌女の子がお化けと出会って仲良くなるグラフィックノベルをSVGで1ページ分書いて下さい。お化けの名前は「五反田」で、語尾に「ごた」と言います漫画を出力してもらうプロンプトすると、まずは漫画の内容っぽいのが出てくる SVG形式で書くことはできませんが、シーンと対話のアイデアを提供することができます。以下にグラフィックノ

shirotorabyakko 2023/03/24

リンク

GPT-4 APIがやってきた!3.5と"性能"を比較する｜shi3z

Waiting Listにもっと時間がかかるかと思ったのだが、予想外に早く(一日)APIのロックが解除された。ただしまずは8Kトークン版のみ。 GPT-3.5が4Kトークンだったから倍の長さのストーリーが出せるということだ。ただし値段はChatGPT APIの10倍。元に戻った感じ。これはどっちを使うべきか結構悩むぞ。こんな感じで呼ぶ % curl https://api.openai.com/v1/chat/completions \ -H 'Content-Type: application/json' \ -H 'Authorization: Bearer APIKEY'\ -d '{ "model": "gpt-4", "messages": [{"role": "user", "content": "宮崎駿について"}], "temperature": 0.7 }'答えはこ

shirotorabyakko 2023/03/16

リンク

はてなブックマーク

タグ

ブックマーク / note.com/shi3zblog (23)

お知らせ

今週のはてなブックマーク数ランキング（2025年4月第2週）

今週のはてなブックマーク数ランキング（2025年4月第1週）

【復旧済】はてなブックマークへの接続ができない・不安定になる障害が発生していました

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス