タグ

ブックマーク / note.com/shi3zblog (19)

  • これはもう実質AGIでは? AIが勝手にブラウザを操作していろいろやってくれちゃう BrowserUseが爆誕|shi3z

    今日もいつものようにシラスでデイリーAIニュースを配信していると、とんでもないものにでくわした。 もうタイトルに書いてあるけど、AIが勝手にブラウザを操作して色々やってくれてしまう、その名もBrowserUseだ。 インストールは超簡単。 macなら以下の二行だけだ。 $ pip install browser-use $ playwright install使うのも超簡単だが、コマンドラインに落ちるのが怖い人々には簡単に見えないかもしれない。環境変数のOPENAI_API_KEYとかにAPIキーを入れておくこと。 $ python >>> from langchain_openai import ChatOpenAI >>> from browser_use import Agent INFO [browser_use] BrowserUse logging setup complete

    これはもう実質AGIでは? AIが勝手にブラウザを操作していろいろやってくれちゃう BrowserUseが爆誕|shi3z
    fashi
    fashi 2024/12/25
    下にリンクあるけどOpen Interpreterのときも同じようなこと言ってた気がする
  • ついに正式版になったOpenAI o1の画像理解の実力を試す

    今日未明、サム・アルトマン自らがチームと共にOpenAI o1の能力を説明した。スペック的にはプログラミング能力が向上し、そして画像理解(マルチモーダル)に対応したというのが最大のニュースだろう。 プログラミング能力についての検証はいろんな人が世界中で始めているだろうから、僕は画像理解の方を試してみようと思う。 というのも、僕の手元には手書きで書かれた図解が大量にあるからだ。 手書きが好きすぎてタブレット端末を作ったほどである。 まずは以前作ろうと思ってボツにしたAIアプリの概念図 汚いのは手書きの宿命これを清書してもらうことにする。 以下は、提示された手書きメモを参考に、内容を整理し、簡易的なフローチャートとしてSVGで清書した例です。 手書きメモは主に「静的AI画像作成ツール」の作業フローアイデアを示すものであったため、ステップを分かりやすく整理しています。 ※ 元の手書き図は非構造的

    ついに正式版になったOpenAI o1の画像理解の実力を試す
    fashi
    fashi 2024/12/06
    謎のメモ書きをAIに推理させる遊び面白そう
  • 結局最後、全部、落合陽一が持っていった|shi3z

    前回までのあらすじ 佐渡市長たっての願いで、来はカルテット構成くらいで行う予定だったサテライト公演が25人のオーケストラ編成に。東京から楽器と奏者を25人連れてくるというキチ○イ沙汰に。さらにクラウドファンディングに参加した我々取材班(違う)はコンサートのプログラムを見た時、驚愕した。 「東京公演と全然違う」 だが実際にコンサートが始まると、取材班に衝撃が走った。 「新作、全部新作カットじゃん!!どうなってんの?いつ作ったの?っつーか一番奥に座ってるの落合陽一じゃん」 これまで東京公演ではあくまでもプロデューサー、映像演出という名目で裏方に徹していた落合陽一先生が、ステージの一番奥でVJブースみたいなのを拵えてVJプレイをしているのである。 しかも画面はこれまでで一番でかい超ウルトラ大画面。 オーケストラに負けないド迫力の大画面である。 超巨大スクリーン ゲネプロ時の写真(写真提供:日

    結局最後、全部、落合陽一が持っていった|shi3z
  • ついにBitNet Llama8Bが登場! CPUのみで爆速推論するLLM,BitNet.cpp|shi3z

    科学の世界では、それまでの常識が覆ることを俗に「パラダイムシフト」と呼ぶ。 しかし、もしもAIの世界にパラダイムシフトという言葉があるとしたら、今週の人類は一体何度のパラダイムシフトを経験しただろうか。 そのトドメの一撃とも言えるのが、BitNetのLlama8B版だ。 Lllama-8B構造で学習された最初のBitNetであり、全てを変えてしまうゲームチェンジャーでもある。CPUのみで秒間5-20トークンを出力する。超強力なLLM推論エンジンの出現だ。 BitNetとは、そもそも1.58ビットに相当する情報量で、来は4ビット以上必要な大規模言語モデルの計算を劇的に高速化する技術である。 LLMの推論には通常は巨大な浮動小数点数(8ビットから16ビット)の、大量の乗算(掛け算)が必要なため、GPUなどの特殊な半導体を必要としていた。特にNVIDIAのGPUがこの目的にマッチしていたので今

    ついにBitNet Llama8Bが登場! CPUのみで爆速推論するLLM,BitNet.cpp|shi3z
    fashi
    fashi 2024/10/18
  • もうでかいVRAMに高い金を払う必要は無くなるかもしれないのか?超分散LLM推論環境が爆誕 |shi3z

    世は大容量GPU時代。 吾輩も、秋葉原で大容量VRAM搭載GPUの中古が出たときけばすぐに飛んでいき買ってくるということを繰り返している。ちなみに最近、秋葉原の大容量中古GPUは飛ぶように売れているので、見つけたら即買いしないとすぐに無くなる。 なぜ大容量GPUが欲しいかと言えば、それがAIの全ての力の源だからである。 しかし、これは我々のようなガチ研究勢の話であって、ビジネスパースン的には「いやあこれからはローカルLLMでセキュリティバッチリでしょう」みたいな話をしても、「んで、おいくら万円ですか?」と聞かれて、「えーと、GPU単体で500万円くらいでやす」とか言うと客も裸足で逃げていく。そもそもそれだけの価格を払っても、買えるかどうかわからない。 こないだデンバーの学会で、NVIDIAのジェンスン・ファンとMetaのマーク・ザッカーバーグが対談した時に、マークはずっと「とにかくGPU

    もうでかいVRAMに高い金を払う必要は無くなるかもしれないのか?超分散LLM推論環境が爆誕 |shi3z
  • ド下手な俺が半日だけ絵を練習してみた|shi3z

    前回、絶望的な画力のなさでAIといえど俺の伝えたいことが伝えられなくて非常に困ったので、もうここは諦めて絵を勉強することにした。人間、何歳になっても勉強できる! 職業柄、「図」はよく描くのだが、「絵」特に、メカではないキャラクターは苦手だった。 学生時代、「漫画アニメーション研究会(まに研)」の幽霊部員だった時も、キャラクターが描けなかったので馴染めなった苦い記憶を持つ。 しかし、時は大AI時代。 AIさんに思い通りの絵を描いてもらうには、俺だって最低限の画力が必要だということを前回痛感したため、このクソ忙しいのに半日だけ絵を練習した、という話。 色々なKindleで買ってみたが、良かったのはこれ。 Kindleで買って感動して、DVD付きの書籍をわざわざもう一冊買い直すくらいハマった。 これは、自主制作のアニメ制作から初めて絵を修行し、最終的にはスタジオジブリの入社試験に合格できるほ

    ド下手な俺が半日だけ絵を練習してみた|shi3z
    fashi
    fashi 2024/06/04
  • Command-R+の衝撃! 100Bモデルで本当にこんなことできんの!?ダウンロードしてローカルで実行可能|shi3z

    Command-R+の衝撃! 100Bモデルで当にこんなことできんの!?ダウンロードしてローカルで実行可能 Transformerの発明者らが起業したCohereAIがとんでもないモデルを出してきた。この業界では毎週のように「えーー!」ということが起きるのだが、その中でも年に1,2回起きる「えーーーっ」が起きたのでブログでも紹介しておきたい。 Command-R+(おそらくコマンダープラスと読むのが正しい)というモデルは、わずか100Bで、GPT-4,Claude-3並と言われるモデルだ。しかし、それを主張するだけのモデルなど腐るほどある。だが、実際に触ってみると期待外れということが多かった。 ところがCommand-R+は、その性能は桁違いである。というか、もはや僕という人間如きがちょっと触ったくらいでは「GPT-4よりいいね」とか「ここら辺甘いね」とか判断がつかなくなってきてる。しか

    Command-R+の衝撃! 100Bモデルで本当にこんなことできんの!?ダウンロードしてローカルで実行可能|shi3z
    fashi
    fashi 2024/04/06
  • これは21世紀の着せ替え人形か!?どんな服も着せられるAIが登場|shi3z

    アリババが開発した「Outfit Anyone」は、あらかじめ指定されたモデルに好きな服を着せることができるAIだ。 Animate Anyoneと組み合わせてアニメーションにもできる。 このサイトでデモを試せる たとえば、あらかじめ用意されている服を上と下で選ぶと、組み合わせて着てくれる しかし、上着はワンピース対応なので、わけのわからん忍者のコスチュームとかを指定しても着てくれる。 着せる人は、男女数名のモデルから選べる。 ただし、モデルを用意されてない人に変えることは不可能っぽい 解析班の解析が待たれる。 これがすごいのは、これさえあれば服の着せ替え用のLoRAとかいらなくなることだ。また、家のサイトではワンピースの登場人物を着せ替えて、さらに踊らせるなどもしているので、アリババが今後どんな遊び方を考えているのか想像するだけで楽しい。ソース公開してくれないかな

    これは21世紀の着せ替え人形か!?どんな服も着せられるAIが登場|shi3z
    fashi
    fashi 2023/12/14
    Controlnet Reference Onlyでやるより安定しているか
  • めちゃ雑なラクガキから超美麗イラストをリアルタイム生成するWebサイト(無料)|shi3z

    表題の通り。最近話題のLCM-LoRAを使ったWebサービスが公開されました。 オープンソースなのでソースも見れる。 プロンプトに「girl」と入れれば女の子が、「robot」と入れればロボットが出てくる。別に何を入れてもいいし、いつものStableDiffusionのプロンプト芸みたいにしても良い。 新時代来たね サム・アルトマンは解任されても、AIの進化は止まることを知らない。 GPTハッカソンでもなんとか応用できないかなー

    めちゃ雑なラクガキから超美麗イラストをリアルタイム生成するWebサイト(無料)|shi3z
  • 無料でGPT4越え!?ついに来たXwin-LM|shi3z

    今日のウィークリーAIニュースではnpaka大先生と一週間のニュースを振り返った。今週もいろいろあったが、なんといってもダークフォース、GPT-4越えと言われるXwin-LMである。中国製。 大先生もまだ試してないというので番組内で一緒に試してみた。 もちろんドスパラ製Memeplexマシン(A6000x2)を使用。 >>> from transformers import AutoTokenizer, AutoModelForCausalLM >>> model = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1") Downloading (…)lve/main/config.json: 100%|██████████████████| 626/626 [00:00<00:00, 56.2kB/s] [2023

    無料でGPT4越え!?ついに来たXwin-LM|shi3z
    fashi
    fashi 2023/09/22
  • ChatGPT/Co-Pilotで改めてわかる「プログラミング」とはどんな作業だったのか|shi3z

    最初にプログラミングを始めた時は、学校にリファレンスマニュアルを持って行って全てのページを丸暗記した。丸暗記が目的だったわけではなく、読んで知識を吸収していくのが楽しくてしょうがなかった。 PC-9801のN88-BASICリファレンスマニュアルは、読み物としてとても良くできていた。各ステートメントの紹介があり、パラメータの説明があり、ごく簡単なサンプルコードも書いてあった。大体見開き一ページで一つのステートメントの説明なので読みやすかったし、ベーマガかなんかで読む呪文のようなコマンドの意味を詳細まで知れて楽しかった。 だがこれを「楽しい」と思う人は少数派のようだった。 僕のクラスメートのうち、相当数の人が親にパソコンを買ってもらい、BASICに挑戦したが、全くその世界に馴染めず結局ゲーム機になって行った。僕も親父がゲームなんかを買ってきたら話は変わっていたかもしれないが、親父の教育方針で

    ChatGPT/Co-Pilotで改めてわかる「プログラミング」とはどんな作業だったのか|shi3z
  • もうみんなプログラマーになれるよ|shi3z

    僕の20年来の親友にnpakaというプログラマーがいるんだけど、彼はもう超凄い。何でもすごい。何でも書けるし何でも早い。を書くのもプログラムを書くのも、新しいわけわかんない説明書がバグだらけの環境に慣れるのも早い。 んで、これまではちょっとしたことも難しいことも全部npaka(布留川君)に頼んでたんだけど、最近二人とも独立したからつまんないこと頼むのは悪いなと思って「あれはできるんだっけ」くらいのことは自分で何とかしようかなと思った。 それでChatGPTに「Swiftで⚪︎⚪︎やるにはどうすんの?」と聞いたら、Swiftについてほとんど何も勉強してないのに作りたいものが何となくすぐにできてきちゃって、でもまあやっぱりChatGPTだと知識が古いので詰まったらネットで検索すると、だいたい結局npaka(布留川君)のページが出てきてやはり信頼と実績の大先生(仲間内ではそう呼ばれている)です

    もうみんなプログラマーになれるよ|shi3z
    fashi
    fashi 2023/09/10
    自分も周りの人にChatGPTで何でも作ってもらえるって話をするのだけど、SE/PG経験のない人はトライアンドエラーする筋道も立てられないし「ここが違う(のでこうして!)」って指摘すべき箇所の勘所がわからなくてダメらしい
  • OpenInterpreter / ついにAIがガチのアシスタントに!これは凄い、というか凄すぎる|shi3z

    凄いものが出てきてしまった。 ChatGPTの「Code Interpreter」が話題になったが、あれはあくまでクラウド上で動いているだけ。それを模してローカルで動作するようになった「Open Interpreter」は、衝撃的な成果である。 Open Interpreterのインストールは簡単。コマンド一発だ $ pip install open-interpreter起動も簡単 $ interpreter -yこれだけでOK。 あとはなんでもやってくれる。 たとえばどんなことができるのかというと、「AppleとMetaの株価の推移をグラフ化してくれ」と言うとネットから自動的に情報をとってきてPythonコード書いてグラフをプロットしてくれる。 凄いのは、ローカルで動くのでたとえばApplescriptを使ってmacOSで動いているアプリを直接起動したり操作したりできる。「Keynot

    OpenInterpreter / ついにAIがガチのアシスタントに!これは凄い、というか凄すぎる|shi3z
    fashi
    fashi 2023/09/08
    やり方を教えると出来るようになるのは面白いけど怖いところもあるなあ
  • LINEの3.6B言語モデルで遊んだら爆笑した|shi3z

    LINEから36億(3.6B)パラメータの大規模言語モデル(LLM)が公開されたので早速遊んでみた。正確には遊んだのは昨日のデイリーAIニュースなのだが、面白かったのでこちらにも転載する。 細かいやり方は大先生のページを参照のこと。 例によってこんな関数を書いた def line(prompt): # 推論の実行 input_ids = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt") tokens = model.generate( input_ids.to(device=model.device), min_length=50, max_length=300, temperature=1.0, do_sample=True, pad_token_id=tokenizer.pad_token_i

    LINEの3.6B言語モデルで遊んだら爆笑した|shi3z
    fashi
    fashi 2023/08/16
  • GPT-4 APIがやってきた!3.5と"性能"を比較する|shi3z

    Waiting Listにもっと時間がかかるかと思ったのだが、予想外に早く(一日)APIのロックが解除された。ただしまずは8Kトークン版のみ。 GPT-3.5が4Kトークンだったから倍の長さのストーリーが出せるということだ。 ただし値段はChatGPT APIの10倍。元に戻った感じ。 これはどっちを使うべきか結構悩むぞ。 こんな感じで呼ぶ % curl https://api.openai.com/v1/chat/completions \ -H 'Content-Type: application/json' \ -H 'Authorization: Bearer APIKEY'\ -d '{ "model": "gpt-4", "messages": [{"role": "user", "content": "宮崎駿について"}], "temperature": 0.7 }'答えはこ

    GPT-4 APIがやってきた!3.5と"性能"を比較する|shi3z
  • 10年ぶりに一人でWebサービスを作って思ったこと(エンジニア老人会)|shi3z

    StableDiffusionに対応したGakyoを雑な設計のためわずか数日で10万円くらいのクラウド利用料がかかってしまった。

    10年ぶりに一人でWebサービスを作って思ったこと(エンジニア老人会)|shi3z
  • Midjourneyが人物のポーズを作るのが苦手な理由|shi3z

    Midjourneyが人物のポーズを作るのが苦手な理由

    Midjourneyが人物のポーズを作るのが苦手な理由|shi3z
    fashi
    fashi 2022/08/19
    「いくら手を上げろとか足を上げろとかいってもMidjourneyがちっとも描いてくれない」
  • Midjourneyに$40課金して見つけたコツ|shi3z

    最近流行ってるAIといえばMidjourney。 吾輩は自宅の電気代が5万円を超えてしまったのでgakyoをお休み中。 というか最近はgakyoでなくてもrepica.comとかいろいろあるのでそっちでいいのではないかと思っている。 そこでMidjourneyですよ。 開発リーダーはLeapMotionの人。 何より安い。だって今まで月に5万かかってた電気代が$30でいいわけですからね。 でもチキンな吾輩はとりあえずお試し→終了→$10プラン→終了と繰り返して、$30/月プランに入りました。だから$40課金勢。 Discordで簡単に使えるのでGakyoよりワンクッションくらいは面倒なんだけど無いよりマシ。 Midjourneyは人間とかの描写に「あまり」制限がない。DALL-Eとかの公開版だと人間の描写に制限があったりするので使うのが難しいが、Midjourneyはハリウッド俳優の名前と

    Midjourneyに$40課金して見つけたコツ|shi3z
  • 真実とは何か|shi3z

    ITジャーリストAyanoさんという人がいて、彼女はすごい人なのである。 何がすごいかというと、ものすごいダイエットに成功した人なのだ。 【大会まで1週間】 秀子先生の緻密な指導と仲間の理解と応援のおかげでここまで来ることが出来ました❗️ のこり1週間悔いのないよう最後まで全力でやり抜きます💪 みなさん応援よろしくお願いします‼️#フィットネスビキニ https://t.co/7lmPdxWeHs pic.twitter.com/2ICgNdXnOK — ITジャーナリスト富永彩乃 Ayano Tominaga (@AyanoTDO) July 23, 2017 そんなAyanoさんと初めて会った時、せっかくだから一緒に写真を撮りましょう、ということになったのだが、Ayanoさんは「だったらこのカメラで撮って下さい」と、中国製の自撮りに特化したスマホが出てきた。プリクラのように、少し目が

    真実とは何か|shi3z
  • 1