ブックマーク / note.com/shi3zblog (17)

  • もうゲーム終わってんじゃないのかな|shi3z

    LMStudioでLlama4 Scout-MLX-4bit版にこないだ書いた同人誌(5万字)を与えて「各章100文字で要約しろ」と言ったらローカルでこんな要約ができた。 MacBookPro M4(128GB)を使用 第一章:ローカルLLM革命 - Mac Studio 512GBが切り拓く新時代2025年上半期、AI技術の進化でローカルLLMが注目され始めた。特にAppleMac Studio 512GBは、クラウドに頼らず個人で高性能LLMを実行可能にする象徴的な存在だ。これにより、プライバシーを確保しながらAIを利用する新しいパラダイムが現実のものとなった。 第二章:ローカルLLMと動画生成AIローカルLLMの進化に伴い、個人でも高性能なAIモデルを手軽に実行できるようになった。同時に動画生成AI技術も進化し、誰でもアイデアを元に動画を作成できるようになった。これらの技術は創造

    もうゲーム終わってんじゃないのかな|shi3z
    jmako
    jmako 2025/06/18
  • Claude Codeが最高のバイブコーディングツールすぎる|shi3z

    Vibe Codingという概念が爆誕している。 2月頃にAndrej Karpathy氏がx.comでポストしたことをきっかけに、この言葉が急速に広まった。 There's a new kind of coding I call "vibe coding", where you fully give in to the vibes, embrace exponentials, and forget that the code even exists. It's possible because the LLMs (e.g. Cursor Composer w Sonnet) are getting too good. Also I just talk to Composer with SuperWhisper… — Andrej Karpathy (@karpathy) February

    Claude Codeが最高のバイブコーディングツールすぎる|shi3z
    jmako
    jmako 2025/03/24
  • ついに来た拡散言語モデル|shi3z

    https://www.inceptionlabs.ai/news Inceptionという会社のMercuryという拡散言語モデルがすごい。 いつか出るだろうと思っていたのだが、なかなか姿を見せなかった、拡散言語モデルである。 スピードの差は一目瞭然 速すぎワロタいまAIは、「頭の良さの差」を競う段階に来ている。 「頭の良さ」を測る尺度はたくさんあるが、僕は答えの用意されたテストを解くことをたいして良い尺度だと思っていない。まあ答えの用意されたテストしか解いてこなかった人たちにはそれでも十分な尺度なのだと思うが。 ただ、「考える速さ」というのは間違いなくひとつの尺度だし、その点で言うとMercuryは速すぎなのである。 なぜMercuryがこんなに速いのか。 それは、Transformerじゃないからだ。 TransformerにしろRWKVのようなRNNにしろ、「ここまで書いたから続き

    ついに来た拡散言語モデル|shi3z
    jmako
    jmako 2025/03/02
  • UnslothのGoogle Colabノートブックで手軽にLLMの蒸留ができる|shi3z

    これがすごく簡単なので、蒸留をお手軽に試したいという人にうってつけだと思う。何よりすごいのは、彼らが実装した動的量子化のおかげで、4ビットLoRA(QLoRA)の性能劣化が抑えられ、無料アカウントでも7Bモデルくらいなら学習できてしまうということ。 学習そのものも数分から数十分で終わってしまうので、これまでにあったような「蒸留/ファインチューニングは凄く大変」というイメージでもない。目から鱗という感じ。 いろいろなLLMを簡単に高速化できるので試してみるのも面白いかもしれない。 https://unsloth.ai/ Unslothが自分で用意した量子化モデルの一覧はこちら 自分でもPhi-4の蒸留を試してみたが、少しハマりどころがある。 まず、xformerのバージョンやら何やらを揃えないといけない。 Pythonは3.10で、CUDA12.1でやった。GPUはA100 80GBx1を使

    UnslothのGoogle Colabノートブックで手軽にLLMの蒸留ができる|shi3z
    jmako
    jmako 2025/02/03
  • CyberAgentが蒸留したDeepSeek-R1を試す|shi3z

    CyberAgentさんがDeepSeek-R1を日語で蒸留し直してくれたので、その性能を試してみようと思います。 そのために、まず以下のようなコードを書きます。PythonのREPLで実行しています。 import requests import sseclient # pip install sseclient-py import json from rich.console import Console from rich.markdown import Markdown # コンソールの準備 console = Console() url = "http://localhost:8000/v1/chat/completions" headers = {"Content-Type": "application/json"} def ai(prompt): payload = { "

    CyberAgentが蒸留したDeepSeek-R1を試す|shi3z
    jmako
    jmako 2025/01/29
  • これはもう実質AGIでは? AIが勝手にブラウザを操作していろいろやってくれちゃう BrowserUseが爆誕|shi3z

    今日もいつものようにシラスでデイリーAIニュースを配信していると、とんでもないものにでくわした。 もうタイトルに書いてあるけど、AIが勝手にブラウザを操作して色々やってくれてしまう、その名もBrowserUseだ。 インストールは超簡単。 macなら以下の二行だけだ。 $ pip install browser-use $ playwright install使うのも超簡単だが、コマンドラインに落ちるのが怖い人々には簡単に見えないかもしれない。環境変数のOPENAI_API_KEYとかにAPIキーを入れておくこと。 $ python >>> from langchain_openai import ChatOpenAI >>> from browser_use import Agent INFO [browser_use] BrowserUse logging setup complete

    これはもう実質AGIでは? AIが勝手にブラウザを操作していろいろやってくれちゃう BrowserUseが爆誕|shi3z
    jmako
    jmako 2024/12/25
  • 吾輩が得意分野でAIに負けた日|shi3z

    負けた。 完敗である。 何に負けたかというと、ChatGPTに負けたのだ。 先週のいつだったか忘れたが、「ChatGPTにインターネット検索機能がついた」という日があった。 そこで、「昼飯をChatGPTに聞いてみるか」という気分になり、GPT-4oに「浅草橋でおすすめのランチ」を聞いてみた。 すると、行ったことのない店ばかり提案された。 ChatGPTの場合、以前なら実在しない店とかも平気で提案してきたので、まずはその店が実在するかどうか確かめに行ってみようと歩いて行った。 すると、ChatGPTがおすすめした5つのお店のうち、最初のラーメン屋が見つかった。しかも行列している。どうやら実在はするらしい。 果たして、ようやく辿り着いたお店は、やはり行列をしていた。 しかし、浅草橋のランチはどんな店でも昼時は行列するのは常識。 行列ができていたくらいで名店とはならないのである。 しばらく待つ

    吾輩が得意分野でAIに負けた日|shi3z
    jmako
    jmako 2024/12/24
  • Llama3.3 128Kコンテキスト長多言語対応オープンLLMと200万トークン対応かつ無料で使えるGemini-exp-1206など|shi3z

    OpenAIが平日毎日新機能の説明をするというイベントのために午前2時に起きたが、割と興味のない内容だったので松尾さんと二人で憤慨していたのだが、その裏でMetaがLlama3.3-70Bを公開していた。70BでGPT-4oを上回る性能かつ、Llama3.1 405Bを上回る性能らしい。 早速、昨日試したAttentionにまつわる物語を翻訳してもらうと、確かになかなかいい翻訳になった。 From: Dzmitry Bahdanau To: Andrej Date: 2022年9月1日 6:05 PM Hi Andrej、 8年前に起こったことを話すことを嬉しく思います! 私は、Herbert Jaegerの下でJacobs UniversityでMScの1年目を終えた後に、Yoshuaの研究所にインターンとして赴任しました。私はYoshuaに「何に取り組んでいいか教えてください」と言った

    Llama3.3 128Kコンテキスト長多言語対応オープンLLMと200万トークン対応かつ無料で使えるGemini-exp-1206など|shi3z
    jmako
    jmako 2024/12/08
  • ついに来るのか!?拡散言語モデル|shi3z

    我々が単に「言語モデル」といった場合、それはTransformerモデルを指す。Transformerモデルは、ChatGPTやGemini、Claude-3、Command-R+などで使われている。 最近はMambaのような状態ステートマシンの言語モデルも出てきた。そしてもしかしたら今後はここに、拡散ディフュージョンモデルが加わるのかもしれない。 拡散モデルで有名なのは、StableDiffusionで、主に画像生成に使う。 実は画像生成は最初はTransformerだった。OpenAIのDALL-Eは、Transformerとして画像生成を行なった。しかしTransformerには明らかな欠点があり、それはあまりにも膨大な計算量が必要なことだ。 Transformerの事前学習プリトレーニングには、今でも天文学的な計算資源が必要だし、微調整ファインチューニングにも今なお膨大な計算機が必

    ついに来るのか!?拡散言語モデル|shi3z
    jmako
    jmako 2024/11/02
  • 拡散(Diffusion)モデルは実は進化計算だった|shi3z

    生成AIといえば、拡散モデルである。 そもそも、最初にブレイクした画像生成AIは、StableDiffusiionだ。そしてこれはもちろん名前の通り「拡散モデル」である。 拡散モデルは、ノイズの入った情報からプロンプトを手掛かりにノイズを除去していく過程を学習して、転じてプロンプトから画像を生成できるようになる。しかし、この学習過程は、実は遺伝的アルゴリズムのような進化計算と同じであるという衝撃的な論文が発表された。 拡散モデルの学習過程は進化計算と同じである 機械学習と生物学の融合により、拡散モデルは進化アルゴリズムであることが分かりました。進化をノイズ除去プロセス、逆進化を拡散とみなすことで、拡散モデルは質的に進化アルゴリズムを実行し、自然に選択、突然変異、生殖隔離を包含することを数学的に実証しました。この等価性を基に、拡散進化法を提案します。これは、拡散モデルのコンテキストで最初に

    拡散(Diffusion)モデルは実は進化計算だった|shi3z
    jmako
    jmako 2024/10/18
  • 可愛すぎかよ! ハッカーの新しい相棒 コマンドラインからLLMを使えるgptme|shi3z

    こういうのが欲しかったんだよ。マジで。 コマンドラインからLLMを呼び出せるgptmeというツールがアツい これは、gptmeコマンドを追加するというもの。 環境変数としてOPENAI_API_KEYとかAnthropicのキーとかを設定しておくと勝手にAPIを呼び出してくれる。もちろん、クラウドに送信するとかけしからんという勢にはローカルLLMでも対応できる。 こいつはコマンドライン版ChatGPTのようなものなので、コマンドラインで動くのだが、その真価は例えばパイプで繋いだ時とかに発揮される。 $ du -d 1|gptme "一番容量をってるフォル ダは何Gバイト使ってんの?" Found OpenAI API key, using OpenAI provider [10:13:32] No model specified, using recommended model for

    可愛すぎかよ! ハッカーの新しい相棒 コマンドラインからLLMを使えるgptme|shi3z
    jmako
    jmako 2024/10/07
  • 驚異の1ビットLLMを試す。果たして本当に学習できるのか?|shi3z

    昨日話題になった「BitNet」という1ビットで推論するLLMがどうしても試したくなったので早速試してみた。 BitNetというのは、1ビット(-1,0,1の三状態を持つ)まで情報を削ぎ落とすことで高速に推論するというアルゴリズム。だから正確には0か1かではなく、-1か0か1ということ。 この手法の行き着くところは、GPUが不要になり新しいハードウェアが出現する世界であると予言されている。マジかよ。 https://arxiv.org/pdf/2402.17764.pdf ということで早速試してみることにした。 オフィシャルの実装は公開されていないが、そもそも1ビット(と言っていいのかわからない,-1,0,1の三状態を持つからだ。 論文著者はlog2(3)で1.58ビットという主張をしている)量子化のアルゴリズム自体の研究の歴史は古いので、BitNetによるTransformerの野良実装

    驚異の1ビットLLMを試す。果たして本当に学習できるのか?|shi3z
    jmako
    jmako 2024/02/29
  • 無料でGPT4越え!?ついに来たXwin-LM|shi3z

    今日のウィークリーAIニュースではnpaka大先生と一週間のニュースを振り返った。今週もいろいろあったが、なんといってもダークフォース、GPT-4越えと言われるXwin-LMである。中国製。 大先生もまだ試してないというので番組内で一緒に試してみた。 もちろんドスパラ製Memeplexマシン(A6000x2)を使用。 >>> from transformers import AutoTokenizer, AutoModelForCausalLM >>> model = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1") Downloading (…)lve/main/config.json: 100%|██████████████████| 626/626 [00:00<00:00, 56.2kB/s] [2023

    無料でGPT4越え!?ついに来たXwin-LM|shi3z
    jmako
    jmako 2023/09/23
  • OpenInterpreter / ついにAIがガチのアシスタントに!これは凄い、というか凄すぎる|shi3z

    凄いものが出てきてしまった。 ChatGPTの「Code Interpreter」が話題になったが、あれはあくまでクラウド上で動いているだけ。それを模してローカルで動作するようになった「Open Interpreter」は、衝撃的な成果である。 Open Interpreterのインストールは簡単。コマンド一発だ $ pip install open-interpreter起動も簡単 $ interpreter -yこれだけでOK。 あとはなんでもやってくれる。 たとえばどんなことができるのかというと、「AppleとMetaの株価の推移をグラフ化してくれ」と言うとネットから自動的に情報をとってきてPythonコード書いてグラフをプロットしてくれる。 凄いのは、ローカルで動くのでたとえばApplescriptを使ってmacOSで動いているアプリを直接起動したり操作したりできる。「Keynot

    OpenInterpreter / ついにAIがガチのアシスタントに!これは凄い、というか凄すぎる|shi3z
    jmako
    jmako 2023/09/08
  • LINEの3.6B言語モデルで遊んだら爆笑した|shi3z

    LINEから36億(3.6B)パラメータの大規模言語モデル(LLM)が公開されたので早速遊んでみた。正確には遊んだのは昨日のデイリーAIニュースなのだが、面白かったのでこちらにも転載する。 細かいやり方は大先生のページを参照のこと。 例によってこんな関数を書いた def line(prompt): # 推論の実行 input_ids = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt") tokens = model.generate( input_ids.to(device=model.device), min_length=50, max_length=300, temperature=1.0, do_sample=True, pad_token_id=tokenizer.pad_token_i

    LINEの3.6B言語モデルで遊んだら爆笑した|shi3z
    jmako
    jmako 2023/08/16
  • ChatGPTをブロックでプログラミングできるようにしてみた(ソースコード付き)|shi3z

    4/19 ソースコードのバグを修正しました 花粉症で午前二時に目が覚めた。 ふと 「ChatGPTの結果を組み合わせて物語を作ったり議論したりするのをPythonで書くの面倒臭くない?」 と思った。 誰かが作っていそうなので探したのだが、僕の観測範囲では世界のどこにもなかったので、とりあえずBlocklyで作ることにした。 今夜19時からは、日ディープラーニング協会が主催する大々的なイベントがあり、connpassとPeatixであわせて6000人近い人が参加するらしい。 そこに登壇するときのネタとして、なんか作っておくか、と思った。 GPT Blocklyの基的な構造 基ブロックは三つ 基ブロックテーマを設定するブロックと、話の流れに対し、ある「人物」として、「提案」もしくは「反論」などを行うブロック。 それと、複数の意見をまとめて要約するブロック である。 意見を述べるブロック

    ChatGPTをブロックでプログラミングできるようにしてみた(ソースコード付き)|shi3z
    jmako
    jmako 2023/03/10
  • 真実とは何か|shi3z

    ITジャーリストAyanoさんという人がいて、彼女はすごい人なのである。 何がすごいかというと、ものすごいダイエットに成功した人なのだ。 【大会まで1週間】 秀子先生の緻密な指導と仲間の理解と応援のおかげでここまで来ることが出来ました❗️ のこり1週間悔いのないよう最後まで全力でやり抜きます💪 みなさん応援よろしくお願いします‼️#フィットネスビキニ https://t.co/7lmPdxWeHs pic.twitter.com/2ICgNdXnOK — ITジャーナリスト富永彩乃 Ayano Tominaga (@AyanoTDO) July 23, 2017 そんなAyanoさんと初めて会った時、せっかくだから一緒に写真を撮りましょう、ということになったのだが、Ayanoさんは「だったらこのカメラで撮って下さい」と、中国製の自撮りに特化したスマホが出てきた。プリクラのように、少し目が

    真実とは何か|shi3z
    jmako
    jmako 2021/11/10
    だめだ、長い文章に拒絶反応がー。誰か3行でタノム…これで(❁ᴗ͈ˬᴗ͈)っ⭐
  • 1