タグ

ブックマーク / note.com/shi3zblog (7)

  • Command-R+の衝撃! 100Bモデルで本当にこんなことできんの!?ダウンロードしてローカルで実行可能|shi3z

    Command-R+の衝撃! 100Bモデルで当にこんなことできんの!?ダウンロードしてローカルで実行可能 Transformerの発明者らが起業したCohereAIがとんでもないモデルを出してきた。この業界では毎週のように「えーー!」ということが起きるのだが、その中でも年に1,2回起きる「えーーーっ」が起きたのでブログでも紹介しておきたい。 Command-R+(おそらくコマンダープラスと読むのが正しい)というモデルは、わずか100Bで、GPT-4,Claude-3並と言われるモデルだ。しかし、それを主張するだけのモデルなど腐るほどある。だが、実際に触ってみると期待外れということが多かった。 ところがCommand-R+は、その性能は桁違いである。というか、もはや僕という人間如きがちょっと触ったくらいでは「GPT-4よりいいね」とか「ここら辺甘いね」とか判断がつかなくなってきてる。しか

    Command-R+の衝撃! 100Bモデルで本当にこんなことできんの!?ダウンロードしてローカルで実行可能|shi3z
  • 驚異の1ビットLLMを試す。果たして本当に学習できるのか?|shi3z

    昨日話題になった「BitNet」という1ビットで推論するLLMがどうしても試したくなったので早速試してみた。 BitNetというのは、1ビット(-1,0,1の三状態を持つ)まで情報を削ぎ落とすことで高速に推論するというアルゴリズム。だから正確には0か1かではなく、-1か0か1ということ。 この手法の行き着くところは、GPUが不要になり新しいハードウェアが出現する世界であると予言されている。マジかよ。 https://arxiv.org/pdf/2402.17764.pdf ということで早速試してみることにした。 オフィシャルの実装は公開されていないが、そもそも1ビット(と言っていいのかわからない,-1,0,1の三状態を持つからだ。 論文著者はlog2(3)で1.58ビットという主張をしている)量子化のアルゴリズム自体の研究の歴史は古いので、BitNetによるTransformerの野良実装

    驚異の1ビットLLMを試す。果たして本当に学習できるのか?|shi3z
  • これは衝撃!1.5Bで超高性能LLM!RWKV-5-World-v2|shi3z

    Transformerという手法は必ずしも万能でも効率的でもない。 むしろTransformerは非効率的だというのが一般的な見解だ。しかし、Transformerには実績があり、実績という壁の前には多少(かどうかわからないが)の非効率は無視される。 他にもHyenaなどもっと効率的と思われる手法が提案されているが、そうした提案の一つがRWKVである。 そもそもなぜTransformerが必要になったかというと、それまで言語モデルに用いられていたRNN(Recurrent Neural Network)は並列処理が難しかったからだ。並列処理が難しい理由は簡単で、言葉というのは過去から未来へ向かって一方向に進むからである。 言語モデルは全て「この文章に続く単語は何か」を予測し、それを連鎖的に繰り返していくが、RNNは単語をひとつひとつ選んでいかないと次の単語を原理的に予測できない。 これを並

    これは衝撃!1.5Bで超高性能LLM!RWKV-5-World-v2|shi3z
  • GPTのモデル構造を可視化した|shi3z

    GPTのモデル構造を目で見てみたい! そんな気持ち、わかるでしょ? 技研フリマをやりながら、どうにかこうにか出力したよ ご覧あれ やり方メモ from transformers import AutoTokenizer, AutoModelForCausalLM from torchviz import make_dot tokenizer = AutoTokenizer.from_pretrained("gpt2") from transformers import pipeline, set_seed generator = pipeline('text-generation', model='gpt2') m= generator.model x= m.generate() y= m.forward(x) image = make_dot(y.logits, params=dict(

    GPTのモデル構造を可視化した|shi3z
  • GPT-4 APIがやってきた!3.5と"性能"を比較する|shi3z

    Waiting Listにもっと時間がかかるかと思ったのだが、予想外に早く(一日)APIのロックが解除された。ただしまずは8Kトークン版のみ。 GPT-3.5が4Kトークンだったから倍の長さのストーリーが出せるということだ。 ただし値段はChatGPT APIの10倍。元に戻った感じ。 これはどっちを使うべきか結構悩むぞ。 こんな感じで呼ぶ % curl https://api.openai.com/v1/chat/completions \ -H 'Content-Type: application/json' \ -H 'Authorization: Bearer APIKEY'\ -d '{ "model": "gpt-4", "messages": [{"role": "user", "content": "宮崎駿について"}], "temperature": 0.7 }'答えはこ

    GPT-4 APIがやってきた!3.5と"性能"を比較する|shi3z
  • 偉い人がいうことはわけわかんないことほどだいたい正しい|shi3z

    というタイトルで書こうと思ったらnoteAI支援機能が来ていたので目次を生成してみた。 1. すべての人が思っているわけでもなく "偉い人の言うこと" は常に正しいということはない。 2. その理由のひとつに、あまりにもわけわからない内容から判断できないことがあるからだ。 3. 偉い人の言うこと以上に、その裏付けとなる情報を探し、自分で判断して行動するということが大切。 4. 誰の言葉も信じ込まず、目からウロコが落ちる、ネットバズになりそうな情報を探してみよう。 noteのGPT連携機能がタイトルから生成全体的に「何言ってんだコイツ」という内容になったのでAIの提案した流れは無視してしたい話をすることにする。 早くもAIの弱点が露呈したように見えるが、要は「意味のある記事」というのは、「わけのわからないタイトル」で始まるもので、「わけのわからないタイトル」は前例がないので、前例から内容を

    偉い人がいうことはわけわかんないことほどだいたい正しい|shi3z
  • Midjourneyに$40課金して見つけたコツ|shi3z

    最近流行ってるAIといえばMidjourney。 吾輩は自宅の電気代が5万円を超えてしまったのでgakyoをお休み中。 というか最近はgakyoでなくてもrepica.comとかいろいろあるのでそっちでいいのではないかと思っている。 そこでMidjourneyですよ。 開発リーダーはLeapMotionの人。 何より安い。だって今まで月に5万かかってた電気代が$30でいいわけですからね。 でもチキンな吾輩はとりあえずお試し→終了→$10プラン→終了と繰り返して、$30/月プランに入りました。だから$40課金勢。 Discordで簡単に使えるのでGakyoよりワンクッションくらいは面倒なんだけど無いよりマシ。 Midjourneyは人間とかの描写に「あまり」制限がない。DALL-Eとかの公開版だと人間の描写に制限があったりするので使うのが難しいが、Midjourneyはハリウッド俳優の名前と

    Midjourneyに$40課金して見つけたコツ|shi3z
    t_masuda
    t_masuda 2022/08/07
  • 1