タグ

RWKVに関するkasahiのブックマーク (6)

  • RWKVについて解説

    記事では、RWKVとよばれるモデルのアーキテクチャについて詳しく説明します。 はじめに 自然言語処理の分野において、Transformer[1]の登場以前に一般的に使用されてきたRNN[2]はいくつかの課題を抱えており、その課題を克服する新たな手法として、RNNとは完全に異なるアプローチを取るTransformerが登場しました。しかし、Transformerにも解決すべき問題が存在しています。そこで、これらのアプローチを結びつけて進化させていく必要が出てきました。 まず、RNNの利点と欠点を見てみましょう。RNNは、文章の長さにほとんど制約がなく、計算コストも比較的小さいという利点があります。しかし、以前の入力を正確に記憶することが難しく(長期依存性を捉えられない)、学習を高速化することも難しい(学習並列化が困難)という欠点も存在します。 一方、Transformerは長期依存性を捉え

    RWKVについて解説
    kasahi
    kasahi 2023/09/02
  • RNNでTransformer並みの性能を実現するRWKVがやばい

    (記事は数時間前からRWKVの手法について調べ始めた著者が、手法をまとめるためのメモ書きとして深夜テンション書いたレベルのものです。内容の正確さについて保証しないので各自最後にある参考文献の確認をお願いします。日語の記事でRWKVの手法について解説されたものが見当たらなかったので、一部僕の見解が含まれますが英語中国語版の翻訳程度に受け取ってもらえたら幸いです。中国語は一切読めないけど・・・) Introduction 昨今の生成系AIブームの中で、OpenAIが開発するChatGPT、特にGPT4の性能は目を引くものがあります。ですが、そのモデルを動かすための計算資源にも目を引くものがあり、LLaMA.cppなどローカルで動かそうとする試みは存在するにせよ、やはり一般の家庭でしかも現実的な電気代でGPT4を動かすという未来は遠そうです。 さて、そんな話題のChatGPTやGPT4です

    RNNでTransformer並みの性能を実現するRWKVがやばい
  • 完全フリーで3GBのVRAMでも超高速に動く14B大規模言語モデルRWKVを試す|shi3z

    Transformerは分散できる代償として計算量が爆発的に多いという不利がある。 一度みんなが忘れていたリカレントニューラルネットワーク(RNN)もボケーっとしている場合ではなかった。 なんと、GPT3並の性能を持つ、しかも完全にオープンな大規模言語モデルが公開されていた。 そのなもRWKV(RuwaKuvと発音しろと書いてある。ルワクフ?) RWKVはRNNなのでGPUメモリをそれほど大量に必要としない。 3GBのVRAMでも動くという。 時間がない方はビデオをご覧ください 僕の失敗は、何も考えずにgit lfs installでディレクトリごとコピーしようとしたこと。 このディレクトリには過去のモデルデータが全部あるので、ひとつ30GBのモデルデータを何十個もダウンロードしようとしていて終わらなかったのだ。 モデルデータは一とつあれば十分なのでひとつだけにする。 次に、chatのリポ

    完全フリーで3GBのVRAMでも超高速に動く14B大規模言語モデルRWKVを試す|shi3z
  • 大規模言語モデルRWKVをローカルPCで試す|Ko Onuma

    清水亮さんが、RWKVを試してたので俺も試してみた。 この時の清水さんのマシンは、A6000積んでる(VRAM48GB)逸般のご家庭用モンスターマシンなので、そのまま動く。そらそうよ。 というわけで、一般のご家庭用ゲーミングPCでも動くように試してみた。 ちなみに試した環境はWindowsのWSLのubuntu上。 マシンのメモリは64GB。ubuntuには48GB割当。 GPUはRTX3090(VRAM 24GB)。 まずはChatRWKVをgitでcloneする。 git clone https://github.com/BlinkDL/ChatRWKV次にモデルをダウンロードする。 14Bを使うことにした。 ChatRWKV/v2フォルダにダウンロードしてきたモデルファイルを突っ込む。 今回は最新版の RWKV-4-Pile-14B-20230313-ctx8192-test1050

    大規模言語モデルRWKVをローカルPCで試す|Ko Onuma
    kasahi
    kasahi 2023/04/02
  • おうちの8GB VRAM GPUでChatRWKVと会話する - きしだのHatena

    ChatGPTが話題ですが、そういうのをおうちで動かしたいですよね。 ということで、おうちで動かしやすくて割と会話ができるChatRWKVを試してみます。 ChatGPTは実装は公開されておらず手元で動かすことはできません。けど、サービスがたまに落ちてたりするので手元で動かせるなにかがあると安心ですね。何より、こんな変な技術を手元で動かしたい。 そこで手元で動かせるLLMとしてFlexGenが話題になりましたが、それでも強力なGPUが必要です。 https://github.com/FMInference/FlexGen そして低リソースで動かせる実装としてAlpaca.cppなんかも出ましたが、そこまで賢くない感じ。 https://github.com/antimatter15/alpaca.cpp そこに現れたのがChatRWKVです。一般のご家庭の8GB VRAMのGPUで動かせつ

    おうちの8GB VRAM GPUでChatRWKVと会話する - きしだのHatena
  • RWKVをローカルPCで動かす(pyenv/Docker)

    OSはLinuxです。WindowsWSL2で動かしている人もいるので、多分動くと思います。Linux/Windows(WSL2)のセットアップに関しては、以下記事参照ください。 CPUのみでも動かせるようですが、メモリが大量にいります。メインメモリが少なければ、とりあえずキャッシュ領域をアホほど(100GBとか)増やしておけば動くようです。足りないと途中でクラッシュします。 メモリが不足気味でしたら、以下記事参考に最初に設定しておいてください。 モデルダウンロード モデルをダウンロードします。好きなものをダウンロードしてください。初心者は、最初は小さいものを試して自信をつける(?)のがよいかもしれません。 14B バカでかモデル 7B デカいモデル 7B alpacaでファインチューニングされているのでちょっと賢い 3B 小さめモデル pyenv 事前準備 pyenvを使う方法です。ま

    RWKVをローカルPCで動かす(pyenv/Docker)
  • 1