[B! RWKV] kasahiのブックマーク

RWKVについて解説

本記事では、RWKVとよばれるモデルのアーキテクチャについて詳しく説明します。はじめに自然言語処理の分野において、Transf ormer[1]の登場以前に一般的に使用されてきたRNN[2]はいくつかの課題を抱えており、その課題を克服する新たな手法として、RNNとは完全に異なるアプローチを取るTransf ormerが登場しました。しかし、Transf ormerにも解決すべき問題が存在しています。そこで、これらのアプローチを結びつけて進化させていく必要が出てきました。まず、RNNの利点と欠点を見てみましょう。RNNは、文章の長さにほとんど制約がなく、計算コストも比較的小さいという利点があります。しかし、以前の入力を正確に記憶することが難しく（長期依存性を捉えられない）、学習を高速化することも難しい（学習並列化が困難）という欠点も存在します。一方、Transf ormerは長期依存性を捉え

kasahi 2023/09/02

RWKV

リンク

RNNでTransformer並みの性能を実現するRWKVがやばい

(本記事は数時間前からRWKVの手法について調べ始めた著者が、手法をまとめるためのメモ書きとして深夜テンション書いたレベルのものです。内容の正確さについて保証しないので各自最後にある参考文献の確認をお願いします。日本語の記事でRWKVの手法について解説されたものが見当たらなかったので、一部僕の見解が含まれますが英語版中国語版の翻訳程度に受け取ってもらえたら幸いです。中国語は一切読めないけど・・・） Introduction 昨今の生成系AIブームの中で、OpenAIが開発するChatGPT、特にGPT4の性能は目を引くものがあります。ですが、そのモデルを動かすための計算資源にも目を引くものがあり、LLaMA.cppなどローカルで動かそうとする試みは存在するにせよ、やはり一般の家庭でしかも現実的な電気代でGPT4を動かすという未来は遠そうです。さて、そんな話題のChatGPTやGPT4です

kasahi 2023/04/20

リンク

完全フリーで3GBのVRAMでも超高速に動く14B大規模言語モデルRWKVを試す｜shi3z

Transf ormerは分散できる代償として計算量が爆発的に多いという不利がある。一度みんなが忘れていたリカレントニューラルネットワーク(RNN)もボケーっとしている場合ではなかった。なんと、GPT3並の性能を持つ、しかも完全にオープンな大規模言語モデルが公開されていた。そのなもRWKV(RuwaKuvと発音しろと書いてある。ルワクフ?) RWKVはRNNなのでGPUメモリをそれほど大量に必要としない。 3GBのVRAMでも動くという。時間がない方はビデオをご覧ください僕の失敗は、何も考えずにgit lfs installでディレクトリごとコピーしようとしたこと。このディレクトリには過去のモデルデータが全部あるので、ひとつ30GBのモデルデータを何十個もダウンロードしようとしていて終わらなかったのだ。モデルデータは一とつあれば十分なのでひとつだけにする。次に、chatのリポ

kasahi 2023/04/02

リンク

大規模言語モデルRWKVをローカルPCで試す｜Ko Onuma

清水亮さんが、RWKVを試してたので俺も試してみた。この時の清水さんのマシンは、A6000積んでる(VRAM48GB)逸般のご家庭用モンスターマシンなので、そのまま動く。そらそうよ。というわけで、一般のご家庭用ゲーミングPCでも動くように試してみた。ちなみに試した環境はWindowsのWSLのubuntu上。マシンのメモリは64GB。ubuntuには48GB割当。 GPUはRTX3090(VRAM 24GB)。まずはChatRWKVをgitでcloneする。 git clone https://github.com/BlinkDL/ChatRWKV次にモデルをダウンロードする。 14Bを使うことにした。 ChatRWKV/v2フォルダにダウンロードしてきたモデルファイルを突っ込む。今回は最新版の RWKV-4-Pile-14B-20230313-ctx8192-test1050

kasahi 2023/04/02

AI
RWKV

リンク

おうちの8GB VRAM GPUでChatRWKVと会話する - きしだのHatena

ChatGPTが話題ですが、そういうのをおうちで動かしたいですよね。ということで、おうちで動かしやすくて割と会話ができるChatRWKVを試してみます。 ChatGPTは実装は公開されておらず手元で動かすことはできません。けど、サービスがたまに落ちてたりするので手元で動かせるなにかがあると安心ですね。何より、こんな変な技術を手元で動かしたい。そこで手元で動かせるLLMとしてFlexGenが話題になりましたが、それでも強力なGPUが必要です。 https://github.com/FMInference/FlexGen そして低リソースで動かせる実装としてAlpaca.cppなんかも出ましたが、そこまで賢くない感じ。 https://github.com/antimatter15/alpaca.cpp そこに現れたのがChatRWKVです。一般のご家庭の8GB VRAMのGPUで動かせつ

kasahi 2023/04/02

リンク

RWKVをローカルPCで動かす（pyenv/Docker）

OSはLinuxです。WindowsのWSL2で動かしている人もいるので、多分動くと思います。Linux/Windows(WSL2)のセットアップに関しては、以下記事参照ください。 CPUのみでも動かせるようですが、メモリが大量にいります。メインメモリが少なければ、とりあえずキャッシュ領域をアホほど（100GBとか）増やしておけば動くようです。足りないと途中でクラッシュします。メモリが不足気味でしたら、以下記事参考に最初に設定しておいてください。モデルダウンロードモデルをダウンロードします。好きなものをダウンロードしてください。初心者は、最初は小さいものを試して自信をつける（？）のがよいかもしれません。 14B バカでかモデル 7B デカいモデル 7B alpacaでファインチューニングされているのでちょっと賢い 3B 小さめモデル pyenv 事前準備 pyenvを使う方法です。ま

kasahi 2023/04/02

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

RWKVに関するkasahiのブックマーク (6)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス