gengohouseのブックマーク / 2023年7月10日

gengohouse id:gengohouse

2023年7月10日のブックマーク (3件)

従来の大規模言語モデルの制約だった「入力量の限界」を取り払った「RWKV」は一体どんな言語モデルなのか？
ChatGPTやBardなど、2023年7月時点で商用利用されている大規模言語モデルはほとんど全てがトランスフォーマーというアーキテクチャを利用したモデルですが、トランスフォーマー型のモデルは入力の長さの2乗に比例して計算量が増加するため、入力サイズが制限されてしまう問題があります。そうした問題に応えて、大きいデータへの対応や推論時のメモリ使用量の削減を達成しつつトランスフォーマー型に匹敵する性能を出せるアーキテクチャ「RWKV」について、著者の一人がブログで解説しています。 The RWKV language model: An RNN with the advantages of a transf ormer | The Good Minima https://johanwind.github.io/2023/03/23/rwkv_overview.html How the RWKV l
gengohouse 2023/07/10
“従来の大規模言語モデルの制約だった「入力量の限界」を取り払った「RWKV」は一体どんな言語モデルなのか？”
リンク
大規模言語モデルへのプロンプト、重要な情報はどこに書く？ | AIDB
この記事では、スタンフォード大学などの研究グループが発表した新たな研究について詳しく解説します。この研究は、大規模言語モデルがどのように長いコンテキストを利用するかについての重要な洞察を提供しています。大事な結論から言えば、大規模言語モデルに対するプロンプトでは、重要なことは最初か最後に書きましょう。参照論文情報タイトル：Lost in the Middle: How Language Models Use Long Contexts 著者：Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, Percy Liang 所属：スタンフォード大、カリフォルニア大など URL：https://doi.org/10.48550/arXiv.2307.03172 関
gengohouse 2023/07/10
“大規模言語モデルへのプロンプト、重要な情報はどこに書く？”
リンク
数値で整理する大規模言語モデル(LLM) のメモ | ドクセル
数値で整理する大規模言語モデル(LLM) のメモ • Kan Hatakeyama Twitter • • • • 2023/7/6 作成 2023/7/7 打ち間違いなど微修正。 GPT-3の必要メモリ(推定値)を追記。 2023/7/8 学習に必要なメモリを修正 2023/7/9 モデルサイズvs学習データ数の情報を追記 • 突貫で作成したため､誤りが多々ありそうです｡ご了承(指摘)ください｡ 1 https://twitter.com/kanhatakeyama
gengohouse 2023/07/10
“数値で整理する大規模言語モデル(LLM) のメモ”
リンク
- 2023年7月11日
- 2023年7月10日
- 2023年7月5日