gengohouseのブックマーク - はてなブックマーク

従来の大規模言語モデルの制約だった「入力量の限界」を取り払った「RWKV」は一体どんな言語モデルなのか？

ChatGPTやBardなど、2023年7月時点で商用利用されている大規模言語モデルはほとんど全てがトランスフォーマーというアーキテクチャを利用したモデルですが、トランスフォーマー型のモデルは入力の長さの2乗に比例して計算量が増加するため、入力サイズが制限されてしまう問題があります。そうした問題に応えて、大きいデータへの対応や推論時のメモリ使用量の削減を達成しつつトランスフォーマー型に匹敵する性能を出せるアーキテクチャ「RWKV」について、著者の一人がブログで解説しています。 The RWKV language model: An RNN with the advantages of a transf ormer | The Good Minima https://johanwind.github.io/2023/03/23/rwkv_overview.html How the RWKV l

gengohouse 2023/07/10

“従来の大規模言語モデルの制約だった「入力量の限界」を取り払った「RWKV」は一体どんな言語モデルなのか？”

リンク

大規模言語モデルの出力スピードを最大24倍に高めるライブラリ「vLLM」が登場、メモリ効率を高める新たな仕組み「PagedAttention」とは？

大規模言語モデルを利用する際には、モデルそのものだけでなく、モデルを扱うためのライブラリが必要になってきます。多くの場合Transf ormersというライブラリが使用されていますが、「PagedAttention」という仕組みを導入した新たなライブラリ「vLLM」を利用することでスループットを最大24倍に向上できることが大規模言語モデルの研究チームによって発表されました。 vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention https://vllm.ai/ 大規模言語モデルを操作するためのライブラリにはHugging FaceのTransf ormers(HF)や実稼働環境向けのText Generation Inference(TGI)が存在しています。今回登場したvLLMはこの一角に加わった形。以下の図は、NVIDIA

gengohouse 2023/06/22

リンク

Metaの大規模言語モデル「LLaMa」に入力した文章がどのようなトークンとして認識しているかを確認できる「LLaMA-Tokenizer」

OpenAIのChatGPTやGoogleのBardなど、近年ではさまざまなAIが人間レベルに近い会話を行うことができるようになりました。AIは基本的に文章の処理に「トークン」と呼ばれる単位で認識を行います。普通の文章がトークン的にはどのように分解されるのかを一目で判断できるツールが「トークナイザー」で、Metaの大規模言語モデルである「LLaMA」専用のツール「LLaMA-Tokenizer」が公開されています。 GitHub - belladoreai/llama-tokenizer-js: JS tokenizer for LLaMA based LLMs https://github.com/belladoreai/llama-tokenizer-js 画像生成AIや対話型AIなどにプロンプトを入力するにあたって必要となるのは自然言語処理(NLP)です。自然言語処理とは、人間が使用

gengohouse 2023/06/15

“Metaの大規模言語モデル「LLaMa」に入力した文章がどのようなトークンとして認識しているかを確認できる「LLaMA-Tokenizer」”

リンク

Metaの大規模言語モデル「LLaMA」がChatGPTを再現できる可能性があるとさまざまなチャットAI用言語モデルのベンチマーク測定で判明

近年は機械学習分野の研究がめまぐるしい勢いで進んでおり、数十億を超えるパラメーターを持つ大規模言語モデルが相次いで発表されています。イギリス・エディンバラ大学の大規模言語モデル研究者であるヤオ・フー氏らの研究チームが、独自のベンチマークに基づいて複数の大規模言語モデルのパフォーマンスを比較した結果をGitHubで公開しています。 GitHub - FranxYao/chain-of-thought-hub: Benchmarking large language models' complex reasoning ability with chain-of-thought prompting https://github.com/FranxYao/chain-of-thought-hub 研究チームによると、「パラメーターが10B未満の言語モデルでも、OpenAIのGPT-3.5と同等のパ

gengohouse 2023/06/01

“Metaの大規模言語モデル「LLaMA」がChatGPTを再現できる可能性があるとさまざまなチャットAI用言語モデルのベンチマーク測定で判明”

リンク

独自のデータセットでGPTのような大規模言語モデルを簡単にファインチューニングできるライブラリ「Lit-Parrot」をGoogle Cloud Platformで使ってみた

特定の分野についての知識を増やす場合など、大規模言語モデルの出力を特定の方向に寄せる場合に利用されるのがファインチューニングで、これはモデルをゼロから構築するのに比べてはるかに少ないデータセット＆はるかに少ないコストでトレーニングできる手法です。「Lit-Parrot」はファインチューニングを簡単に行えるようにしたライブラリとのことなので、実際に使ってどれくらい簡単なのかを試してみました。 lit-parrot/scripts at main · Lightning-AI/lit-parrot · GitHub https://github.com/Lightning-AI/lit-parrot How To Finetune GPT Like Large Language Models on a Custom Dataset - Lightning AI https://lightnin

gengohouse 2023/06/01

“独自のデータセットでGPTのような大規模言語モデルを簡単にファインチューニングできるライブラリ「Lit-Parrot」をGoogle Cloud Platformで使ってみた”

リンク

Anthropicのテキスト生成AI「Claude」がOpenAIのGPT-4の約3万2000トークンの3倍近い10万トークンに対応して長文の入力も可能に

ChatGPTなどの対話型AIは、高精度なテキストを生成できる一方、入力が可能な言語の最小単位である「トークン」には限度があります。OpenAIのGPT-4は約3万2000トークンまでの入力が可能ですが、AI研究スタートアップのAnthropicがテキスト生成AI「Claude」のトークンを9000から10万へ拡張したことを発表しました。 Anthropic | Introducing 100K Context Windows https://www.anthropic.com/index/100k-context-windows Anthropic’s latest model can take ‘The Great Gatsby’ as input | TechCrunch https://techcrunch.com/2023/05/11/anthropics-latest-mode

gengohouse 2023/05/12

“Anthropicのテキスト生成AI「Claude」がOpenAIのGPT-4の約3万2000トークンの3倍近い10万トークンに対応して長文の入力も可能に”

リンク

オープンソースで商用利用可能な言語モデル「MPT-7B」リリース、GPT-4の2倍の長さの文章を受け付ける

機械学習トレーニング用のシステムを提供する企業のMosaicMLが、オープンソースで商用利用可能な大規模言語モデル(LLM)の新基準「MPT(MosaicML Pretrained Transf ormer)-7B」を導入しました。MPTの基本モデルと、この基本モデルをベースに構築できる3つのバリエーションが公開されています。 Introducing MPT-7B: A New Standard for Open-Source, Commercially Usa ble LLMs https://www.mosaicml.com/blog/mpt-7b MPT-7BはMetaの大規模言語モデル「LLaMA」のパラメーター数70億のモデル「LLaMA-7B」と同等の品質を確保しており、標準的なタスクでは7B～20Bのオープンソース言語モデルをしのぐ性能を示しています。 MPT-7Bのバリエーショ

gengohouse 2023/05/09

“オープンソースで商用利用可能な言語モデル「MPT-7B」リリース、GPT-4の2倍の長さの文章を受け付ける”

リンク

WebGPUでブラウザからGPTなど言語モデルを体験できる「WebGPT」

GPUプログラミングをブラウザ上で行うことができるAPI「WebGPU」に、Google Chromeのバージョン113から正式に対応するようになりました。このWebGPUを使って、GPTなどの言語モデルをブラウザ上で体験できる「WebGPT」が公開されています。 GitHub - 0hq/WebGPT: Run GPT model on the browser with WebGPU. An implementation of GPT inference in less than ~1500 lines of vanilla Javascript. https://github.com/0hq/WebGPT WebGPTはデモページが公開されており、以下からアクセスできます。 WebGPU GPT Model Demo https://www.kmeans.org/ WebGPTはWeb

gengohouse 2023/05/08

“WebGPUでブラウザからGPTなど言語モデルを体験できる「WebGPT」”

リンク

無料で商用利用もOKな完全オープンソースの大規模言語モデルを開発するプロジェクト「RedPajama」がトレーニングデータセットを公開

OpenAIのGPT-4などの大規模言語モデルによって、AI 技術が急速に普及しています。しかし、GPT-4をはじめとする大規模言語モデルの多くがクローズドな商用モデルか、あるいは部分的にしかオープンになっていません。「RedPajama」は完全にオープンソース化された大規模言語モデルを開発するプロジェクトで、その第1段階として1兆2000億以上のトークンを含むLLaMAトレーニングデータセットが公開されました。 RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens — TOGETHER https://www.together.xyz/blog/redpajama GitHub -

gengohouse 2023/04/18

“無料で商用利用もOKな完全オープンソースの大規模言語モデルを開発するプロジェクト「RedPajama」がトレーニングデータセットを公開”

リンク

無料で商用利用も可能なオープンソースの大規模言語モデル「Dolly 2.0」をDatabricksが発表

2023年3月に大規模言語モデル(LLM)「Dolly」を公開したDatabricksが、わずか2週間で、初のオープンソースの命令追従型LLMだという「Dolly 2.0」を発表しました。 Free Dolly: Introducing the World's First Open and Commercially Viable Instruction-Tuned LLM - The Databricks Blog https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm Databricks releases Dolly 2.0, the first open, instruction-following LLM for commercial

gengohouse 2023/04/13

リンク

ChatGPTに匹敵する性能の日本語対応チャットAI「Vicuna-13B」のデータが公開され一般家庭のPC上で動作可能に

Vicuna-13BはChatGPTの90％の性能を持つと評価されているチャットAIで、オープンソースなので誰でも利用できるのが特徴です。2023年4月3日にモデルのウェイトが公開され、誰でも手元のPCでチャットAIを動作させることが可能になったとのことで、早速使い勝手を試してみました。 GitHub - lm-sys/FastChat: The release repo for "Vicuna: An Open Chatbot Impressing GPT-4" https://github.com/lm-sys/FastChat/#vicuna-weights 2023年3月30日にはオンラインで動作を試せるデモ版が公開されていました。デモ版の様子は下記の記事で確認できます。 ChatGPTやGoogleのBardに匹敵する精度の日本語対応チャットAI「Vicuna-13B」が公開され

gengohouse 2023/04/07

“Vicuna-13B”

リンク

オープンソースでGPTベースの大規模言語モデル「Cerebras-GPT」7種類が一気に誰でもダウンロード可能に

AI企業のCerebrasが、オープンソースでパラメータ数1億1100万～130億の大規模言語モデル「Cerebras-GPT」7種類を公開しました。Cerebras-GPTは、OpenAIのGPT-3をベースに、DeepMindが2022年3月にリリースしたChinchilla方式で学習したモデルで、これまでに公開されているどのモデルよりも学習時間が短く、学習コストが低く、消費電力が少ないのが特徴とのことです。 Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models - Cerebras https://www.cerebras.net/blog/cerebras-gpt-a-family-of-open-compute-efficient-large-language-models/ cerebr

gengohouse 2023/04/06

リンク

ChatGPTなどの対話型AIは「正解を探す検索エンジン」ではなく「単語の計算機」と考えるべきだという指摘

近年はOpenAIが開発した「ChatGPT」やGoogleの「Bard」など、高性能な対話型AIが登場して注目を集めています。これらの言語モデルを用いたAIについて、「質問したら何でも答えてくれる検索エンジンのようなもの」と考えている人も多いかもしれませんが、ソフトウェア開発者でブロガーのSimon Willison氏が、「言語モデルを用いた対話型AIは検索エンジンではなく『単語の計算機』と考えた方がいい」と述べています。 Think of language models like ChatGPT as a “calculator for words” https://simonwillison.net/2023/Apr/2/calculator-for-words/ 多くの人々はChatGPTなどの対話型AIにさまざまな質問をして、その答えがどれほど正確なのか、あるいはデタラメなものな

gengohouse 2023/04/05

リンク

人間が「AIが書いた文章」を特定できる確率は約50％でコイントスと同じレベルに過ぎない

OpenAIのGPT-4やGoogleのPaLMなど、人間並みの精度で文章を生成できる大規模言語モデル(LLM)が登場し、AIが生成した文章なのか人間が生成した文章なのかを見分けることが難しくなっています。スタンフォード大学人間中心人工知能研究所(HAI)の研究チームが、文章がAIによって書かれたかどうかを人間が正確に特定できる確率は約50％だったという研究結果を発表しました。 Human heuristics for AI-generated language are flawed | PNAS https://doi.org/10.1073/pnas.2208839120 Was this written by a human or AI? ¯＼_(ツ)_/¯ https://hai.stanford.edu/news/was-written-human-or-ai-tsu AIが生成

gengohouse 2023/03/24

“人間が「AIが書いた文章」を特定できる確率は約50％でコイントスと同じレベルに過ぎない”

リンク

AIで入力した文章から人物や固有名詞間のつながりをナレッジグラフ化してくれる「GraphGPT」が登場

スタンフォード大学の研究者であるVarun Shenoy氏が、入力した文章に含まれる人物や固有名詞間のつながりをナレッジグラフ化するAI「GraphGPT」を開発しました。GraphGPTはOpenAIが開発した自然言語処理モデルのGPT-3を使用しており、構造化されていない自然言語をグラフに変換するとのことです。 GraphGPT https://graphgpt.vercel.app/ GitHub - varunshenoy/GraphGPT: Extrapolating knowledge graphs from unstructured text using GPT-3 https://github.com/varunshenoy/GraphGPT Can LLMs extract knowledge graphs from unstructured text? Introduc

gengohouse 2023/02/10

“AIで入力した文章から人物や固有名詞間のつながりをナレッジグラフ化してくれる「GraphGPT」が登場”

リンク

ChatGPT生成の文章を検出する「DetectGPT」をスタンフォード大学が開発

「ChatGPT」は高精度な文章を出力できる対話型チャットAIで、その精度は人間が書いた文章かChatGPTが書いた文章かを人間が見分けることは困難なレベル。しかし、ChatGPTのようなチャットAIが出力するテキストにはAIならではの特徴があるということで、スタンフォード大学がChatGPTのようなチャットAIの作った文章を検出する「DetectGPT」を開発しています。 DetectGPT https://ericmitchell.ai/detectgpt/ Stanford introduces DetectGPT to help educators fight back against ChatGPT generated papers - Neowin https://www.neowin.net/news/stanford-introduces-detectgpt-to-help

gengohouse 2023/01/30

“ChatGPT生成の文章を検出する「DetectGPT」をスタンフォード大学が開発”

リンク

OpenAI開発のテキスト生成AI「GPT-3」がどんな処理を行っているのかを専門家が解説

AI研究団体・OpenAIが発表して話題を呼んだ対話型AI「ChatGPT」は、テキスト自動生成AI・GPT-3の派生形である「GPT-3.5」をファインチューニングした自然言語処理モデルです。チューリッヒ工科大学で機械学習とロボティクスの博士号課程に進んでいるダニエル・デュガス氏が、GPT-3が行っている数学的処理工程について解説しています。 The GPT-3 Architecture, on a Napkin https://dugas.ch/artificial_curiosity/GPT_architecture.html ◆入力／出力まずGPTの「入力」とは一連のN個の単語のことで、「(入力)トークン」とも呼ばれます。そして、GPTの「出力」とは、入力トークンの最後に配置される可能性が最も高いと推測される単語です。例えば「not all heroes wear(すべてのヒーロ

gengohouse 2022/12/13

リンク

対話向け言語モデル「ChatGPT」発表、間違いを認めたり不適切な要求を拒否したりすることが可能に

高性能言語モデル「GPT-3」を開発したOpenAIが、対話に最適化されたAI言語モデル「ChatGPT」のテスト版を公開しました。 ChatGPT: Optimizing Language Models for Dialogue https://openai.com/blog/chatgpt/ OpenAI debuts ChatGPT and GPT-3.5 series as GPT-4 rumors fly | VentureBeat https://venturebeat.com/ai/openai-debuts-chatgpt-and-gpt-3-5-series-as-gpt-4-rumors-fly/ ChatGPT is a GPT-3 chatbot from OpenAI that you can test now https://the-decoder.com/ch

gengohouse 2022/12/01

“ネットサービス .p-category{ position: absolute; right: 2px; } ”

リンク

コーディングも支援可能な文章生成AI「GPT-3」が文脈に応じた内容を生成するように進化

1週間AIとバレずに人間と会話できたという高性能な文章生成AI「GPT-3」がアップデートされ、新たに「文脈」を理解して内容を変化させられるようになりました。この技術はGithub Copilotにも導入されており、後ろの内容を見つつ適切に抜けているコードを埋められるように進化しています。 New GPT-3 Capabilities: Edit & Insert https://openai.com/blog/gpt-3-edit-insert/ GPT-3はこれまで、既存の文章を読んでその続きを書くことが可能でしたが、既に書かれている文章の途中だけを変更することはできませんでした。今回のアップデートでは、GPT-3が文章を生成する際、「末尾に追記」だけでなく「文章中に挿入」することが可能になります。例えば下の画像は「高校卒業」という目次を元にGPT-3が生成した文章です。GPT-3が

gengohouse 2022/03/18

リンク

「AIが差別発言しないかをAIでチェックする」というDeepMindの試み

人間と対話を行ったり文章を自動で生成したりなど、AIが自然言語を扱うために文法や言葉のつながりを定式化したものが言語モデルです。言語モデルは人間ではないので、学習結果によっては差別的な内容を含む内容を出力することがあります。そこで、「言語モデルが差別的な内容をするかどうかのチェックに言語モデルを使う」というアプローチを、AI企業のDeepMindが発表しました。 Red Teaming Language Models with Language Models | DeepMind https://deepmind.com/research/publications/2022/Red-Teaming-Language-Models-with-Language-Models 2016年にMicrosoftが会話理解を研究する目的で、自動的にツイートするTwitterボットの「Tay」を公開しま

gengohouse 2022/02/09

リンク

はてなブックマーク

タグ

ブックマーク / gigazine.net (48)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス