当サイト【スタビジ】の本記事では、昨今のAIの進化のきっかけになっているGPTシリーズについてまとめていきたいと思います。GPT-1から始まりGPT-2、GPT-3、そしてChatGPTであるGPT-3.5、GPT-4と進化してきました。この進化の軌跡と違いについて解説していきます。 こんにちは! データサイエンティストのウマたん(@statistics1012)です! この記事では最近のAIブームの火付け役になったGPTシリーズについて簡単にまとめていきたいと思います。
タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。
この記事は弊社の機械学習モデル(GPT-2言語モデル)が自動で生成したものをそのまま掲示したフィクションであり、実在の人物・団体・商品等とは何ら関係ありません。 GPT-2言語モデルは、朝日新聞記事で事前訓練した後に、日本語Wikipedia記事を用いてfine-tuningしています。詳細はこちらまで。 この記事はあらかじめ弊社の言語モデルに生成させた結果を蓄積し、スクリプトにより表示したもので、リアルタイムに生成させているものではありません。リロード、もしくはこちらをクリックすると、新しい記事が出てきます。 HOME PRODUCTS ABOUT PUBLICATIONS API利用停止 サイトポリシー プライバシーポリシー CONTACT 当サイトに掲載された内容は、日本の著作権法並びに国際条約により保護されています。掲載記事・写真・データ等の無断転載を禁じます。 Copyright
rinna株式会社(本社:東京都渋谷区/代表取締役:ジャン“クリフ”チェン、以下rinna社)は、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開しました。 ■背景 rinna社は、MicrosoftのAI&リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業です。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表してきました。これらの最新技術は、当社が運営するAIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボットである「AIキャラクター」の開発に応用され、企業のマーケティングなどにお使いいただいています
オレ定義だけど Togetter まとめ風というのはこういうやつ。 散歩で急にシロクマと会っても食べるのは肉だけにしたほうがいい「肝臓1gに含まれるビタミンAが致死量を超える」 - Togetter まとめタイトルの終わりに誰かのツイートの引用を挿入する、という形式。よくできたもので、誰かの生の声が入っているだけで、感想やハイライトを抽出し、ちょっと気を引くことができる。まあ一種の演出で、ニュースサイトがやってることもある。 タイトルでアテンションを奪い合わなければならない宿命におけるクリック最適化の手法ということだろう。今回はこれを真似してみることにする。すでに書かれた自分のブログ記事に、括弧書きでセリフっぽいものの引用を捏造して付け加えることで魅力がアップするのか、という実験だ。 こういう生成系のタスクも、とりあえず HuggingFace+Google Colaboratory でや
人工知能を研究する非営利組織のOpenAIが開発したAIによる文章生成ツール「GPT-2」は高精度の文章が自動生成できるため、開発陣が「あまりにも危険過ぎる」と危惧して論文公開を延期する事態に発展しました。このGPT-2のトレーニングに使用されるアーキテクチャを直接適用し、自動で画像を生成する技術が開発されています。 Image GPT https://openai.com/blog/image-gpt/ ある領域で学習させたモデルを、ほかの領域に転用する技術を転移学習(トランスファーラーニング)と呼びますが、GPT-2はこの転移学習モデルによって大きな成功を得ました。人間が関わらない教師なし学習は、GPT-2の他にも、Googleの「BERT」やFacebookの「RoBERTa」などで、目覚ましい進歩を遂げています。一方、自然言語の分野では転移学習モデルの成功は目覚ましいものの、これま
2021年11月18日にOpenAIが「GPT-3」のウェイティングリストを解除すると発表しました。 これにより申請すれば誰でもGPT-3のAPIを使用できるようになります。 ということで、GPT-3 ... ただ、上記の記事でも紹介していますが、日本語に特化したモデルではなく、やっぱり日本語で生活している人にとっては日本語のGPTが欲しくなりますね。 そこで、13億パラメータを持つGPT-2のモデルを日本語で学習して、公開してくれたのがこの「rinna」社です。 ということで今回は、この日本語GPT-2を触ってみたいと思います。 なお、今回はモデルの説明は一切ありませんので、詳細についてはこちらの記事を参照していただければと思います。 GPT ... 『【論文解説】OpenAI 「GPT」を理解する』 一番仕組みを詳しく解説しています。GPT-2 ... 『【論文解説】OpenAI 「G
生成AI(人工知能)を含む最新のAI研究動向を知るため、世界中の研究者やエンジニアが参照しているのが、論文速報サイト「arXiv(アーカイブ)」である。米OpenAI(オープンAI)や米Google(グーグル)などAI開発を主導するIT企業の多くが、研究成果をarXivに競って投稿している。 そんなarXivの投稿論文から、2024年4月(1日~30日)にSNSのX(旧Twitter)で多く言及されたAI分野の注目論文を紹介する。調査には米Meltwater(メルトウォーター)のSNS分析ツールを利用した。対象はXの全世界のオリジナル投稿、コメント、再投稿、引用投稿である。調査は、日経BPが2024年1月に新設したAI・データラボの活動の一環として実施した。 「GPT2」に再び脚光?スケーリング則の論文 最初に取り上げるのが、大規模言語モデル(LLM)のスケーリング則に関する論文「Phys
チャットAI「ChatGPT」などの開発で知られるOpenAIは、人間よりもはるかに賢いAIである「超知性」が2033年までの10年間で開発されると推測しています。しかし、超知性を確実に制御する方法は現状構築されていません。OpenAIでは「スーパーアライメントチーム」を立ち上げ、超知性を制御するための研究が行われており、その方法を解説しています。 WEAK-TO-STRONG GENERALIZATION: ELICITING STRONG CAPABILITIES WITH WEAK SUPERVISION (PDFファイル)https://cdn.openai.com/papers/weak-to-strong-generalization.pdf Weak-to-strong generalization https://openai.com/research/weak-to-st
ユーザーがログインせずに様々な言語モデルとチャットしてその出力を評価することができるウェブサイト「LMSYS.org」のChatbot Arenaで、「GPT-4.5」あるいは「GPT-5」と思われるモデルがテストされているのではないかと話題になっています。 GPT-2? https://rentry.co/GPT2 GPT-4.5 or GPT-5 being tested on LMSYS? | Hacker News https://news.ycombinator.com/item?id=40199715 プロンプトエンジニアであるdesuAnon氏によると、LMSYS.orgで利用可能になったモデルの一つである「gpt2-chatbot」は従来のGPT-4モデルやClaude 3 Opusが解決できないレベルの問題に対応し、英語だけではなく日本語の処理能力も高く、アスキーアートの
「gpt2-japanese」の「mediumモデル」が公開されたので、AIによる日本語テキスト生成を試してみました。 1. gpt2-japaneseのインストール (1) Google Colabのノートブックを開く。 (2) メニュー「編集→ノートブック→ハードウェアアクセラレータ」で「GPU」を選択。 (3) 以下のコマンドで、「gpt2-japanese」をインストール。 # gpt2-japaneseのインストール !git clone https://github.com/tanreinama/gpt2-japanese %cd gpt2-japanese !pip install -r requirements.txt2. モデルのダウンロード「mediumモデル」を「gpt2-japanese」フォルダにダウンロードします。 # mediumモデルのダウンロード !wge
2019年に公開されるやいなや「危険すぎる」と話題になったOpenAIの「GPT-2」を、ゼロから作成したレポートが公開されました。作成にかかった時間は、1時間14ドル(約2200円)のクラウドコンピューティングサービスで1時間半だったため、総コストは約20ドル(約3100円)に収まっています。 Reproducing GPT-2 (124M) in llm.c in 90 minutes for $20 · karpathy/llm.c · Discussion #481 · GitHub https://github.com/karpathy/llm.c/discussions/481 # Reproduce GPT-2 (124M) in llm.c in 90 minutes for $20 ✨ The GPT-2 (124M) is the smallest model in t
生成AIブームの火付け役となった「ChatGPT」を提供する米OpenAIは、2023年3月に高性能な大規模言語モデル(LLM)「GPT-4」を提供して以来、次の高性能モデルについて沈黙を守り続けている。そんな中、LLMを比較できるWebサービス上にOpenAIのものらしき謎の高性能なLLMが現れた。同社のサム・アルトマンCEOも言及しており、OpenAIが関連している可能性も少なくなさそうだ。 米カリフォルニア大学バークレー校の研究室が運営するプロジェクト「LMSYS Org」(The Large Model Systems Organization:大規模モデルシステム機関)で公開しているWebサービス「Chatbot Arena」の中に、「gpt2-chatbot」というモデルが突如現れ、4月29日深夜(日本時間、以下同様)から話題になり始めている。 記事執筆時点の30日午後5時現在
はじめに Python 以外の言語から AI にアクセスするのは難しすぎると考えている人が多いと思います。しかし、最近は、事前トレーニング済みのモデルが多数公開されており、さまざまなプラットフォームやプログラミング言語から AI 推論を簡単に実行できるようになっています。 ここでは、Ruby 言語から ONNX ランタイムを実行して英文を生成できる GPT-2 モデルで遊んでみたいと思います。 ONNX ランタイムを使用すると、推論は簡単に実行できます。 事前準備とインストール。 下記の3つのGemをインストールします。 onnxruntime - ONNX Runtime のRubyバインディングです。 tokenizers - Hugging Face の提供しているTokenizerのRubyバインディングです。 numo-narray - Rubyの行列計算ライブラリです。NumP
みなさん、こんにちは! こちらは「ABEJA AdventCalendar 2021」 の15日目の記事です。 データサイエンティストとは? いきなりですが、データサイエンティストとは何でしょうか? 私自身、データサイエンティストとして働いていますが、最近よく「データサイエンティストになるにはxxxxのスキルが必要だ」とか「データサイエンティストとはxxxxだ」みたいな論争話題をよく聞きます。 データサイエンティストという職業をよく耳にするようになってから、まだ時間も経っていないですし、今後どうなっていくのかも分かりません。 そんな中、データサイエンティストになるべく、データサイエンティストとして今後もキャリアを続けていけるようになるべく、各々がキャリアについて考えているので、色々な意見が出てくるのは自然なことかもしれません。 しかしまぁよく分からないですよね。 ということで、人々による議
教師ありデータをもっと減らしたい!! GPTの登場により、それまで何万、何十万も必要だった教師ありデータが、たったの数千個で足りるようになりました. これはとてつもない進歩です! しかし、、皆さんもこう思ったかもしれません、、 「数千個て多くない??」 そうです!全くその通りです! 何十万もの教師ありデータセットと比べるとそれは少ないですが、普通に数千個て多いですよね?笑 僕だったらそんなデータ作りたいと思いません😅 皆さんと僕がそう思ったように、OpenAIさんも同じことを思っていました. そこでOpenAIのエンジニアはまたもやすごいものを作り出したのです! なんとGPTの進化系である「GPT-2」を作り出し、必要な教師ありデータを数個まで減らすことに成功したのです! さすがは自然言語AIのパイオニアOpenAI様ですね、すごすぎます、、 この記事では「GPT-2」とは何なのか、どう
","unk_token":"","pad_token":"[PAD]","bos_token":"","cls_token":"[CLS]","sep_token":"[SEP]","mask_token":"[MASK]"}},"createdAt":"2022-03-02T23:29:05.000Z","discussionsDisabled":false,"downloads":5272,"downloadsAllTime":508495,"id":"rinna/japanese-gpt2-medium","isLikedByUser":false,"isWatchedByUser":false,"inference":"not-popular-enough","lastModified":"2024-07-20T07:50:47.000Z","likes":75,"pipelin
こんにちは、品川です。 最近仕事でGPT-2,3について調べてたのですが、日本語GPT-2を作っているプロジェクトのことを知りました。 github.com 見てみると学習済みモデル(small, medium)が公開済みで、fine-tuning用のコードなども揃っておりいたく感動しました。 本記事は生成結果をぜひみてみたいということで試してみたという趣旨の記事になります。 使い方は上記リポジトリのREADMEを読んでいただければ良いかと思います。 contextをオプションで指定することで、contextに沿った生成が可能とのこと。なるほど、ならば架空のNAIST生をD進させてD進後の状況を独白してもらうことも可能・・・? 早速試してみる(この結果はフィクションです) python gpt2-generate.py \ --model gpt2ja-medium \ --num_gen
「gpt2-japanese」の「smallモデル」と「ファインチューニングのコード」が公開されたので、日本語によるGPT-2のファインチューニングを試してみました。 前回 (1) Google Colabのノートブックを開く。 (2) メニュー「編集→ノートブック→ハードウェアアクセラレータ」で「GPU」を選択。 (3) 以下のコマンドで、「gpt2-japanese」をインストール。 # gpt2-japaneseのインストール !git clone https://github.com/tanreinama/gpt2-japanese %cd gpt2-japanese !pip uninstall tensorflow -y !pip install -r requirements.txt2. モデルのダウンロード「smallモデル」を「gpt2-japanese」フォルダにダウン
チャットボットの能力をバトル形式で比較評価する「Chatbot Arena」というサイトに登場するやいなや、GPT-4などの強豪モデルを次々と打ち負かして話題となっていたAIの正体が、OpenAIの新モデルである可能性が高いことが判明しました。 gpt2-chatbot confirmed as OpenAI https://simonwillison.net/2024/May/8/gpt2-chatbot-confirmed-as-openai/ Mystery chatbot is likely a new OpenAI product https://www.axios.com/2024/05/02/mystery-chatbot-openai-gpt2 Is this mystery chatbot really GPT-4.5 in disguise? Here's how to
文章を楽に書きたい。 日常生活でそう思ったことはないでしょうか? 文章を書く機会は社会人だけでなく学生でも多いと思います。 報告書やメール、レポート課題、そして今読んでいるようなブログなどです。 その時に出だしは順調でも途中で詰まったり、表現がわからずにネットで調べたりして、ちっとも進まないということがよくあります。 そういった場合に続きの文章を書いてくれる、もしくは続きの候補を出してくれるシステムがあると非常に便利ですよね? 私もそういう楽をしたいために色々探ってみましたが、どうやら文章自動作成ツールを作るには「自然言語処理」というものを学ぶ必要がありそう……。 しかもそれを学ぶ上では数々の用語や知識が必要でなかなか難しそうでした。 楽になるためにはまずは勉強をしなくてはダメか、と諦めかけていたのですが、ネットの海を漂っていると事前学習済みのモデルがあることがわかりました。 そのひとつが
日本マイクロソフトのチャットbot事業を分社化したrinna(東京都渋谷区)は4月7日、日本語に特化した「GPT-2」の言語モデルをオープンソース化した。製品開発に向けた実験のために構築したもので、「GitHub」や自然言語処理モデルのライブラリ「HuggingFace」で公開している。 GPT-2は、AI研究企業の米OpenAIが提供する言語モデル。「人間が使う言葉らしさ」を確率にしたもので、ある単語や文が与えられたときに、次に来る確率が高い自然な単語を推定するという。米NvidiaのGPU「Tesla V100」を使い、70GBの日本語テキストを約1カ月かけてトレーニングさせたため、高度な日本語の文章を生成できるとしている。
% git clone https://github.com/tanreinama/gpt2-japanese Cloning into 'gpt2-japanese'... remote: Enumerating objects: 91, done. remote: Counting objects: 100% (91/91), done. remote: Compressing objects: 100% (60/60), done. remote: Total 132 (delta 40), reused 79 (delta 30), pack-reused 41 Receiving objects: 100% (132/132), 1.19 MiB | 1.35 MiB/s, done. Resolving deltas: 100% (59/59), done. % % cd gp
はじめに GPT-2のファインチューニングの仕方がなんとなくわかってきたので、メモとして残しておきます。 事前学習モデルはrinna社が提供してくれている以下の日本語モデルを使用します。huggingface/transformersから簡単にロードして使うことができます。 https://huggingface.co/rinna/japanese-gpt2-medium こちらのモデルはmediumとあるので、TransformerのDecoderブロックが24層重なったやつですね。 今回紹介する内容はGPT-2条件付き文章生成です。 GPT-2のチュートリアル的な記事でよく見るのが、与えた文章の続きにくる文章を生成するようなものが多いかと思いますが、出力の形式等を入力の段階から制御するようなことをしてみようと思います。 GPT-2自体の理解や、使い方、ファインチューニングの仕方、生成文
OpenAIの「ChatGPT」やマイクロソフトの「Copilot」、グーグルの「Gemini」など、対話型AIの心臓部である大規模言語モデル(LLM)。だがその仕組を理解するにはプログラミングの知識が不可欠だ。 「Spreadsheets are all you need.ai」というウェブサイトでは、驚くことにExcelのスプレッドシートを使って、LLM(GPT2)がどのように動作するかを再現している。 GPT-2をローカルで再現 同サイトで提供されている「Spreadsheets-are-all-you-need」は、大規模言語モデル(LLM)の動きを再現するExcelシートだ。 ChatGPTのように、「Mike is quick. He moves(マイクは素早い。彼は◯◯動く)」とセルに入力するとチャット型AIのように「quickly(素早く)」と続きを出力してくれるという。
前回は ChatGPT と Hugging Face を簡単に触ってみました。 今回は ChatGPT に自然言語処理モデル「GPT2-Japanese」の使用方法を聞きながらプログラムを実装してみたところ、想像以上に優秀だったので、その過程をご紹介したいと思います。 (想像以上ではありましたが、そのままコピペでは動作しなかったので、エラーの回避方法も ChatGPT に問いかけをしながら実装を進めました) ChatGPT の登場以降、SNSでは「プログラマーは失業する」とか「ソフトウェアエンジニアの危機」みたいな情報が散見されるので、ChatGPT がソフトウェア開発にどれくらい役に立つのかを試してみたくなりました。 前回は ChatGPT のベース技術である「Transformer」について調べていたので、その流れで今回は「”ChatGPT”の力を借りて自然言語処理を”実際に”プログラ
はじめに 2022年11月にOpenAIが公開したchatGPTの反響が凄いですね。 公開6日目にして100万人がユーザー登録したとか。 今のところは、無料で使うことができますが、いずれは利用が制限されるかもしれませんね。 ここでは、chatGPTよりは精度が落ちますが、無料で使うことができて、日本語に特化した事前学習済みモデルもあるGPT-2を採り上げ、文章生成にチャレンジしたいと思います。 具体的にはrinna社が開発したGPT-2モデルを使用します。 事前学習済みモデルだけでもそれなりの文章を生成できますが、せっかくなので、特定のドメインでファインチューニングさせてみて、文章生成をしていきたいと思います。 rinna社の日本語GPT-2の特徴 言語モデルは、会話や文章の「人間が使う言葉」を確率としてモデル化したものです。優れた言語モデルとは、確率を正確に推定できるものを指します。例え
オープンAIは、機械学習技術を利用して、画像の半分から残り半分を予測し、1つの画像を完成させられるAIシステムを開発した。以前に開発した驚くほど自然な「フェイクニュース」を量産できる文章作成ツールの画像版だ。 by Karen Hao2020.07.22 24 18 6 6 サンフランシスコに拠点を置く非営利の研究機関オープンAI(OpenAI) は2019年2月、もっともらしい英語の文章を書ける人工知能(AI)システムを発表した。「GPT-2」と呼ばれるこのAIシステムに文章や段落の冒頭部分を入力すると、AIが文章の続きを勝手に考えてくれるというものだ。GPT-2はエッセー程度の長さの文章まで生成でき、その内容はまるで人間が書いた文章のように一貫性がある。 そして今、オープンAIは、GPT-2と同じアルゴリズムに、画像の一部を与えたら何が起きるのかを探っている。重大な影響力と可能性に満ち
チャットGPTの画面を開き「全庁導入」に向けた取り組みを加速する都職員=7月12日午後2時47分、都庁(外崎晃彦撮影) 自動で文章を作り出すなどの高い利便性で利用が急拡大する生成AI(人工知能)の「チャットGPT」について、東京都は23日から学校職員を含む約5万人の都職員が業務で使えるようにする。文書の作成や要約などに活用し、仕事の効率化やサービス向上を目指す。都民からは情報漏洩などの懸念の声も上がるが、都はセキュリティー配慮や研修などを徹底し、慎重な運用を目指す。 「都民の生活をよくするために、デジタル技術を使って行政を進めている部署です。デジタル技術を使うことで、サービスの質がとてもよくなります」 これは都のデジタルサービス局が、都庁を見学などに訪れた小学生向けに、局の業務を分かりやすく説明する文章の作成をチャットGPTに指示した際の回答だ。業務効率向上のため、チャットGPTの活用の在
「rinna」の日本語GPT-2モデルが公開されたので、推論を試してみました。 ・Huggingface Transformers 4.4.2 ・Sentencepiece 0.1.91前回 特徴は、次のとおりです。 ・学習はCC-100のオープンソースデータ。 ・Tesla V100 GPUで70GBの日本語テキストを約1カ月学習。 ・モデルの性能は約18 perplexity。2. rinnaの日本語GPT-2モデルの推論(1) Huggingface TransformersとSentencePieceをインストール。 # Huggingface Transformersのインストール !pip install transformers==4.4.2 # Sentencepieceのインストール !pip install sentencepiece==0.1.91(2) 日本語GPT
今回は、LINEによる汎用的な超巨大言語モデルの開発の話題もあり、GPT-2以上に話題になっているOpenAI GPT-3について解説したいと思います。 結構長い論文ですが、論文の最後の方の内容も非常 ... まず、GPT-2論文の背景を説明しておきます。 2018年以降、ULMFiT、ELMo、OpenAI GPT、BERTと大規模な言語コーパスを使って教師なし学習で事前学習を行い、そのあとに特定のタスクについて教師あり学習でファインチューニングする手法により、目覚ましい成果があげられています。 しかしながら、これらのモデルもまだ数千や数万といった教師ありデータでファインチューニングしなければなりません。 人間については、そんなに大量のデータで学習しなくても、少しの追加の学習や手引きがあればタスクを解くことができます。 そこでGPT-2では、より人間に近い、汎用的に使えるモデルを構築する
こんにちは。音声認識エンジンの研究開発をしている大橋です。 今回はGPT3の一世代前のアーキテクチャであるGPT2を使ってGPT3ライクなクエリを試してみました。 GPT3とは ディープラーニング界の今年一番の発表は何と言ってもGPT3でしょう。 GPT3はパラメータ数175Bという超巨大アーキテクチャにスクレイピングしまくったウィキペディアのダンプが小さく見える超巨大データを約5億円とも6億円とも言われる費用をクラウドGPUに突っ込んで学習させたモデルです。 GPT3って何?っていう方は前回のブログを参照して頂けますでしょうか。 以前GPT3については多少触れましたが、一番の面白さはその使い方です。どんなデータをインプットするかによって、アウトプットされる型が変わります。インプットするデータの形式を工夫することで一つのモデルで文章生成、要約、質問に対してイエス/ノーで回答、質問に対して文
この度、gpt2論文を参考に最大サイズのgpt2の日本語版モデルを学習し公開いたしました。 この記事では学習にあたり工夫した点や問題点等を書き連ねます。シングルノードですが比較的大きなモデルを学習しているので知見などを共有できればと思います。 なお学習はA100(40gb)8枚のノードを使って合計70日程かけて学習しました。 現在公開されているdecoder系モデルのうち今回作成したモデルに近い規模のモデルは知る限り2つあり、こちらはgpt3論文を参考にパラメタ設定をしていると考えられ、今回作成したモデルとは層の深さと隠れ層の次元が異なります。 https://huggingface.co/rinna/japanese-gpt-1b https://huggingface.co/yellowback/gpt-neo-japanese-1.3B rinna/japanese-gpt-1bは生
Accompanying blog post: GPT in 60 Lines of Numpy You've seen openai/gpt-2. You've seen karpathy/minGPT. You've even seen karpathy/nanoGPT! But have you seen picoGPT??!? picoGPT is an unnecessarily tiny and minimal implementation of GPT-2 in plain NumPy. The entire forward pass code is 40 lines of code. picoGPT features: Fast? ❌ Nah, picoGPT is megaSLOW 🐌 Training code? ❌ Error, 4️⃣0️⃣4️⃣ not foun
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く