並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 24 件 / 24件

新着順 人気順

GPT-2の検索結果1 - 24 件 / 24件

  • 生成AI業界は「GPT2」で騒然、RAGは実用化へ新手法が続々

    生成AI(人工知能)を含む最新のAI研究動向を知るため、世界中の研究者やエンジニアが参照しているのが、論文速報サイト「arXiv(アーカイブ)」である。米OpenAI(オープンAI)や米Google(グーグル)などAI開発を主導するIT企業の多くが、研究成果をarXivに競って投稿している。 そんなarXivの投稿論文から、2024年4月(1日~30日)にSNSのX(旧Twitter)で多く言及されたAI分野の注目論文を紹介する。調査には米Meltwater(メルトウォーター)のSNS分析ツールを利用した。対象はXの全世界のオリジナル投稿、コメント、再投稿、引用投稿である。調査は、日経BPが2024年1月に新設したAI・データラボの活動の一環として実施した。 「GPT2」に再び脚光?スケーリング則の論文 最初に取り上げるのが、大規模言語モデル(LLM)のスケーリング則に関する論文「Phys

      生成AI業界は「GPT2」で騒然、RAGは実用化へ新手法が続々
    • 謎の高性能AIモデル「gpt2-chatbot」がChatbot Arenaに登場、GPT-4.5かGPT-5なのではないかと話題に

      ユーザーがログインせずに様々な言語モデルとチャットしてその出力を評価することができるウェブサイト「LMSYS.org」のChatbot Arenaで、「GPT-4.5」あるいは「GPT-5」と思われるモデルがテストされているのではないかと話題になっています。 GPT-2? https://rentry.co/GPT2 GPT-4.5 or GPT-5 being tested on LMSYS? | Hacker News https://news.ycombinator.com/item?id=40199715 プロンプトエンジニアであるdesuAnon氏によると、LMSYS.orgで利用可能になったモデルの一つである「gpt2-chatbot」は従来のGPT-4モデルやClaude 3 Opusが解決できないレベルの問題に対応し、英語だけではなく日本語の処理能力も高く、アスキーアートの

        謎の高性能AIモデル「gpt2-chatbot」がChatbot Arenaに登場、GPT-4.5かGPT-5なのではないかと話題に
      • OpenAIの「超知性」誕生に備える研究チームがGPT-2のような弱いAIモデルでGPT-4のように強力なAIを制御する方法を詳しく説明

        チャットAI「ChatGPT」などの開発で知られるOpenAIは、人間よりもはるかに賢いAIである「超知性」が2033年までの10年間で開発されると推測しています。しかし、超知性を確実に制御する方法は現状構築されていません。OpenAIでは「スーパーアライメントチーム」を立ち上げ、超知性を制御するための研究が行われており、その方法を解説しています。 WEAK-TO-STRONG GENERALIZATION: ELICITING STRONG CAPABILITIES WITH WEAK SUPERVISION (PDFファイル)https://cdn.openai.com/papers/weak-to-strong-generalization.pdf Weak-to-strong generalization https://openai.com/research/weak-to-st

          OpenAIの「超知性」誕生に備える研究チームがGPT-2のような弱いAIモデルでGPT-4のように強力なAIを制御する方法を詳しく説明
        • OpenAIの共同設立者が「GPT-2」をわずか90分の時間と3100円の費用で再現するレポートを公開

          2019年に公開されるやいなや「危険すぎる」と話題になったOpenAIの「GPT-2」を、ゼロから作成したレポートが公開されました。作成にかかった時間は、1時間14ドル(約2200円)のクラウドコンピューティングサービスで1時間半だったため、総コストは約20ドル(約3100円)に収まっています。 Reproducing GPT-2 (124M) in llm.c in 90 minutes for $20 · karpathy/llm.c · Discussion #481 · GitHub https://github.com/karpathy/llm.c/discussions/481 # Reproduce GPT-2 (124M) in llm.c in 90 minutes for $20 ✨ The GPT-2 (124M) is the smallest model in t

            OpenAIの共同設立者が「GPT-2」をわずか90分の時間と3100円の費用で再現するレポートを公開
          • 謎の生成AI「gpt2」登場で騒然 次世代のGPT? アルトマンCEOも言及

            生成AIブームの火付け役となった「ChatGPT」を提供する米OpenAIは、2023年3月に高性能な大規模言語モデル(LLM)「GPT-4」を提供して以来、次の高性能モデルについて沈黙を守り続けている。そんな中、LLMを比較できるWebサービス上にOpenAIのものらしき謎の高性能なLLMが現れた。同社のサム・アルトマンCEOも言及しており、OpenAIが関連している可能性も少なくなさそうだ。 米カリフォルニア大学バークレー校の研究室が運営するプロジェクト「LMSYS Org」(The Large Model Systems Organization:大規模モデルシステム機関)で公開しているWebサービス「Chatbot Arena」の中に、「gpt2-chatbot」というモデルが突如現れ、4月29日深夜(日本時間、以下同様)から話題になり始めている。 記事執筆時点の30日午後5時現在

              謎の生成AI「gpt2」登場で騒然 次世代のGPT? アルトマンCEOも言及
            • AI対戦アリーナで無双していた謎の覆面チャットボット「gpt2-chatbot」がOpenAIの新モデルだった可能性が急浮上

              チャットボットの能力をバトル形式で比較評価する「Chatbot Arena」というサイトに登場するやいなや、GPT-4などの強豪モデルを次々と打ち負かして話題となっていたAIの正体が、OpenAIの新モデルである可能性が高いことが判明しました。 gpt2-chatbot confirmed as OpenAI https://simonwillison.net/2024/May/8/gpt2-chatbot-confirmed-as-openai/ Mystery chatbot is likely a new OpenAI product https://www.axios.com/2024/05/02/mystery-chatbot-openai-gpt2 Is this mystery chatbot really GPT-4.5 in disguise? Here's how to

                AI対戦アリーナで無双していた謎の覆面チャットボット「gpt2-chatbot」がOpenAIの新モデルだった可能性が急浮上
              • めちゃくちゃ重いけど動くぞ!Excelで「GPT-2」を再現したスプレッドシート

                OpenAIの「ChatGPT」やマイクロソフトの「Copilot」、グーグルの「Gemini」など、対話型AIの心臓部である大規模言語モデル(LLM)。だがその仕組を理解するにはプログラミングの知識が不可欠だ。 「Spreadsheets are all you need.ai」というウェブサイトでは、驚くことにExcelのスプレッドシートを使って、LLM(GPT2)がどのように動作するかを再現している。 GPT-2をローカルで再現 同サイトで提供されている「Spreadsheets-are-all-you-need」は、大規模言語モデル(LLM)の動きを再現するExcelシートだ。 ChatGPTのように、「Mike is quick. He moves(マイクは素早い。彼は◯◯動く)」とセルに入力するとチャット型AIのように「quickly(素早く)」と続きを出力してくれるという。

                  めちゃくちゃ重いけど動くぞ!Excelで「GPT-2」を再現したスプレッドシート
                • めちゃくちゃ重いけど動くぞ!Excelで「GPT-2」を再現したスプレッドシート(アスキー) - Yahoo!ニュース

                  「Spreadsheets are all you need.ai」というウェブサイトでは、Excelのスプレッドシートを使って、LLM(GPT2)がどのように動作するかを再現している。 【もっと写真を見る】 OpenAIの「ChatGPT」やマイクロソフトの「Copilot」、グーグルの「Gemini」など、対話型AIの心臓部である大規模言語モデル(LLM)。だがその仕組を理解するにはプログラミングの知識が不可欠だ。 「Spreadsheets are all you need.ai」というウェブサイトでは、驚くことにExcelのスプレッドシートを使って、LLM(GPT2)がどのように動作するかを再現している。 GPT-2をローカルで再現 同サイトで提供されている「Spreadsheets-are-all-you-need」は、大規模言語モデル(LLM)の動きを再現するExcelシートだ

                    めちゃくちゃ重いけど動くぞ!Excelで「GPT-2」を再現したスプレッドシート(アスキー) - Yahoo!ニュース
                  • 大規模言語モデル(GPT-2)のパラメータ・モデルサイズ・VRAMの実測メモ|Kan Hatakeyama

                    モデルサイズや必要VRAMについては理論的に計算できたりするようですが、理論式がよくわからない上、実際にやってみて体感した方がしっくりくるので、試してみました。 24/1/2 15時追記 モデルサイズを概算する機能を教えていただいたので、追記しました。 huggingfaceのmemory calculatorの値が理論値?だと認識しているんですが、実際はもっといろいろ複雑だったりするのかな。 app: https://t.co/zIDdHYiLPW code: https://t.co/zYHsTGcnsz https://t.co/mToYqu3s5n — Yuu Jinnai (@DINDIN92) January 2, 2024 主なモデルパラメータは以下の通り。このときのモデルサイズは355Mでした。 { "architectures": [ "MistralForCausalL

                      大規模言語モデル(GPT-2)のパラメータ・モデルサイズ・VRAMの実測メモ|Kan Hatakeyama
                    • Reproducing GPT-2 (124M) in llm.c in 90 minutes for $20 · karpathy/llm.c · Discussion #481

                      Let's reproduce the GPT-2 (124M) in llm.c (~4,000 lines of C/CUDA) in 90 minutes for $20. The 124M model is the smallest model in the GPT-2 series released by OpenAI in 2019, and is actually quite accessible today, even for the GPU poor. With llm.c, which is quite efficient at up to ~60% model flops utilization, reproducing this model on one 8X A100 80GB SXM node takes ~90 minutes. For example, on

                        Reproducing GPT-2 (124M) in llm.c in 90 minutes for $20 · karpathy/llm.c · Discussion #481
                      • すぐる | ChatGPTガチ勢 𝕏 on X: "🚩 高性能AI「GPT2」使用方法ㅤ ㅤ ① 大手AIベンチマークサイト「LMSYS (https://t.co/ZOgkn4wXo2)にアクセス ② 上のタブから「Direct Chat」をクリック ③ モデル選択欄から「gpt2-chatbot」を選択 ④ プロンプト欄からEnter ㅤ 現在、8回程度の使用制限がかかっているので注意! https://t.co/hNTOJ3VaLl"

                        • Kouhei「AI使ってニートになった人」 on X: "【GPT2… やばすぎるこれ…】 コンテキストの理解と情緒の深さが圧倒的過ぎる… これ完全に既存GPTの上位互換じゃないか… 正直GPT-4を初めて触った衝撃よりも、こっちの方が大きいかもしれない。 理系だけじゃなくて文系もだいぶやばいよこれは… Prompt:[疲れた人に刺さる名言を考えて] https://t.co/IQ8TaYtheo"

                          • 生成AI業界は「GPT2」で騒然、RAGは実用化へ新手法が続々

                            論文速報サイト「arXiv(アーカイブ)」の投稿論文から、2024年4月(1日~30日)にSNSのX(旧Twitter)で多く言及されたAI分野の注目論文を紹介する。最初に取り上げるのが、大規模言語モデル(LLM)のスケーリング則に関する論文である。

                              生成AI業界は「GPT2」で騒然、RAGは実用化へ新手法が続々
                            • 一時姿を消した「gpt2-chatbot」が再登場。アルトマン氏もまたもやSNSに不可解な投稿(PHILE WEB) - Yahoo!ニュース

                              先日、AIの性能を比較するサイトLMSYS Chatbot Arenaに現れた「gpt2-chatbot」は、サム・アルトマン氏がX(Twitter)になんとなく関係ありそうな雰囲気の投稿をしたことで、OpenAIが関与していることが疑われた。 【動画】gpt2を使って作られたゲームのプレイ動画 その性能は、現在OpenAIがユーザーに提供しているGPT-4に近いものの、(ChatGPT有料版で提供される)GPT-4 Turboに比べると、質問に対する返答はやや誤りやぎこちない表現が多く含まれると評されていた。話題になって少し経った頃、この謎の「gpt2-chatbot」はいつの間にか試すことができなくなっていた。 ところがこの謎のAIチャットボットが、再びLMSYS Chatbot Arenaに現れたとの報告がSNSにあがった。それも今度は「im-a-good-gpt2-chatbot」

                                一時姿を消した「gpt2-chatbot」が再登場。アルトマン氏もまたもやSNSに不可解な投稿(PHILE WEB) - Yahoo!ニュース
                              • gpt2-large-japanese-charは『雪国』の冒頭をどうトークナイズするのか - Qiita

                                昨年12月27日に京都大学言語メディア研究室から、日本語GPT-2モデルgpt2-large-japanese-charが発表された。モデル名の末尾がcharなので、たぶん単文字トークナイザを使っているようだ。ちょっと試してみよう。 >>> from transformers import AutoTokenizer >>> tkz=AutoTokenizer.from_pretrained("ku-nlp/gpt2-large-japanese-char") >>> print(tkz.convert_ids_to_tokens(tkz("国境の長いトンネルを抜けると雪国であった。","夜の底が白くなった。")["input_ids"])) ['åĽ½', 'å¢ĥ', 'ãģ®', 'éķ·', 'ãģĦ', 'ãĥĪ', 'ãĥ³', 'ãĥį', 'ãĥ«', 'ãĤĴ', 'æĬ

                                  gpt2-large-japanese-charは『雪国』の冒頭をどうトークナイズするのか - Qiita
                                • OpenAIの共同設立者が「GPT-2」をわずか90分の時間と3100円の費用で再現するレポートを公開

                                  2019年に公開されるやいなや「危険すぎる」と話題になったOpenAIの「GPT-2」を、ゼロから作成したレポートが公開されました。作成にかかった時間は、1時間14ドル(約2200円)のクラウドコンピューティングサービスで1時間半だったため、総コストは約20ドル(約3100円)に収まっています。 Reproducing GPT-2 (124M) in llm.c in 90 minutes for $20 · karpathy/llm.c · Discussion #481 · GitHub https://github.com/karpathy/llm.c/discussions/481 # Reproduce GPT-2 (124M) in llm.c in 90 minutes for $20 ✨ The GPT-2 (124M) is the smallest model in t

                                    OpenAIの共同設立者が「GPT-2」をわずか90分の時間と3100円の費用で再現するレポートを公開
                                  • 生成AIを用いてGPT-2の論文「Language Models are Unsupervised Multitask Learners (2019)」を読んでみた - Qiita

                                    生成AIを用いてGPT-2の論文「Language Models are Unsupervised Multitask Learners (2019)」を読んでみた機械学習論文読みTransformer生成AIChatGPT はじめに 生成AIを用いてGPT-2の論文「Language Models are Unsupervised Multitask Learners (2019)」の内容を(なるべく)把握してみました。(生成AIが)論文の記載内容を始めから最後まで読んで、実際にどのような記載があるのかを把握します。 (論文の分かりやすい解説記事は見るのですが、実際の論文までチェックしないので、生成AIを使って内容を把握してみました。) ゼロショットに重きを置いた論文で、モデルの容量(パラメータ数)はゼロショットタスク転移の成功に不可欠であり、容量が増加することで性能も向上する、という主

                                      生成AIを用いてGPT-2の論文「Language Models are Unsupervised Multitask Learners (2019)」を読んでみた - Qiita
                                    • Databricksで日本語GPT-2モデルをファインチューニングして文章生成をやってみる - Qiita

                                      こちらの続きです。単に試行錯誤しながら勉強中な訳で。 今度はこちらの記事を参考に。 ライブラリのインストール 最新のMLflowをインストールしているのは今後の布石です。 %pip install transformers==4.20.1 %pip install sentencepiece %pip install mlflow==2.3.1 from transformers import T5Tokenizer,AutoModelForCausalLM tokenizer = T5Tokenizer.from_pretrained("rinna/japanese-gpt2-small") DATABRICKS_TOKENS = ["MLflow", "Databricks", "Delta Lake", "Spark"] num_added_toks = tokenizer.add_

                                        Databricksで日本語GPT-2モデルをファインチューニングして文章生成をやってみる - Qiita
                                      • チャットGPT、2倍速く オープンAI、人の会話並みに - 日本経済新聞

                                        【シリコンバレー=渡辺直樹】対話型AI(人工知能)「Chat(チャット)GPT」を手がける米新興企業のオープンAIは13日、新型AI「GPT-4o(フォーオー)」を開発したと発表した。従来に比べて処理スピードを2倍に高速化した一方、運用コストを半減した。声で話しかけると、ヒトと同じ反応速度で会話ができる。弱点だった反応の遅延を克服し、AIの活用がさらに広がりそうだ。生成AIはオープンAI以外の

                                          チャットGPT、2倍速く オープンAI、人の会話並みに - 日本経済新聞
                                        • ChatGPTの前身、GPT2のファインチューニングを実行してみた | 無料でホームページ制作・SEO対策・YouTube動画編集・AI開発の埼玉県熊谷市のデザインオフィス マックス

                                          X 旧Twitterはこちら。 https://twitter.com/ison1232 ************ chatGPTなどの大規模言語モデルのLLMが流行っていますが、今現在の最新モデルはGPT4。 これのいくつか前のモデルGPT2をファインチューニングしてみました。 大規模言語モデルなどに実行する、ファインチューニングとは何か ちなみに、ファインチューニングとは何かをちょこっと解説。 まず大規模言語モデルってのは、事前学習といって、ネット上の大量のテキストデータを読み込んで学習しています。 chatGPTなんかは英語での学習量が多いので、英語は強いです。 一方、日本語はというと、多少学習しているとは言え、英語ほどは勉強していないので、若干弱い感はあります。 そんな大規模言語モデルですが、この事前学習で特定の言語を習得していきます。 言語を習得した大規模言語モデルですが、専門的

                                          • [上級編]LLMへ至る道~GPT-2の話~[21日目] | DevelopersIO

                                            みなさんこんにちは!クルトンです。 前日のブログでは初代GPTについてご紹介してきました。TransformerのDecoderを使っていましたね。 本日はGPTの2代目についてのお話です。 GPT-2とはなんぞや? 初代GPTが出てから約1年後にGPT-2に関する論文は発表されました。 論文を確認するには、公式GitHubにまずはアクセスします。 次に公式GitHubにある論文タイトル『Language Models are Unsupervised Multitask Learners』のリンクをクリックすると論文をチェックできます。 バージョンが上がった事で端的に言えば、モデルの推論精度が高まりました。 具体的にはパラメータが大きく変わりました。1億1700万個から15億個です。 またデータについてもより多くのデータを使って学習がされています。初代GPTが4.5GBに対してGPT-2

                                              [上級編]LLMへ至る道~GPT-2の話~[21日目] | DevelopersIO
                                            • 日本語に特化したGPT-2の大規模言語モデルがオープンソースで公開中 | Da-nce

                                              rinna株式会社は4月7日、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開した。 同社では、製品開発のための自然言語処理の実験過程で、日本語に特化したGPT-2の大規模言語モデルを構築。日本語のNLP研究コミュニティへの貢献を目的に、開発した言語モデルと研究者が自分のマシンで実験結果を再現するためのトレーニングコードを、GitHubおよびNLPモデルライブラリHuggingFaceでオープンソースとして公開している。 HuggingFace: https://huggingface.co/rinna/japanese-gpt2-medium GitHub: https://github.com/rinnakk/japanese-gpt2 70ギガバイトの日本語テキストを約1カ月トレーニング 言語モデルとは、言語データの機械学習をもとに、会話や文章の「人間が

                                                日本語に特化したGPT-2の大規模言語モデルがオープンソースで公開中 | Da-nce
                                              • 国語研長単位係り受け解析モデルgpt2-{small,medium,large}-japanese-ud-causalリリース - Qiita

                                                国語研長単位係り受け解析モデルgpt2-{small,medium,large}-japanese-ud-causalリリースベンチマーク係り受け解析言語処理gpt-2国語研長単位 6月23日の記事の続きだが、国語研長単位UD-Japanese-GSDLUWとGPT2ForTokenClassificationを使って、係り受け解析モデルgpt2-{small,medium,large}-japanese-ud-causalを作ってみた。単方向モデルで係り受け解析というのは、正直なかなか手強かったのだが、何とか隣接確率行列を作り出すことに成功したようだ。ja_gsdluw-ud-test.conlluによるベンチマーク・プログラムは、Google Colaboratory (GPU版)だと、こんな感じ。 !pip install transformers models=["KoichiYa

                                                  国語研長単位係り受け解析モデルgpt2-{small,medium,large}-japanese-ud-causalリリース - Qiita
                                                • 一時姿を消した「gpt2-chatbot」が再登場。アルトマン氏もまたもやSNSに不可解な投稿 | Gadget Gate

                                                  テクノロジー 何をしているのですか 一時姿を消した「gpt2-chatbot」が再登場。アルトマン氏もまたもやSNSに不可解な投稿 Image:photosince / Shutterstock.com 先日、AIの性能を比較するサイトLMSYS Chatbot Arenaに現れた「gpt2-chatbot」は、サム・アルトマン氏がX(Twitter)になんとなく関係ありそうな雰囲気の投稿をしたことでOpenAIが関与していることが疑われた。 その性能は、現在OpenAIがユーザーに提供しているGPT-4に近いものの、(ChatGPT有料版で提供される)GPT-4 Turboに比べると、質問に対する返答はやや誤りやぎこちない表現が多く含まれると評されていた。話題になって少し経った頃、この謎の「gpt2-chatbot」はいつの間にか試すことができなくなっていた。 ところがこの謎のAIチャッ

                                                    一時姿を消した「gpt2-chatbot」が再登場。アルトマン氏もまたもやSNSに不可解な投稿 | Gadget Gate
                                                  1