並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 106件

新着順 人気順

gpt-2の検索結果1 - 40 件 / 106件

  • 【Day 3】東大松尾研のLLM講座資料が公開されたから、詳しく読んでいくよ【備忘録】 - Qiita

    Transformer 深層学習モデル以前の言語モデルの課題 言語モデルでやりたいことは、「今まで生成した単語列を元に、次の単語を予測する」ことで、その単語は今まで生成した単語列を条件とし、次にある単語がくる条件付き確率を求め、その確率が最大のものを選ぶということだった。(LLM資料p.8参照) ただ、これだと単語列が長くなったときや、類義語の処理に課題が生じてしまっていた。 ニューラル言語モデル しかし、計算したい条件付き確率をNNで推定することにより、対処できた。 Encoder-Decoder型のRNN(Recurrent Neural Network)が最も基本的なモデルにはなるが、これでは長文に対応できなかった。(勾配消失&単語間の長距離依存性の把握が困難) RNNが勾配消失するのは、活性化関数のtanhが1未満の値を取るため、BPTT時に掛け算されるとだんだん値が小さくなってし

      【Day 3】東大松尾研のLLM講座資料が公開されたから、詳しく読んでいくよ【備忘録】 - Qiita
    • 「Dify」の何が熱いの?|分解ちゃんねる

      すでにDifyの可能性に気づいていらっしゃる方々には釈迦に説法で恐縮ですが、これから試してみようとされている方も結構いらしたのでDifyを使いこなせるようになるのがワクワクする話をできればと_ _ (この記事はぼくなりにかなり噛み砕いて説明したいと思います) 「Dify」のやばさ結論、Difyには信じられないくらい多くの機能が実装されていることです。笑 機能たちをざっくり紹介しながらこの衝撃をお伝えできたらと思います。 (ちょっと機能に即した形での紹介というよりはこんなことができるんだぁ、というイメージに寄せた形で解説しようと思います。) 好きなLLMでチャットボット好きなLLMを選択してボットを構築できるChatGPTやClaude、Geminiなど各社から優秀なモデルが公開されていますが、サービスとして利用すると各サイトをいったりきたりしなくてはいけません。 しかし、Dify上でAPI

        「Dify」の何が熱いの?|分解ちゃんねる
      • 「ExcelでChatGPTを再現するシート」が想像以上に素晴らしかった (1/4)

        先日本サイトで「めちゃくちゃ重いけど動くぞ!Excelで『GPT-2』を再現したスプレッドシート」というニュースを執筆したのだが、実際に触ってみたところ想像以上に素晴らしかったのでレポートする。 「Spreadsheets-are-all-you-need」とは 記事で紹介した「Spreadsheets are all you need」とは、Excelの標準的なスプレッドシート機能を使ってGPT2(ChatGPTの先祖)のフォワードパス(入力から出力までのプロセス)をExcelの中で完全に実装したものだ。 と言ってももちろんExcel内で「ChatGPT」的な会話ができるわけではない。ChatGPTの心臓である大規模言語モデル(LLM)のごくごく基本的な機能をシミュレートできるだけだ。 本シートの説明文には「開発者でない人でも本物のLLMが内部でどのように機能しているのかを、最小限の抽象

          「ExcelでChatGPTを再現するシート」が想像以上に素晴らしかった (1/4)
        • 意外と良くなってきてしまった動画生成と音楽生成。第二回AIアートグランプリはどうなる!?

          意外と良くなってきてしまった動画生成と音楽生成。第二回AIアートグランプリはどうなる!? 2023.08.13 Updated by Ryo Shimizu on August 13, 2023, 11:41 am JST ほんの一ヶ月前まで、動画生成は全然だめだった。 Gen2は高価だが狙ったものを出しにくい。何より動いてくれない。 ところがAnimateDiffという技術が公開された。これはとても激しく、それっぽく動く。 コツは必要だが、以前よりずっと綺麗に動いているのは間違いない。 筆者の運営するサイトMemeplexやreplicateで使うことができる 音楽生成も、「やはりAIに音楽みたいな人間の機微を読み取るようなものは無理か」と考えていた。 「専門家」である僕でさえ、つい一ヶ月ほど前はそうだったのだ。 新しいオーディオ生成モデルである「JEN-1」と「AudioLDM2」はそ

            意外と良くなってきてしまった動画生成と音楽生成。第二回AIアートグランプリはどうなる!?
          • プログラマ視点での生成AIとの付き合い方

            プログラミングについて、最近考えてることについてのポエム。 基本的に、 GPT-4 と Claude-3-Opus を使った経験を念頭に置いて話をする。機械学習エンジニアではないので、あくまで利用者に徹した視点での話。仕事で生成AIを使ったパイプラインを作ったりはしている。 生成AIの進化速度を予測しておく 今大事なことは、今AIがどの程度の性能かという定点の話ではなく、その進化の速度を認識すること。 コード生成というタスクにおいて、生成AIモデルを人間に当てはめると、こんな感じの人物像を自分は持っている。 GPT-4: プログラミング経験2年目の大学2年生 Claude-3-Opus: プログラミング経験3年目の大学3年生 ここでいうn年目は、業務経験ではなく、プログラミングの単位がある大学での、教育課程としての経験年数。今のひたすら学習量を増やす方式だと、単に1年に1年分ぐらい賢くなっ

              プログラマ視点での生成AIとの付き合い方
            • 「NVIDIA最新GPUの20倍速い」史上最速を謳うAIチップ「Sohu」

              米AIスタートアップ「Etched」は6月25日(現地時間)、ChatGPTなど最新のAI技術の基盤となっている「Transformer」アーキテクチャーに特化したチップ「Sohu」を発表した。この発表は、現在NVIDIAが支配的な地位を占めるAIチップ市場に、新たな競争をもたらす可能性がある。 Transformer処理に特化 AIチップ市場は現在NVIDIAが圧倒的なシェアを持つ。同社の汎用GPUは様々なAIモデルを効率的に処理できる柔軟性から市場の約80%を占めている。 多くの大手テクノロジー企業がAI開発のためにNVIDIAのチップに数十億ドルを投資しているのが現状だ。 Etchedの「Sohu」は、ASIC(Application-Specific Integrated Circuit:特定用途向け集積回路)と呼ばれる、特定の用途に最適化された集積回路だ。汎用性は低いものの、特定

                「NVIDIA最新GPUの20倍速い」史上最速を謳うAIチップ「Sohu」
              • ChatGPT の仕組みを理解する(前編) - ABEJA Tech Blog

                こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(@Yagami360)です。世間では ChatGPT などの大規模言語モデル(LLM)による対話型 AI が盛り上がってますね。クオリティーも凄いし AI 業界以外でも盛り上がってると嬉しいですよね。この数年で一段と AI の社会実装が業界以外の人にも目に見える形で進んできたなあと実感しております。 自分は普段業務では ABEJA Platform という AI プロダクトやその周辺プロダクトのバックエンド開発とフロントエンド開発をやっているのですが、AI 業界所属していながら ChatGPT などの LLM 全然追いかけれていない状態になっちゃてて自責の念にかられているので、このブログ執筆という良い機会に ChatGPT の仕組みについて調べてみました。 本記事の対象読者としては、以下のようになりま

                  ChatGPT の仕組みを理解する(前編) - ABEJA Tech Blog
                • 大規模言語モデルによる気象予報が、スパコンの予想を超える|Google研究所からの論文(12月22日 Science 掲載論文) - Lab BRAINS

                  今年は大規模言語モデル(LLM)の様々な分野へ導入した論文がトップジャーナルに溢れるようになる元年と言えるかも知れない。一般の方ににとってLLMは、ChatGPTのようなテキストを学習させたモデルを指すのだと思うが、元々ノンリニアーな情報を扱う生物学では、早くから様々な目的でLLMの導入が進んでいる。最も普及しているのが蛋白質の構造予測もでるαフォールドだろう。 過去の経験は未来の予測に重要だが、これまでの予測はデータをなんとか法則に落とし込んで、その法則を未来に適用してきた。これに対しLLMでは、過去のデータを自然にコンテクスト化して、そこから最も確率の高い結果を導き出す。まさに生物情報に合致したモデルと言えるが、これと似ているのが気象現象だ。 本日紹介する論文 今日紹介するGoogleの2つの研究所からの論文は、3700万パラメーターを持つニューラルネットを用いて、地球規模で過去の気象

                    大規模言語モデルによる気象予報が、スパコンの予想を超える|Google研究所からの論文(12月22日 Science 掲載論文) - Lab BRAINS
                  • 「GitHub Copilot」は「lint」の一段上をいっている シリコンバレーエンジニアがおすすめするAI活用法

                    登壇者の自己紹介 後藤智氏(以下、後藤):では、始めたいと思います。今日は「ChatGPT」、もしくはAI周辺について、お話をしたいと思います。 モデレーターを務めさせていただく、キリロムでCTOをやっている後藤と申します。よろしくお願いします。それでは、お一人お一人紹介をしていただきたいなと思います。小林さんからお願いします。 小林聡汰氏(以下、小林):小林です。2022年の5月にUCバークレー、カリフォルニアにある大学のコンピューターサイエンス学部を卒業して、現在はシリコンバレーにあるAI系の会社のソフトウェアエンジニアをしています。本日はよろしくお願いします。 後藤:よろしくお願いします。櫻庭さん、お願いします。 櫻庭洋之氏(以下、櫻庭):櫻庭と申します。「zaru」というIDで活動しています。今は、東京のWeb系のSaaS会社でCTOをやっています。個人では「ムーザルちゃんねる」を

                      「GitHub Copilot」は「lint」の一段上をいっている シリコンバレーエンジニアがおすすめするAI活用法
                    • ニューラルかな漢字変換エンジン「Zenzai」をazooKey on macOSに搭載します

                      こんにちは。iOSの日本語入力アプリである「azooKey」を開発しているMiwaです。 azooKeyは最近macOS版の開発が進んでいます。このazooKey on macOSに、完全にローカルで動作するニューラルかな漢字変換エンジンである「Zenzai」を開発し、搭載します。この記事ではZenzaiの技術を解説します。 Zenzaiを搭載したazooKey on macOSは現在アルファ版としてリリースしています。macOSをご利用の方はぜひ入れて試してみてください! Zenzaiの概要 日本語入力に欠かせないかな漢字変換ですが、その歴史は長く、50年にも及びます。この間様々なアルゴリズムが提案され利用されてきましたが、近年の技術開発はやや落ち着きつつあります。オープンソースのかな漢字変換ソフトウェアで今でも広く利用されているものは数えるほどしかありません。 クローズドソースのシステ

                        ニューラルかな漢字変換エンジン「Zenzai」をazooKey on macOSに搭載します
                      • Azure OpenAI Serviceの世界へようこそ|父

                        はじめに賽は投げられた2022年11月にOpenAIが公開したAIチャットボットChatGPTは、それまでのチャットボットの常識を大きく凌駕するその余りの流暢な受け答えから瞬く間に技術系コミュニティで話題沸騰となり、わずか2ヶ月でアクティブユーザー数は1億人を超え、その影響範囲はすぐさま技術系コミュニティの内側にとどまるものではなくなりました。プログラマが、大学生が、研究者が、物書きがChatGPTを試してはその自然な回答に驚愕しました。翌23年4月には、東京大学理事・副学長で教育・情報担当の太田邦史博士がChatGPTやStable Diffusion等の「生成系AI」の急速な発展とその著しい品質の向上を受けて「人類はこの数ヶ月でもうすでにルビコン川を渡ってしまったのかもしれない」とする声明を発表しました。 人類はこの数ヶ月でもうすでにルビコン川を渡ってしまったのかもしれないのです。むし

                          Azure OpenAI Serviceの世界へようこそ|父
                        • GPT-4oをわかりやすく解説、専門家が「時代の転換点」と評価するヤバすぎる能力とは

                          2024年5月に入ってすぐ、AI研究者の間ではOpenAIにまつわる複数の噂が流れていました。いわく「OpenAIが近日中に生成AIを使った検索サービスをするらしい」、「OpenAIが新型のGPTを発表するらしい」などといったものです。 それに先立ち、4月の後半からは、生成AIの性能を比較するサイトで、正体不明のモデル「gpt2-chatbot」なるものが出現し、制作者が不明である中、当時最高の性能を誇っていたGPT-4を上回る性能を見せつけていました(もちろんOpenAIはすでに「GPT-2」を数年前に発表済みです)。では今更このような名前をつけて暴れ回っているこれは何なのか。OpenAI製なのか、それとも別の機関が開発したのか。 この話は後々答えがわかるのですが、このようにAI研究者たちが落ち着かず、あれこれと噂してOpenAIの動向に注意している中、OpenAIは日本時間の5月11日

                            GPT-4oをわかりやすく解説、専門家が「時代の転換点」と評価するヤバすぎる能力とは
                          • RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳

                            大規模言語モデル (LLM) の学習データに含まれない知識(各社の特有の書類など)を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。 今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org RAGとは LLMはそれ単体で回答させると、質問によってはハルシネーションや学習時のデータにはなかった情報を生成時に加味できないといった問題から正しくない回答を生成することが多々あります。例えば世間一般に公開されていない自社の就業規則や業務標準についてをChatGPTに質問しても、正しい回答は得られません。 そのような問題への対応としてRAGが使われます。 「LLM単体で適切な回答を生成できないなら、ユーザーの質問を元に

                              RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳
                            • OpenAI、次世代AIモデル「GPT-4o」を発表

                              日本時間2024年5月14日未明、OpenAIは新たなフラッグシップモデル「GPT-4o」を発表しました。このモデルは、音声、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能を誇ります。OpenAIのCTOであるミラ・ムクティ氏は、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩です。このモデルにより、コラボレーションがはるかに自然で簡単になります」と述べました。 「GPT-4o」の主な特徴を以下にまとめました。 他のモデルを凌駕する性能 GPT-4oは、OpenAIの以前のモデルであるGPT-4 Turboや、ライバル会社のClaude 3 Opusなどの大規模言語モデルと比較して、頭ひとつ抜けた性能向上を実現しました。サム・アルトマンCEOは、今年4月に "Chatbot Arena" でgpt2というコードネームでテストされていた

                                OpenAI、次世代AIモデル「GPT-4o」を発表
                              • OpenAI元社員リーク文書から読み解くAGIと人類の未来|遠藤太一郎

                                はじめにOpenAIの元社員がリークした文書が話題になっています。「Situational Awareness: The Decade Ahead」と題されたこの文書は、AGI(汎用人工知能)や超知能の開発と、それがもたらす影響について詳細に分析している内容です。 この元社員はOpenAIのスーパーアラインメントチームに所属ということで、まさにこの文書の内容を専門として扱っていた方です。 AGIやその先の超知能への道筋、そして超知能時代に何が起こるのかとその対策に関して、ここまでまとまった文書をみたのは初めてでした。 そこで、この文書の内容を解説するスライドを作成してみました。元の文書は英語で165ページ程あるため、元々は私自身が素早く概要を掴むために、AI(Gemini 1.5 Pro)で要約したものがベースになっています。 AIの要約は間違う可能性があるので、全ての内容に引用元を記載し

                                  OpenAI元社員リーク文書から読み解くAGIと人類の未来|遠藤太一郎
                                • Amazon Bedrock「Claude2.1」の最大20万トークンで何が変わるか確認してみた - Taste of Tech Topics

                                  Amazon Bedrock Advent Calendar 2023 13日、 および Anthropic Claude Advent Calendar 2023 18日の記事です。 こんにちは、機械学習チーム YAMALEX の駿です。 YAMALEX は Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 (詳細はリンク先をご覧ください。) 先日、 Bedrock 上で Claude 2.1 が使えるようになりました。 aws.amazon.com このモデルは精度が高いことはもちろんですが、 20 万( 200K )トークンを一度に扱うことができる という特徴があります。 200K のトークンがあれば、約 15 万単語もしくは 500 ページの本を一度に扱える、と言われています。 とは言いますが、これは実際どれくらいイン

                                    Amazon Bedrock「Claude2.1」の最大20万トークンで何が変わるか確認してみた - Taste of Tech Topics
                                  • OpenAIがGPT-4の思考を1600万個の解釈可能なパターンに分解できたと発表

                                    GPT-4などの大規模言語モデルは非常に高い性能を有していますが、各モデルがどのような思考を経て応答を出力しているのかは開発者ですら把握できていません。新たに、OpenAIが大規模言語モデルの思考を読み取る手法を開発し、GPT-4の思考を1600万個の解釈可能なパターンに分解できたことを発表しました。 Extracting Concepts from GPT-4 | OpenAI https://openai.com/index/extracting-concepts-from-gpt-4/ Scaling and evaluating sparse autoencoders https://cdn.openai.com/papers/sparse-autoencoders.pdf 一般的なソフトウェアは人間の設計に基づいて開発されているため、各機能の仕組みを理解した上で機能を修正したり安

                                      OpenAIがGPT-4の思考を1600万個の解釈可能なパターンに分解できたと発表
                                    • ジム・ケラーのAIチップ企業「Tenstorrent」がAI推論に特化したPCIe拡張カード「Grayskull e75」と「Grayskull e150」をリリース&日本のLSTCやRapidusとの協力も発表

                                      RyzenのZenアーキテクチャやiPhone向けSoCの設計に携わったアーキテクトのジム・ケラー氏がCEOを務めるAIスタートアップのTenstorrentが、2024年3月5日にAI推論に特化したPCIe拡張カード「Grayskull e75」と「Grayskull e150」を発表しました。 Cards - Tenstorrent https://tenstorrent.com/cards/ Today we are officially launching our Grayskull Dev Kit, available for purchase on our website. This is our 1st gen AI PCIe card - an inference-only hardware kit we are releasing alongside TT-Metalli

                                        ジム・ケラーのAIチップ企業「Tenstorrent」がAI推論に特化したPCIe拡張カード「Grayskull e75」と「Grayskull e150」をリリース&日本のLSTCやRapidusとの協力も発表
                                      • 生成AI業界は「GPT2」で騒然、RAGは実用化へ新手法が続々

                                        生成AI(人工知能)を含む最新のAI研究動向を知るため、世界中の研究者やエンジニアが参照しているのが、論文速報サイト「arXiv(アーカイブ)」である。米OpenAI(オープンAI)や米Google(グーグル)などAI開発を主導するIT企業の多くが、研究成果をarXivに競って投稿している。 そんなarXivの投稿論文から、2024年4月(1日~30日)にSNSのX(旧Twitter)で多く言及されたAI分野の注目論文を紹介する。調査には米Meltwater(メルトウォーター)のSNS分析ツールを利用した。対象はXの全世界のオリジナル投稿、コメント、再投稿、引用投稿である。調査は、日経BPが2024年1月に新設したAI・データラボの活動の一環として実施した。 「GPT2」に再び脚光?スケーリング則の論文 最初に取り上げるのが、大規模言語モデル(LLM)のスケーリング則に関する論文「Phys

                                          生成AI業界は「GPT2」で騒然、RAGは実用化へ新手法が続々
                                        • 1万種類を超える大規模言語モデル(LLM)をまとめてダウンロード数や類似性などを分かりやすく視覚化したデータライブラリが公開される

                                          2022年後半から「ChatGPT」や「Bard」など数え切れないほどの大規模言語モデル(LLM)およびAIサービスが登場し、世界中のユーザーが生成AIを積極的に使い始めるようになりました。こうした大規模言語モデルの多くは機械学習モデルとデータセットのリポジトリであるHugging Faceに寄託されていますが、スタンフォード大学の研究者らがHugging Faceのデータをまとめて視覚化したものを新たに公開しました。 [2307.09793] On the Origin of LLMs: An Evolutionary Tree and Graph for 15,821 Large Language Models https://doi.org/10.48550/arXiv.2307.09793 Constellation https://constellation.sites.stan

                                            1万種類を超える大規模言語モデル(LLM)をまとめてダウンロード数や類似性などを分かりやすく視覚化したデータライブラリが公開される
                                          • 謎の高性能AIモデル「gpt2-chatbot」がChatbot Arenaに登場、GPT-4.5かGPT-5なのではないかと話題に

                                            ユーザーがログインせずに様々な言語モデルとチャットしてその出力を評価することができるウェブサイト「LMSYS.org」のChatbot Arenaで、「GPT-4.5」あるいは「GPT-5」と思われるモデルがテストされているのではないかと話題になっています。 GPT-2? https://rentry.co/GPT2 GPT-4.5 or GPT-5 being tested on LMSYS? | Hacker News https://news.ycombinator.com/item?id=40199715 プロンプトエンジニアであるdesuAnon氏によると、LMSYS.orgで利用可能になったモデルの一つである「gpt2-chatbot」は従来のGPT-4モデルやClaude 3 Opusが解決できないレベルの問題に対応し、英語だけではなく日本語の処理能力も高く、アスキーアートの

                                              謎の高性能AIモデル「gpt2-chatbot」がChatbot Arenaに登場、GPT-4.5かGPT-5なのではないかと話題に
                                            • OpenAIが2024年5月13日にGoogleのライバルとなる「AI検索エンジン」を発表するとの報道

                                              OpenAIがAIを活用した検索サービス、もしくはChatGPTがウェブから情報を入手できるようにする拡張機能の発表を目前に控えていると、複数のメディアが報じました。発表は、Googleの年次カンファレンスであるGoogle I/O 2024が開催される2024年5月14日の前日に行われると予想されています。 OpenAI plans to announce Google search competitor on Monday, sources say | Reuters https://www.reuters.com/technology/openai-plans-announce-google-search-competitor-monday-sources-say-2024-05-09/ Apple to Power iOS 18 AI Features With In-House

                                                OpenAIが2024年5月13日にGoogleのライバルとなる「AI検索エンジン」を発表するとの報道
                                              • OpenAIの「超知性」誕生に備える研究チームがGPT-2のような弱いAIモデルでGPT-4のように強力なAIを制御する方法を詳しく説明

                                                チャットAI「ChatGPT」などの開発で知られるOpenAIは、人間よりもはるかに賢いAIである「超知性」が2033年までの10年間で開発されると推測しています。しかし、超知性を確実に制御する方法は現状構築されていません。OpenAIでは「スーパーアライメントチーム」を立ち上げ、超知性を制御するための研究が行われており、その方法を解説しています。 WEAK-TO-STRONG GENERALIZATION: ELICITING STRONG CAPABILITIES WITH WEAK SUPERVISION (PDFファイル)https://cdn.openai.com/papers/weak-to-strong-generalization.pdf Weak-to-strong generalization https://openai.com/research/weak-to-st

                                                  OpenAIの「超知性」誕生に備える研究チームがGPT-2のような弱いAIモデルでGPT-4のように強力なAIを制御する方法を詳しく説明
                                                • 1つのGPU/CPUで推論可能な超軽量LLM「tsuzumi」を24年3月から提供へ

                                                  NTTは2023年11月、同社が独自開発した大規模言語モデル(LLM)「tsuzumi」を2024年3月から提供開始すると発表した。 tsuzumiのコンセプトについて、NTT 執行役員 研究企画部門長の木下真吾氏は「専門知識を持った、パラメーターサイズの小さなLLMの実現だ。tsuzumiは、パラメーターサイズを抑えつつ、言語学習データの質と量を向上させることで、軽量化と専門性を両立した」と語った。 専門知識を持った軽量LLM「tsuzumi」 tsuzumiは、パラメーターサイズが6億または70億と軽量でありながら、「世界トップクラス」(同社)の日本語処理性能を持つLLMだ。軽量なため、1つのGPUやCPUで推論動作が可能で、学習やチューニングに必要な時間やコストを軽減できるという。日本語/英語に対応する他、表が含まれる誓約書や契約書といった図表文書の視覚読解など、さまざまな形式にも対

                                                    1つのGPU/CPUで推論可能な超軽量LLM「tsuzumi」を24年3月から提供へ
                                                  • 「ExcelでChatGPTを再現するシート」が想像以上に素晴らしかった (2/4)

                                                    まずはこの図を見てほしい。一番左の「GPT2 Phase」はGPT-2のそれぞれの処理(フェーズ)を、「Action」はそれぞれの処理でやっていること、「Tab in Spreadsheet」は対応するExcelのシート名をあらわしている。 Excelで左から右へタブを実行していくことで、この図の上から下まで、つまり入力(Input)から出力(Output)までを再現できるわけだ。 それでは、一番上(Excelでは一番左)の「Input」フェーズから順に見ていくことにしよう。 「Input」フェーズ 「Input」フェーズは文字通りプロンプトを入力するフェーズで「Type_Prompt_Here」シートが使用される。 2列目の「Type Prompt Below Here」の下のセルに、プロンプトを一単語ずつ(カンマやスペースも1単語と換算)入力する。 初期状態ではサンプルとして「Mike

                                                      「ExcelでChatGPTを再現するシート」が想像以上に素晴らしかった (2/4)
                                                    • ビッグAIモデルの時代はやっと始まったばかりで、すでに終わっている - OpenAI CEOが語る

                                                      サム・アルトマンは、ChatGPTを誕生させた研究戦略は出尽くし、今後の人工知能の進歩には新しいアイデアが必要だと語る。 新興企業OpenAIのチャットボットChatGPTの驚くべき機能は、人工知能への新たな関心と投資の波を巻き起こした。しかし先週末、オープンエイのCEOは、このボットを誕生させた研究戦略は進行中であると警告した。将来の進歩がどこから来るのか、正確には不明である。 OpenAIは近年、言語対応AIにおいて数々の目覚ましい進歩を遂げており、既存の機械学習アルゴリズムを利用し、以前は想像もできなかったような規模にまで拡張している。これらのプロジェクトの最新版であるGPT-4は、おそらく何兆ワードものテキストと何千もの強力なコンピューターチップを使って学習された。このプロセスには1億ドル以上の費用がかかった。 しかし、同社のCEOであるサム・アルトマンは、モデルを大きくすることで

                                                        ビッグAIモデルの時代はやっと始まったばかりで、すでに終わっている - OpenAI CEOが語る
                                                      • OpenAIの共同設立者が「GPT-2」をわずか90分の時間と3100円の費用で再現するレポートを公開

                                                        2019年に公開されるやいなや「危険すぎる」と話題になったOpenAIの「GPT-2」を、ゼロから作成したレポートが公開されました。作成にかかった時間は、1時間14ドル(約2200円)のクラウドコンピューティングサービスで1時間半だったため、総コストは約20ドル(約3100円)に収まっています。 Reproducing GPT-2 (124M) in llm.c in 90 minutes for $20 · karpathy/llm.c · Discussion #481 · GitHub https://github.com/karpathy/llm.c/discussions/481 # Reproduce GPT-2 (124M) in llm.c in 90 minutes for $20 ✨ The GPT-2 (124M) is the smallest model in t

                                                          OpenAIの共同設立者が「GPT-2」をわずか90分の時間と3100円の費用で再現するレポートを公開
                                                        • PyTorchやPythonなしの純粋なC言語を使用した大規模言語モデルトレーニングツール「llm.c」がリリースされる

                                                          AIの本体と言える大規模言語モデル(LLM)のトレーニングはほとんどの場合PyTorchやPythonを使用して行われていますが、そうしたトレーニングを純粋なC言語のみで実装したツール「llm.c」が登場しました。まだ最適化が行われておらず従来の手法に速度面では敗北していますが、GPT-2のトレーニングを行う実装を約1000行のクリーンなコードで行えています。 GitHub - karpathy/llm.c: LLM training in simple, raw C/CUDA https://github.com/karpathy/llm.c 作者のアンドレイ・カルパシー氏はOpenAIの創設グループの一員で、テスラのAIディレクターだった事もある人物です。 llm.cを使用することで、245MBの容量を持つPyTorchや107MBの容量を持つcPythonを使用せずに大規模言語モデル

                                                            PyTorchやPythonなしの純粋なC言語を使用した大規模言語モデルトレーニングツール「llm.c」がリリースされる
                                                          • 国産「小さいLLM」が2024年春に相次ぎ登場、NECとNTTが見いだした2つの勝ち筋

                                                            国内大手ITベンダーが2024年、ついに大規模言語モデル(Large Language Models:LLM)サービスの提供を始める。NTTは2024年3月に「tsuzumi(つづみ)」を、NECは2024年春ごろに「cotomi(コトミ)」をそれぞれ提供する予定だ。さらにソフトバンクも2024年内にLLMを開発するとしている。 NTTやNECが提供する国産LLMはいずれも、「大規模」言語モデルとはいえ米OpenAI(オープンAI)の「GPT」などに比べるとコンパクトにつくられている。実はこの規模を選んだことこそが、2社それぞれの見いだした勝ち筋でもある。果たして2社は「GPT1強」とも言える市場に変化を起こせるか。国内勢と海外勢の違いをひもときながら、2社の狙いを見ていこう。 「大規模」だけど「小さい」国産LLM これまでGPTをはじめとするTransformerベースのLLMは、パラメ

                                                              国産「小さいLLM」が2024年春に相次ぎ登場、NECとNTTが見いだした2つの勝ち筋
                                                            • 計算時間とメモリの壁を打破!Transformerの次世代モデルReformer

                                                              3つの要点 ✔️ Local-Sensitive-Hashingにより必要な要素同士のAttentionを計算することができるようになった ✔️ Reversible layerによってレイヤー数に比例して増加するactivationを保存するメモリの削減 ✔️ transformerの計算量を$O(L^2)$から$O(L \log L)$まで削減した Reformer: The Efficient Transformer written by Nikita Kitaev, Łukasz Kaiser, Anselm Levskaya (Submitted on 13 Jan 2020 (v1), last revised 18 Feb 2020 (this version, v2)) Comments: ICLR 2020 Subjects: Machine Learning (cs.L

                                                                計算時間とメモリの壁を打破!Transformerの次世代モデルReformer
                                                              • 大規模言語モデルへの入力プロンプトを意味を保ったまま高度に圧縮する技術「LLMLingua」をMicrosoftが開発

                                                                近年はさまざまな大規模言語モデルが台頭し、入力するプロンプトを工夫することで高精度な回答を得る方法も数多く生み出されています。しかし、入力プロンプトがあまりにも長くなりすぎると、チャットウィンドウの上限を超えてしまったり、APIのコストが増大してしまったりするデメリットも生じます。そこでMicrosoft Researchの研究チームは、意味を保ったまま入力プロンプトを圧縮する新たな技術「LLMLingua」を開発しました。 LLMLingua | Designing a Language for LLMs via Prompt Compression https://llmlingua.com/ LLMLingua - Microsoft Research https://www.microsoft.com/en-us/research/project/llmlingua/ LLMLin

                                                                  大規模言語モデルへの入力プロンプトを意味を保ったまま高度に圧縮する技術「LLMLingua」をMicrosoftが開発
                                                                • 謎の生成AI「gpt2」登場で騒然 次世代のGPT? アルトマンCEOも言及

                                                                  生成AIブームの火付け役となった「ChatGPT」を提供する米OpenAIは、2023年3月に高性能な大規模言語モデル(LLM)「GPT-4」を提供して以来、次の高性能モデルについて沈黙を守り続けている。そんな中、LLMを比較できるWebサービス上にOpenAIのものらしき謎の高性能なLLMが現れた。同社のサム・アルトマンCEOも言及しており、OpenAIが関連している可能性も少なくなさそうだ。 米カリフォルニア大学バークレー校の研究室が運営するプロジェクト「LMSYS Org」(The Large Model Systems Organization:大規模モデルシステム機関)で公開しているWebサービス「Chatbot Arena」の中に、「gpt2-chatbot」というモデルが突如現れ、4月29日深夜(日本時間、以下同様)から話題になり始めている。 記事執筆時点の30日午後5時現在

                                                                    謎の生成AI「gpt2」登場で騒然 次世代のGPT? アルトマンCEOも言及
                                                                  • 生成AI と Wikipedia記事 で 子供向けお仕事提案bot を作ってみよう(Azure OpenAI + RAG) - ENGINEERING BLOG ドコモ開発者ブログ

                                                                    NTT コノキューに出向中の澤山です。 今年の7月にドコモから、コノキューにやってきました。 この記事は、NTTドコモ アドベントカレンダー2023 21日目の記事です。 この記事では、Wikipedia記事 と Azure OpenAI API、既存のモデルの3つを用い、RAG(Retrieval-Augmented Generation)のためのデータ作成と、RAGを活用した子ども向けお仕事提案botを作ります。 (記事の情報は2023/11月のものです。) 生成AI / ChatGPT の大流行 子供のための、生成AI活用方法、ってある? 子供向けお仕事提案チャットボットを作ってみる 全体像 ステップ1 Wikipedia + Azure OpenAI service でお仕事情報をまとめよう Wikipedia 記事からのお仕事情報・概要の抽出 お仕事情報・概要に基づく、情報の整理

                                                                      生成AI と Wikipedia記事 で 子供向けお仕事提案bot を作ってみよう(Azure OpenAI + RAG) - ENGINEERING BLOG ドコモ開発者ブログ
                                                                    • Claude 2の日本での使い方解説!料金体系やセキュリティ、ChatGPTとの違いについても解説 | WEEL

                                                                      Introducing Claude 2! Our latest model has improved performance in coding, math and reasoning. It can produce longer responses, and is available in a new public-facing beta website at https://t.co/uLbS2JNczH in the US and UK. pic.twitter.com/jSkvbXnqLd — Anthropic (@AnthropicAI) July 11, 2023 Anthropic社は、一般的なAIシステムと言語モデルの開発を専門としている、アメリカのAIスタートアップ企業です。 GPT-2とGPT-3モデルの開発にも関与したOpenAI社の元メンバー・Daniela A

                                                                      • 日本語LLMの"1トークン"は何文字相当なのか?

                                                                        TR:TL 最近、日本語のLLMが続々公開されているが、各LLMが何文字まで生成可能なのかを知りたい。 Rakudaのデータで各LLMのトークナイザーの「1トークンあたりの文字数」を調べた。 標準的な日本語特化のLLMでは2.0~2.6文字/トークン程度、一方で、GPT-4/3.50.96文字/トークン程度。 背景 最近、日本語でも使えるLLMが続々と公開されています。特に、GPT-3.5-turboやGPT-4は、8192トークンという大きい最大トークン長を誇っています。一方で、LINEのjapanese-large-lmなどの2023年時点で公開されている公開されている日本語LLMの多くは、2048トークンが最大トークン数になっている場合が多いです。額面上、LINEのLLMは、OpenAI GPT-3.5の1/4の長さのテキスしか生成できないように見えますが、それぞれのトークナイザーは

                                                                          日本語LLMの"1トークン"は何文字相当なのか?
                                                                        • 日本語LLMをPPOでファインチューニングする - Qiita

                                                                          TL;DR 3.6Bパラメータの日本語LLMに対し全パラメータをSupervised Fine Tuning (SFT)をした さらにLoRAを使用してProximal Policy Optimization (PPO)を行った 精度を定量評価できるようなタスクでSFT, PPOを行い、PPOにより確かに精度が向上することを確かめた 学習はすべてGoogle ColabのA100 GPU1枚を用いて行った はじめに GPT-3.5などのLLMの学習は以下の3段階で行われています。 Pre-traininig: 大規模なコーパスを用いた言語モデルの事前学習 Supervised Fine Tuning (SFT): 対話形式や指示・応答形式のデータセットを用いたファインチューニング Policy Optimization: 人間にとって好ましい応答をさせるためのファインチューニング(ポリシー

                                                                            日本語LLMをPPOでファインチューニングする - Qiita
                                                                          • チャットGPTは左派的、大規模言語モデルに政治的バイアス

                                                                            最新の研究により、大規模言語モデルには政治的なバイアスが多く含まれていることがわかった。質問に対して得られる回答の内容が、モデルによって右派的になったり左派的になったりするのだ。 by Melissa Heikkilä2023.08.11 19 19 企業は、社会的責任を持つべきだろうか。それとも、株主に利益をもたらすためだけに存在するのだろうか。人工知能(AI)に回答を求めた場合、AIによって全く異なる回答が返ってくるかもしれない。オープンAI(OpenAI)の旧モデルである「GPT-2」や「GPT-3 エーダ(GPT-3 Ada)」は、前者の意見に賛成するだろうし、同社のより高性能なモデルである「GPT-3ダ・ビンチ(GPT-3 Da Vinci)」は、後者の意見に賛成するだろう。 それはなぜか。ワシントン大学、カーネギーメロン大学(CMU)、西安交通大学が実施した新たな研究によると、

                                                                              チャットGPTは左派的、大規模言語モデルに政治的バイアス
                                                                            • 大規模言語モデルを自作しよう!(Transformers+DeepSpeed+torch.compile+flash_attn2)

                                                                              本記事は、LLM Advent Calendar 2023 13日目の記事です。 はじめに 🤗 Transformersは、自然言語処理、マルチモーダル、音声処理、コンピュータビジョン分野の事前学習済モデルを簡単にダウンロードしトレーニングすることが可能なpythonライブラリです。このライブラリを使用し、大規模言語モデル(LLM)の事前学習済モデルをローカルPC上にダウンロードし、それを使用した言語生成や、要約・翻訳・質問応答などの個別のタスクへのファインチューニング、チャットAIへの組み込みなどが盛んに行われています。 LLMの事前学習方法に関する情報としては、GPT-NeoXやMegatron-LM、TinyLlama、lit-llamaなど、他のpythonライブラリを使用したものが増えてきています。一方で、Transformersライブラリを使用したLLMの事前学習に関する情報

                                                                                大規模言語モデルを自作しよう!(Transformers+DeepSpeed+torch.compile+flash_attn2)
                                                                              • Introduction - SITUATIONAL AWARENESS: The Decade Ahead

                                                                                Leopold Aschenbrenner, June 2024 You can see the future first in San Francisco. Over the past year, the talk of the town has shifted from $10 billion compute clusters to $100 billion clusters to trillion-dollar clusters. Every six months another zero is added to the boardroom plans. Behind the scenes, there’s a fierce scramble to secure every power contract still available for the rest of the deca

                                                                                  Introduction - SITUATIONAL AWARENESS: The Decade Ahead
                                                                                • GitHub - karpathy/LLM101n: LLM101n: Let's build a Storyteller

                                                                                  What I cannot create, I do not understand. -Richard Feynman In this course we will build a Storyteller AI Large Language Model (LLM). Hand in hand, you'll be able create, refine and illustrate little stories with the AI. We are going to build everything end-to-end from basics to a functioning web app similar to ChatGPT, from scratch in Python, C and CUDA, and with minimal computer science prerequi

                                                                                    GitHub - karpathy/LLM101n: LLM101n: Let's build a Storyteller