「GPT-2」を検索 - はてなブックマーク

1 - 14 件 / 14件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

GPT-2の検索結果1 - 14 件 / 14件

時系列データのための大規模言語モデル
- 125 users
- zenn.dev/tsurubee
- テクノロジー
- 2024/07/10
近年の大規模言語モデル（LLM）の出現は、自然言語処理（NLP）においてパラダイムシフトをもたらし、ChatGPTをはじめとする様々な革新的サービスを生み出している。LLMの急速な進化は、NLPの領域を超えて、より広範なデータモダリティへのLLMの適用可能性を探る研究への発展を促している。その中で今回注目したのが、時系列データへのLLMの適用である。例えば、[Gruver+, 2023] では、GPT-3やLLaMA-2などの既存のLLMが、ダウンストリームタスクで教師あり学習した時系列モデルの性能に匹敵するか上回るレベルで、zero-shotで時系列予測ができることを報告しており、大変興味深い。本ブログでは、2024年に公開されたサーベイ論文「Large Language Models for Time Series: A Survey」を参考にLLM for Time Seriesの全
- LLM
- あとで読む
- AI
- 機械学習
- 論文
- 研究
生成AIをめぐるもうひとつの循環取引疑惑
- 18 users
- agora-web.jp
- テクノロジー
- 2024/07/15
こんにちは。前回はGPU製造のトップ企業、エヌヴィディアを中心とする循環取引――2社以上の企業がお互いに相手先に対する架空の売上を計上して実態より高い収益をあげているように見せかける手法――について説明させていただきました。今回は架空売上の規模ではGPUをめぐる循環取引より大きい可能性が高い、生成AIとクラウド事業をめぐる循環取引疑惑について詳述したいと思います。なぜ誕生して間もなく、まだまだ急成長期にあるはずの生成AIが循環取引という姑息な手段で売上高のカサ増しをしなければならないかと言うと、鳴りもの入りで華々しく登場しながら、正直な数字を出せばがっかりするほど収益成長率が低いからです。生成AIの普及は遅々として進まないエヌヴィディアは最新のH100型GPUを2023年1年間だけでマイクロソフトとメタ（フェイスブック）には15万個ずつ、アルファベット（グーグル）、アマゾン、オラ
１兆８０００億。　　それはそれとしてGPT4oのパラメータ数はどのくらいなんだろう。MOE,,,,, - Qiita
- 3 users
- qiita.com/muratatetsutaka84
- テクノロジー
- 2024/08/03
Nvidia　の偉い人　がGPT4o のトレーニングについてリークしたみたいですね。MOE なんとか　が何とかといってたそうですね。それはそれとして Manba　モデルでシーケンス長を大きくした場合の生成テキストの違いを検証します。シーケンス長　10, 20, 100, 200 ,300, 500 で比較してみます。 Seq 長さ 10、深さ 4: 将来、AI の力が社会の隅々に浸透しています。ビジョン。翻訳、および中国の伝統と入力データ。興奮に魅了されます。彼の方法は、数学と西洋の AI の謎を解き明かし、さらに多くの課題に取り組みます。宇宙で。アレックスの洞察力とエネルギー効率の共通の目標は、彼の仕事です。アレックスの最新のテクノロジーは、計算の助けになります。ある夜、アレックスのテーマは日本語に翻訳されました。予想よりもはるかに速く、信じられないほど速く完成しま
性格を持ったAIとの対話が可能に。人格化されたAIの加害性とは？【Character.AI】 | ボイステック | Voista Media
- 2 users
- media.voista.jp
- テクノロジー
- 2024/08/01
この記事のサマリーチャットAIに性格を与えるサービス「Character.AI」が流行中 AIに人格を与えた実験では差別的な発言など有害性が6倍に増加した LINEのトーク履歴からでも実物に近い性格を与えることが可能 AIの人格化に対して「不気味の谷」を感じる人もいる人格化したAIは有害な部分もありうることを理解した上で活用すべき物心ついたころから、鉄腕アトムやドラえもんといったSF作品に触れてきた日本人にとっては、「機械が人格を持つ」というのは大変興味をそそられる世界なのではないでしょうか？人格を持った人型ロボット「アンドロイド」などが出てくる物語では、自我を持った機械たちが社会に問題を提起するという作品も多く見受けられます。フランスで製作されたゲーム「デトロイトビカムヒューマン（Detroit Become Human）」では、人工知能が搭載されたアンドロイドたちが理不尽な
- 人工知能
大規模言語モデルの進化と最新動向 (ver. 20240723) - Qiita
- 1 user
- qiita.com/compassinai
- テクノロジー
- 2024/07/26
本記事はYoutubeチャンネルの論文解説動画（大規模言語モデル編）を時系列に繋げるための作成した記事です。サムネイル画像をクリックすると説明動画に飛びます 1. 初期の言語モデル (2000年代初頭〜2010年代半ば) 初期の言語モデルは、小規模なデータセットと長期依存関係の捕捉という課題に直面していました。これを例えるなら、「短いメモを読んで要点を理解するのは簡単ですが、長い小説の全体を覚えてストーリーのつながりを把握するのは難しい」という状況です。これらの問題に対処するため、RNN (1986）やLSTM (1997）などの仕組みが応用されはじめました。RNNは連続的なデータを処理する能力を持ち、LSTMはさらに長期的な依存関係を捉えることができました。これらの技術により、機械翻訳や音声認識などのタスクで大きな進展が見られました。　しかし、並列処理の難しさや非常に長い文章での性能低下
生成AIをめぐるもうひとつの循環取引疑惑
- 1 user
- search.app
- テクノロジー
- 2024/07/15
こんにちは。前回はGPU製造のトップ企業、エヌヴィディアを中心とする循環取引――2社以上の企業がお互いに相手先に対する架空の売上を計上して実態より高い収益をあげているように見せかける手法――について説明させていただきました。今回は架空売上の規模ではGPUをめぐる循環取引より大きい可能性が高い、生成AIとクラウド事業をめぐる循環取引疑惑について詳述したいと思います。なぜ誕生して間もなく、まだまだ急成長期にあるはずの生成AIが循環取引という姑息な手段で売上高のカサ増しをしなければならないかと言うと、鳴りもの入りで華々しく登場しながら、正直な数字を出せばがっかりするほど収益成長率が低いからです。生成AIの普及は遅々として進まないエヌヴィディアは最新のH100型GPUを2023年1年間だけでマイクロソフトとメタ（フェイスブック）には15万個ずつ、アルファベット（グーグル）、アマゾン、オラ
AmazonやMicrosoftに「隠れ買収」疑惑、AI新興との取引で創業者を引き抜く
- 1 user
- xtech.nikkei.com
- テクノロジー
- 2024/07/13
米Amazon.com（アマゾン・ドット・コム）や米Microsoft（マイクロソフト）が最近行った生成AI（人工知能）スタートアップとの「取引」が、米国で物議を醸している。スタートアップに技術使用料を支払うのと引き換えに創業者を引き抜く手法が、「隠れ買収」だと批判されているのだ。生成AIスタートアップの米Adept（アデプト）は2024年6月28日（米国時間）、同社の公式ブログでアマゾンとの奇妙な取引を発表した。アデプトの「共同創業者とチームの一部」がアマゾンのAGI（汎用人工知能）研究チームに移籍する。さらに、アデプトがこれまで開発してきた生成AIエージェント技術や、様々な種類のデータに対応したマルチモーダルの大規模言語モデル（LLM）技術、モデルをトレーニングするためのデータセットなどのライセンスをアマゾンが購入する。それが主な内容だ。アデプトはブログで移籍対象が「共同創業者とチ
生成AIをめぐるもうひとつの循環取引疑惑
- 1 user
- search.app
- テクノロジー
- 2024/07/15
こんにちは。前回はGPU製造のトップ企業、エヌヴィディアを中心とする循環取引――2社以上の企業がお互いに相手先に対する架空の売上を計上して実態より高い収益をあげているように見せかける手法――について説明させていただきました。今回は架空売上の規模ではGPUをめぐる循環取引より大きい可能性が高い、生成AIとクラウド事業をめぐる循環取引疑惑について詳述したいと思います。なぜ誕生して間もなく、まだまだ急成長期にあるはずの生成AIが循環取引という姑息な手段で売上高のカサ増しをしなければならないかと言うと、鳴りもの入りで華々しく登場しながら、正直な数字を出せばがっかりするほど収益成長率が低いからです。生成AIの普及は遅々として進まないエヌヴィディアは最新のH100型GPUを2023年1年間だけでマイクロソフトとメタ（フェイスブック）には15万個ずつ、アルファベット（グーグル）、アマゾン、オラ
MT-Benchによる各種LLMの日本語運用能力評価まとめ(23/10/31更新)｜shi3z
- 1 user
- note.com/shi3zblog
- テクノロジー
- 2024/07/26
npaka大先生が日本語版MT-Benchの記事を書いてくれたのでこの記事を参考にさまざまなLLMの日本語の性能評価をしてみることにした。使用マシンはもちろんドスパラ製A6000x2マシン。ただ、LLMJPはGPT2ベースなので普通に大先生と同じやり方でやるとあってるのか間違ってるのかわからないくらい性能が低く見積もられてしまったた。そこで、LLM-JPを使ってStability.aiが制作した日本語版question.jsonl(別に俺が訳す必要はないくらいちゃんとしたのがStability.aiにあった)から質問の答えのやりとりを生成するコードを書いた。これは少し改造するだけで他の癖強めのLLM(rinnaとか)にも使えるだろう。 import torch from transformers import AutoTokenizer, AutoModelForCausalLM im
RAG vs GraphRAG の比較
- 1 user
- tech.gmogshd.com
- テクノロジー
- 2024/07/19
GMOグローバルサイン・ホールディングスCTO室の@zulfazlihussinです。私はhakaru.aiの開発チームにてAI開発を担当しております。今回は、GraphRAGを実際に実装し、従来のRAGのテキスト生成結果を比較してみたいと思います。 GraphRAG 最近ではGraphRAG［1］が注目されおり、グラフ理論を応用した新しいRAG（Retrieval Augmented Generation）の一種として話題になりました。RAGは、情報検索と生成を組み合わせる手法で、関連情報を取得し、それをもとに新たなテキストを生成します。このプロセスをグラフ構造でモデル化するのはGraphRAGです。グラフのノード（点）とエッジ（線）を用いて情報の関連性を表現し、その構造を活用してより正確な情報の生成ができるようになります。RAGのプロセスをグラフ構造でモデル化することで、複雑な情報
第2回: 大規模言語モデル（LLM）の基本｜Kajimoto Muneyoshi
- 1 user
- note.com/gifted_panda426
- テクノロジー
- 2024/07/09
本章ではLLMの技術背景、代表的なモデル（例: GPT）の説明、テキスト生成の仕組み、ファインチューニングの実例について解説していきます。 LLMの技術背景大規模言語モデル（Large Language Models、LLMs）は、自然言語処理（NLP）の分野で驚異的な進歩を遂げています。これらのモデルは、膨大なテキストデータを用いて学習し、人間のようにテキストを生成、理解、翻訳、要約する能力を持っています。LLMの開発は、ニューラルネットワーク、特にトランスフォーマーモデルの進化と密接に関連しています。トランスフォーマーモデルの概要トランスフォーマーモデルは、2017年にVaswaniらによって提案された「Attention is All You Need」という論文で紹介されました。トランスフォーマーの中心的なアイデアは、セルフアテンション機構に基づいており、これによりモデルは入力シ
ラビットチャレンジday4 レポート - Qiita
- 1 user
- qiita.com/bayashi_farm
- テクノロジー
- 2024/07/18
Section1：強化学習 ■強化学習とは・長期的に報酬を最大化できるように環境のなかで行動を選択できるエージェントを作ることを目標とする機械学習の一分野 →行動の結果として与えられる利益(報酬)をもとに、行動を決定する原理を改善していく仕組み・強化学習のイメージ・エージェントは行動する主体のこと・エージェントは、なんらかの環境に置かれ、環境の「状態」を観測し、それに基づき「行動」を行う。その結果として、環境の状態が変化し、エージェントは環境から「報酬」を受け取ると同時に、「新しい状態」を観測する。 ■強化学習の応用例・マーケティングの場合を考えると、環境、エージェント、行動、報酬は以下のように考えられる。環境：会社の販売促進部エージェント:プロフィールと購入履歴に基づいて、キャンペーンメールを送る顧客を決めるソフトウェア行動：顧客ごとに送信、非送信のふたつの行動を選ぶ報
LLMを使っておとぎ話を作る | IIJ Engineers Blog
- 1 user
- eng-blog.iij.ad.jp
- テクノロジー
- 2024/07/27
I am working in the IIJ Research Laboratory, focusing on bridging the gap in Internet data knowledge for people from various domains and non-technical users. 前回の記事では、コード生成からカスタマーサポートの自動化まで、大規模言語モデル（Large Language Models：LLM）が企業にもたらす影響について紹介しました。その複雑さにもかかわらず、LLMの導入がより身近になり、より多くの人々がその機能を利用できるようになったことをお伝えしました。LLMシリーズの2回目となる本稿では、LLMの実用的なアプリケーションをより深く掘り下げます。具体的には、コンテンツの生成と微調整に焦点を当てます。LLMを様々なタスクで効果的に使用す
はじめての自然言語処理 Prefix Tuning の検証 | オブジェクトの広場
- 1 user
- www.ogis-ri.co.jp
- テクノロジー
- 2024/07/16
今回は Prefix Tuning の検証のご紹介です。扱うモデルサイズがだんだんと大きくなるばかりの昨今。ファインチューニングは LoRA 的なコトでどうにかするとしても、それなりのサイズ感のモデルから派生したファインチューニング済みモデルを複数デプロイしようとすると、GPU メモリが足りません。そこを Prefix Tuning でどうにかしたいというお話です。 1. はじめに前回 RLHF で散々苦労して、その後すぐに LIMA1 の論文を読んで魂抜けそうになりました。。。最近、身の回りでは GPT-4 やら Function calling やら LangChain やら Llama2 やらの話題が多くてですね、「学習済みモデルを拾ってきて手元のデータで学習！」とかしていると周囲とのズレを感じずにはいられません2 。。。とはいえ、流行りものは沢山の人が記事を書くので、今回