gengohouseのブックマーク - はてなブックマーク

# 大規模言語モデルと知識グラフの併用・相乗効果 - Qiita

大規模言語モデルと知識グラフについて今回は、最近読んだ論文の中で印象に残ったものを紹介します。あくまで、大まかなイメージをつかむもので詳細には踏み込みませんが、大規模言語モデルの長所と欠点、知識グラフの長所と欠点をそれぞれ説明した上で、お互いに補い合いながら事実に基づいた質問応答や推論などの言語タスクをこなしていく上での課題を取り上げたものになります。まず査読前論文のarxivで共有されているUnifying Large Language Models and Knowledge Graphs: A Roadmapへのリンクを掲載します。著作権の観点から、論文を読んだ上で私が理解したことや感じたことを中心に紹介していきますが、一部簡単な図などを引用する箇所もあります。もし著作権者様やその関係者が問題だと感じられた場合は、お伝え頂ければ謹んで当該箇所を取り下げさせていただきます（今

gengohouse 2023/07/18

“# 大規模言語モデルと知識グラフの併用・相乗効果”

リンク

文章内の誤字脱字を見つけ出すChatGPTのプロンプトの紹介｜SHIFT Group 技術ブログ

はじめにこんにちは。株式会社SHIFT DAAE（ダーエ）の栗山です。文章内のタイポ（例： "難しいです" が "難いです" となるようなケース）を見つけるのは大変です。本稿ではChatGPTを使用して、そういった誤字脱字を発見するプロンプトを紹介します。他の記事で紹介する「表記の不統一を見つけ出すプロンプト」や「わかりづらい文章や読みづらい文章を見つけ、改善案を提示するプロンプト」と合わせて活用することで、文書作成及びレビューの手間を減らすことができるでしょう。 ※本稿で紹介するプロンプトはChatGPT4で検証しています。同等の結果を得たい場合は、無償版のChatGPT3.5ではなくChatGPT4を使用することをお勧めします。執筆者プロフィール：Kuriyama Akira DAAE開発エンジニア。そろそろプロンプトエンジニアって呼ばれそう、、誤字脱字を発見するプロンプト以下

gengohouse 2023/07/13

リンク

Rinna-3.6B で LangChain を試す｜npaka

「Rinna-3.6B」で「LangChain」を試したのでまとめました。 1. Rinna-3.6B「Rinna-3.6B」は、「Rinna」が開発した、日本語LLMです。商用利用可能なライセンスで公開されており、このモデルをベースにチューニングすることで、対話型AI等の開発が可能です。 2. Colabでの実行Google Colab での実行手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install transf ormers sentencepiece accelerate langchain bitsandbytes(2) トークナイザーとモデルの準備。 import torch from transf ormers import AutoTokenizer, AutoModelForCausalLM # トークナイザーとモデ

gengohouse 2023/07/11

リンク

従来の大規模言語モデルの制約だった「入力量の限界」を取り払った「RWKV」は一体どんな言語モデルなのか？

ChatGPTやBardなど、2023年7月時点で商用利用されている大規模言語モデルはほとんど全てがトランスフォーマーというアーキテクチャを利用したモデルですが、トランスフォーマー型のモデルは入力の長さの2乗に比例して計算量が増加するため、入力サイズが制限されてしまう問題があります。そうした問題に応えて、大きいデータへの対応や推論時のメモリ使用量の削減を達成しつつトランスフォーマー型に匹敵する性能を出せるアーキテクチャ「RWKV」について、著者の一人がブログで解説しています。 The RWKV language model: An RNN with the advantages of a transf ormer | The Good Minima https://johanwind.github.io/2023/03/23/rwkv_overview.html How the RWKV l

gengohouse 2023/07/10

“従来の大規模言語モデルの制約だった「入力量の限界」を取り払った「RWKV」は一体どんな言語モデルなのか？”

リンク

大規模言語モデルへのプロンプト、重要な情報はどこに書く？ | AIDB

この記事では、スタンフォード大学などの研究グループが発表した新たな研究について詳しく解説します。この研究は、大規模言語モデルがどのように長いコンテキストを利用するかについての重要な洞察を提供しています。大事な結論から言えば、大規模言語モデルに対するプロンプトでは、重要なことは最初か最後に書きましょう。参照論文情報タイトル：Lost in the Middle: How Language Models Use Long Contexts 著者：Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, Percy Liang 所属：スタンフォード大、カリフォルニア大など URL：https://doi.org/10.48550/arXiv.2307.03172 関

gengohouse 2023/07/10

“大規模言語モデルへのプロンプト、重要な情報はどこに書く？”

リンク

数値で整理する大規模言語モデル(LLM) のメモ | ドクセル

数値で整理する大規模言語モデル(LLM) のメモ • Kan Hatakeyama Twitter • • • • 2023/7/6 作成 2023/7/7 打ち間違いなど微修正。 GPT-3の必要メモリ(推定値)を追記。 2023/7/8 学習に必要なメモリを修正 2023/7/9 モデルサイズvs学習データ数の情報を追記 • 突貫で作成したため､誤りが多々ありそうです｡ご了承(指摘)ください｡ 1 https://twitter.com/kanhatakeyama

gengohouse 2023/07/10

“数値で整理する大規模言語モデル(LLM) のメモ”

リンク

さくらのクラウド高火力プランを使って大規模言語モデル(LLM)を動かしてみよう〜前編〜 | さくらのナレッジ

さくらインターネットの芦野と申します。この記事では、いまChatGPTなどで話題となっている大規模言語モデルについて話をしたいと思います。どうぞよろしくお願いいたします。自己紹介軽く自己紹介をさせていただこうかと思います。さくらインターネットクラウド事業本部クラウドサービス部で、さくらのクラウドのバックエンド開発やインフラ開発をやっています。また、弊社で衛星データプラットフォーム・Tellusというものもやっておりまして、そちらのバックエンドも作っています。Twitterもやっていますので、フォローしていただけるとうれしいです。それから、経歴の紹介なんですけれども、10年くらい前に、地元である宮城県仙台市の専門学校で学んでおりました。この専門学校でOSC 2012 Sendaiというイベントが開催されて、偶然ではありますが自分はここで初めてOSCに参加して、OSSという素敵な世

gengohouse 2023/07/05

リンク

PaLMを活用してGoogle Cloudで文章回答AIを構成してみた - Qiita

はじめにこんにちは、京セラコミュニケーションシステム森田 (@kccs_kai-morita）です。先日Google Cloudにて扱える生成AIことPaLM APIがGAになりましたので、Google Cloudのサービスを組み合わせて特定の文章に質問回答ができるAIシステムをデモ的に作ってみました。 :::note info 本記事は2023年6月ごろに作成しております。 ::: この記事の対象者 Google Cloudにおける生成AIの活用サービスに興味ある方細かい設定やコードなどサービス個別の情報は別途記事を書く予定です。プロセスの概要目標は特定の文章（たとえば社内の文章）に対する質問を投げると、その問い対して回答が得られることです。これは次の2つのステップで実現します。質問文に関連する文章をデータベースから探索する探索した文章をもとに文章生成AIが質問に対する

gengohouse 2023/07/05

リンク

OpenAIの埋め込みよりも高性能？多言語E5を日本語で評価してみる - Ahogrammer

多言語のテキスト埋め込み用のモデルであるMultilingual-E5-largeの性能を日本語のデータセットで評価してみました。 E5とは E5とはEmbEddings from bidirEctional Encoder rEpresentationsの略で、テキストの埋め込み用のモデルです[1]。Web上から収集した大規模なテキストペアのデータセット（CCPairs）で対照学習したあと、NLIやMS Marcoなどの高品質なデータセットで学習しています。情報検索のベンチマークであるBEIR[2]や埋め込みのベンチマークであるMTEB[3]で評価されており、MTEBではOpenAIのtext-embedding-ada-002を上回る性能が報告されています。 MTEBの結果。平均的な性能で`text-embedding-ada-002`を上回っている。 CCPairsはWeb上から収集

gengohouse 2023/07/05

“OpenAIの埋め込みよりも高性能？多言語E5を日本語で評価してみる”

リンク

ローカルでも動く！？日本語に特化した強化学習済み対話GPT言語モデルを検証してみる - Qiita

はじめに元AI女子高生「りんな」をご存知でしょうか LINEに突如現れたAI女子高生で話題となっていたと思いますので、ご存知の方も多いかとおもいます。先日「りんな」の開発元であるrinna社から日本語特化の学習がされたGPT-2モデルが商用利用可能なMITライセンスで公開されました。 rinna、人間の評価を利用したGPT言語モデルの強化学習に成功本モデルは、 ChatGPTに用いられている学習手法である、人間の評価を利用したGPT言語モデルの強化学習に成功しているとのことです。かつローカル環境でも動作するようです。本記事では、その対話GPT言語モデルの動作を見てみようと思う目次動作環境モデル動作確認（Google Colab）ローカル環境で実行さいごに動作環境検証環境 google colaboratory（Colab Pro版）ローカル検証環境 Win

gengohouse 2023/07/03

“ローカルでも動く！？日本語に特化した強化学習済み対話GPT言語モデルを検証してみる”

リンク

無料のDatabricks Community Editionを使って大規模言語モデルを体験してみる - Qiita

こちらの続編的に。使っているノートブックはこちらです。 Databricksとはデータブリックスは、学術界とオープンソースコミュニティをルーツとするデータ＋AIの企業です。Apache Spark™、Delta Lake、MLflowの開発者グループによる2013年の創業以来、最新のレイクハウスアーキテクチャを基盤に、データウェアハウスとデータレイクの優れた機能を取り入れた、データとAIのためのクラウドベースのオープンな統合プラットフォームを提供しています。このレイクハウスプラットフォームをご利用いただくことで、機械学習モデルのトレーニングはもちろん、機械学習モデルの運用管理、ETLパイプラインの開発・運用、データの蓄積、BIなど様々なワークロードを一つのプラットフォーム上で効率的に実施いただけるようになります。 Databricks Community Editionとは Data

gengohouse 2023/07/03

リンク

大規模AIモデルの時代は終わった | AI専門ニュースメディア AINOW

著者のアルベルト・ロメロ（Alberto Romero）氏はスペイン在住のAI 技術批評家で、AINOWでは同氏の記事を多数紹介して来ました。同氏がMediumに投稿した記事『大規模AIモデルの時代は終わった』では、大規模言語モデル開発においてモデルサイズの大規模化のみに注目する規模至上主義が批判的に検討されています。ロメロ氏はGPT-2からGPT-4にいたる大規模言語モデル開発の歴史において、言語モデルのパラメータ数が大きいほど、言語モデルの性能が向上するスケーリング則が重視されていたことを指摘します。そのうえで2023年4月にマサチューセッツ工科大学で開催されたイベントにおけるサム・アルトマンOpen AI CEOの発言を引用します。同CEOは、モデルサイズの大規模化を最重視する時代は終わった、と発言したのです。というのも、GPT-4より大規模なモデルを開発するために必要なデータセンタ

gengohouse 2023/06/30

“大規模AIモデルの時代は終わった”

リンク

最近公開された日本語LLMを要約生成タスクで検証してみる｜朝日新聞社メディア研究開発センター

こんにちは。メディア研究開発センター（M研）の田口です。最近、大規模言語モデル（以下、LLM）に関するニュースが毎日のように出ています。直近約1ヶ月の間にもOpenAIのAPIのアップデートが発表されたり、日本語のLLMが公開されたりしました。少し前（といっても4月末）に「ChatGPT/OpenAI API/LLM活用事例～NewsPicksと朝日新聞の合同勉強会を公開」でLTをしました。このときはChatGPTの見出し生成の簡単な性能検証をしただけなので、この記事では最近公開されたLLMモデルの検証をしてみました。 ※この記事では社内データでなく公開データされているデータセットで実験しています LTの資料はこちらになります。日本語LLMを要約タスクで検証するさっそく本題に入りましょう。今回は5月以降に発表された以下の日本語LLMを要約タスクで評価してみようと思います。 cyber

gengohouse 2023/06/30

“最近公開された日本語LLMを要約生成タスクで検証してみる”

リンク

文章内の表記の不統一箇所を見つけ出すChatGPTのプロンプトの紹介｜SHIFT Group 技術ブログ

はじめにこんにちは。株式会社SHIFT DAAE（ダーエ）部の栗山です。 "Bot" や "BOT" といった文章における表記の不統一を見つけるのは大変な作業です。本稿ではChatGPTを使用して、そういった表記の不統一を発見するプロンプトを紹介します。他の記事で紹介する「誤字脱字を見つけ出すプロンプト」や「わかりづらい文章や読みづらい文章を見つけ、改善案を提示するプロンプト」と合わせて活用することで、文書作成及びレビューの手間を減らすことができるでしょう。 ※本稿で紹介するプロンプトはChatGPT4で検証しています。同等の結果を得たい場合は、無償版のChatGPT3.5ではなくChatGPT4を使用することをお勧めします。執筆者プロフィール：Kuriyama Akira DAAE開発エンジニア。そろそろプロンプトエンジニアって呼ばれそう、、、表記の不統一を発見するプロンプト以下が

gengohouse 2023/06/29

リンク

大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part1

はじめに Turing 株式会社のリサーチチームでインターンをしている東京工業大学 B4 横田研究室の藤井(@okoge_kaz)です。大規模言語モデル(Large Language Model: LLM)への注目がGPT-4のリリース以降高まっていますが、LLMを作るための知見は十分に共有されているとは言い難いと個人的に感じています。 Turingでは、Vision and Language, Video and Languageなどのマルチモーダルなモデルの研究開発を行っている一環として、Megatron-DeepSpeed, GPT-NeoXなどを用いて数十Bのモデルの学習を行う知見を蓄積しています。今回はLLMの事前学習を行う際に候補となるMegatron-DeepSpeedを用いてGPT-2-7B(6.6B)の学習をどのように行うのかについて解説します。分散並列学習がどのよう

gengohouse 2023/06/29

リンク

テキスト生成APIサーバのスループットを高めるbatching algorithms

はじめにテキスト生成モデルをAPIサーバでホストする需要が増えてきている昨今ですが1サーバでできるだけ多くのリクエストをさばくためにはどうすればよいでしょうか？もちろん高速なツールを使うことも重要ですが、それだけでは限界があります。前回の記事ではいくつかのツールを比較しましたが、どのツールでもバッチサイズを上げることで単位時間あたりの処理能力を高めることができるということがわかりました。つまりAPIサーバ側でバッチサイズを大きくする工夫をすることでより多くのリクエストをさばくことが可能になります。今回の記事ではText Generation InferenceやvLLMなどが採用して注目を集めているContinuous batchingと呼ばれる手法について紹介します。名称や仕組みなどについてはこれらの解説を参考にしています。予備知識 Continuous batchingの説明に

gengohouse 2023/06/29

リンク

60億パラメータの大規模言語モデルChatGLM2-6Bを使ってみた｜Masayuki Abe

英語と中国語の60億パラメータの大規模言語モデルの使い方と使ってみた結果を書いていきます。今回のChatGLM2-6Bとは、以前書いたChatGLM-6Bの2代目ということになります。今回は、Google Colabで以下のコードで実行しています。 !pip install protobuf transf ormers==4.30.2 cpm_kernels torch>=2.0 gradio mdtex2html sentencepiece accelerate from transf ormers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True) model = AutoModel.from_pret

gengohouse 2023/06/28

リンク

マイクロソフト、軽量かつ高性能な大規模言語モデル「phi-1」を発表

Microsoft ResearchのAI研究チームは6月20日（現地時間）、わずか13億パラメーターと従来のものよりもサイズが小さいにも関わらず「GPT-3.5（1750億パラメーター）」を上回る成績を収めたTransf ormerベースの大規模言語モデル「phi-1」を発表した。このモデルは間もなく「Hugging Face」で公開される予定だといいう。ベンチマークでGPT-3.5を凌駕「Textbooks Are All You Need」と題された研究論文によると、このモデルは8台のA100（NVIDIAの高性能GPU）でわずか4日間かけて訓練され、インターネット上から取得した60億トークンの「教科書品質」データセットと、GPT-3.5で生成した10億トークンの微調整用「練習問題」データセットが使用された。サイズが小さいにもかかわらず、phi-1はLLMの性能を測定するためのベ

gengohouse 2023/06/27

“phi-1”

リンク

ChatGPT API + Function Callingで学習データ不要のカテゴリ推定 - Qiita

ChatGPT API の Function Calling機能 OpenAIが提供しているChatGPT APIに、Function Calling機能が実装されました。説明によると、Function Callingは、他のAPIとの連携を想定して、その（json）フォーマットのパラメータを入力テキストから推定してくれる、というものであるとされています。しかし、エンジニアリング・テキスト処理の観点からみると、あるフォーマットを与えると、それに即したいくつかの変数をChatGPT APIが返してくれるという、出力の形式が安定するというところにこそ、この機能の大きな価値があるように思えます。今までのChatGPTでは、（APIを使ったとしても）出力される文字列の形式を指定することはできませんでした。プロンプトの工夫によって、多くの場合にこちらが返してほしい形式で出力されるようにする様々な

gengohouse 2023/06/27

リンク

輪読会「ゼロから作るDeep Learning② 自然言語処理編」第４回 - TechMath Project

はじめにてくますプロジェクトでは、てくますゼミと呼ばれる輪読会を隔週で開催しています。少人数であーだこーだ議論しながら、考える楽しさを分かち合う、ゼミのようなコミュニティです。主に、AIなどの「IT × 数学」領域について学習しています。てくますゼミ（Connpass）てくますゼミの風景現在は「ゼロから作るDeep Learning② 自然言語処理編」という本を読み進めています。今回は本書第４回の輪読会ということで、４章を読み進めました！本記事では、今回の勉強会で学んだことをざっくりと紹介していきます。学習内容 word2vecのボトルネック前章で作成したシンプルなword2vecでは、巨大なコーパスを扱う際には時間がかかり過ぎてしまいます。入力層→（W_inと全結合）→中間層→（W_outと全結合）→（ソフトマックス関数）→出力層上記のうち、ボトルネックになる箇所は

gengohouse 2023/06/26

リンク

はてなブックマーク

タグ

gengohouseのブックマーク (3,009)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス