gengohouseのブックマーク (3,009)

  • # 大規模言語モデルと知識グラフの併用・相乗効果 - Qiita

    大規模言語モデルと知識グラフについて 今回は、最近読んだ論文の中で印象に残ったものを紹介します。 あくまで、大まかなイメージをつかむもので詳細には踏み込みませんが、大規模言語モデルの長所と欠点、知識グラフの長所と欠点をそれぞれ説明した上で、お互いに補い合いながら事実に基づいた質問応答や推論などの言語タスクをこなしていく上での課題を取り上げたものになります。 まず査読前論文のarxivで共有されているUnifying Large Language Models and Knowledge Graphs: A Roadmapへのリンクを掲載します。 著作権の観点から、論文を読んだ上で私が理解したことや感じたことを中心に紹介していきますが、一部簡単な図などを引用する箇所もあります。 もし著作権者様やその関係者が問題だと感じられた場合は、お伝え頂ければ謹んで当該箇所を取り下げさせていただきます(今

    # 大規模言語モデルと知識グラフの併用・相乗効果 - Qiita
    gengohouse
    gengohouse 2023/07/18
    “# 大規模言語モデルと知識グラフの併用・相乗効果”
  • 文章内の誤字脱字を見つけ出すChatGPTのプロンプトの紹介|SHIFT Group 技術ブログ

    はじめにこんにちは。株式会社SHIFT DAAE(ダーエ)の栗山です。 文章内のタイポ(例: "難しいです" が "難いです" となるようなケース)を見つけるのは大変です。稿ではChatGPTを使用して、そういった誤字脱字を発見するプロンプトを紹介します。 他の記事で紹介する「表記の不統一を見つけ出すプロンプト」や「わかりづらい文章や読みづらい文章を見つけ、改善案を提示するプロンプト」と合わせて活用することで、文書作成及びレビューの手間を減らすことができるでしょう。 ※稿で紹介するプロンプトはChatGPT4で検証しています。同等の結果を得たい場合は、無償版のChatGPT3.5ではなくChatGPT4を使用することをお勧めします。 執筆者プロフィール:Kuriyama Akira DAAE開発エンジニア。そろそろプロンプトエンジニアって呼ばれそう、、 誤字脱字を発見するプロンプト以下

    文章内の誤字脱字を見つけ出すChatGPTのプロンプトの紹介|SHIFT Group 技術ブログ
  • Rinna-3.6B で LangChain を試す|npaka

    「Rinna-3.6B」で「LangChain」を試したのでまとめました。 1. Rinna-3.6B「Rinna-3.6B」は、「Rinna」が開発した、日語LLMです。商用利用可能なライセンスで公開されており、このモデルをベースにチューニングすることで、対話型AI等の開発が可能です。 2. Colabでの実行Google Colab での実行手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install transformers sentencepiece accelerate langchain bitsandbytes(2) トークナイザーとモデルの準備。 import torch from transformers import AutoTokenizer, AutoModelForCausalLM # トークナイザーとモデ

    Rinna-3.6B で LangChain を試す|npaka
  • 従来の大規模言語モデルの制約だった「入力量の限界」を取り払った「RWKV」は一体どんな言語モデルなのか?

    ChatGPTBardなど、2023年7月時点で商用利用されている大規模言語モデルはほとんど全てがトランスフォーマーというアーキテクチャを利用したモデルですが、トランスフォーマー型のモデルは入力の長さの2乗に比例して計算量が増加するため、入力サイズが制限されてしまう問題があります。そうした問題に応えて、大きいデータへの対応や推論時のメモリ使用量の削減を達成しつつトランスフォーマー型に匹敵する性能を出せるアーキテクチャ「RWKV」について、著者の一人がブログで解説しています。 The RWKV language model: An RNN with the advantages of a transformer | The Good Minima https://johanwind.github.io/2023/03/23/rwkv_overview.html How the RWKV l

    従来の大規模言語モデルの制約だった「入力量の限界」を取り払った「RWKV」は一体どんな言語モデルなのか?
    gengohouse
    gengohouse 2023/07/10
    “従来の大規模言語モデルの制約だった「入力量の限界」を取り払った「RWKV」は一体どんな言語モデルなのか?”
  • 大規模言語モデルへのプロンプト、重要な情報はどこに書く? | AIDB

    この記事では、スタンフォード大学などの研究グループが発表した新たな研究について詳しく解説します。この研究は、大規模言語モデルがどのように長いコンテキストを利用するかについての重要な洞察を提供しています。 大事な結論から言えば、大規模言語モデルに対するプロンプトでは、重要なことは最初か最後に書きましょう。 参照論文情報 タイトル:Lost in the Middle: How Language Models Use Long Contexts 著者:Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, Percy Liang 所属:スタンフォード大、カリフォルニア大など URL:https://doi.org/10.48550/arXiv.2307.03172 関

    大規模言語モデルへのプロンプト、重要な情報はどこに書く? | AIDB
    gengohouse
    gengohouse 2023/07/10
    “大規模言語モデルへのプロンプト、重要な情報はどこに書く?”
  • 数値で整理する大規模言語モデル(LLM) のメモ | ドクセル

    数値で整理する 大規模言語モデル(LLM) の メモ • Kan Hatakeyama Twitter • • • • 2023/7/6 作成 2023/7/7 打ち間違いなど微修正。 GPT-3の必要メモリ(推定値)を追記。 2023/7/8 学習に必要なメモリを修正 2023/7/9 モデルサイズvs学習データ数の情報を追記 • 突貫で作成したため、誤りが多々ありそうです。ご了承(指摘)ください。 1 https://twitter.com/kanhatakeyama

    数値で整理する大規模言語モデル(LLM) のメモ | ドクセル
    gengohouse
    gengohouse 2023/07/10
    “数値で整理する大規模言語モデル(LLM) のメモ”
  • さくらのクラウド高火力プランを使って大規模言語モデル(LLM)を動かしてみよう 〜前編〜 | さくらのナレッジ

    さくらインターネットの芦野と申します。 この記事では、いまChatGPTなどで話題となっている大規模言語モデルについて話をしたいと思います。どうぞよろしくお願いいたします。 自己紹介 軽く自己紹介をさせていただこうかと思います。さくらインターネット クラウド事業部 クラウドサービス部で、さくらのクラウドのバックエンド開発やインフラ開発をやっています。また、弊社で衛星データプラットフォーム・Tellusというものもやっておりまして、そちらのバックエンドも作っています。Twitterもやっていますので、フォローしていただけるとうれしいです。 それから、経歴の紹介なんですけれども、10年くらい前に、地元である宮城県仙台市の専門学校で学んでおりました。この専門学校でOSC 2012 Sendaiというイベントが開催されて、偶然ではありますが自分はここで初めてOSCに参加して、OSSという素敵な世

    さくらのクラウド高火力プランを使って大規模言語モデル(LLM)を動かしてみよう 〜前編〜 | さくらのナレッジ
  • PaLMを活用してGoogle Cloudで文章回答AIを構成してみた - Qiita

    はじめに こんにちは、京セラコミュニケーションシステム 森田 (@kccs_kai-morita)です。 先日Google Cloudにて扱える生成AIことPaLM APIがGAになりましたので、Google Cloudのサービスを組み合わせて特定の文章に質問回答ができるAIシステムをデモ的に作ってみました。 :::note info 記事は2023年6月ごろに作成しております。 ::: この記事の対象者 Google Cloudにおける生成AIの活用サービスに興味ある方 細かい設定やコードなどサービス個別の情報は別途記事を書く予定です。 プロセスの概要 目標は特定の文章(たとえば社内の文章)に対する質問を投げると、その問い対して回答が得られることです。 これは次の2つのステップで実現します。 質問文に関連する文章をデータベースから探索する 探索した文章をもとに文章生成AIが質問に対する

    PaLMを活用してGoogle Cloudで文章回答AIを構成してみた - Qiita
  • OpenAIの埋め込みよりも高性能?多言語E5を日本語で評価してみる - Ahogrammer

    多言語のテキスト埋め込み用のモデルであるMultilingual-E5-largeの性能を日語のデータセットで評価してみました。 E5とは E5とはEmbEddings from bidirEctional Encoder rEpresentationsの略で、テキストの埋め込み用のモデルです[1]。Web上から収集した大規模なテキストペアのデータセット(CCPairs)で対照学習したあと、NLIやMS Marcoなどの高品質なデータセットで学習しています。情報検索のベンチマークであるBEIR[2]や埋め込みのベンチマークであるMTEB[3]で評価されており、MTEBではOpenAItext-embedding-ada-002を上回る性能が報告されています。 MTEBの結果。平均的な性能で`text-embedding-ada-002`を上回っている。 CCPairsはWeb上から収集

    OpenAIの埋め込みよりも高性能?多言語E5を日本語で評価してみる - Ahogrammer
    gengohouse
    gengohouse 2023/07/05
    “OpenAIの埋め込みよりも高性能?多言語E5を日本語で評価してみる”
  • ローカルでも動く!?日本語に特化した強化学習済み対話GPT言語モデルを検証してみる - Qiita

    はじめに 元AI女子高生「りんな」をご存知でしょうか LINEに突如現れたAI女子高生で話題となっていたと思いますので、ご存知の方も多いかとおもいます。 先日「りんな」の開発元であるrinna社から日語特化の学習がされたGPT-2モデルが 商用利用可能なMITライセンス で公開されました。 rinna、人間の評価を利用したGPT言語モデルの強化学習に成功 モデルは、 ChatGPTに用いられている学習手法である、人間の評価を利用したGPT言語モデルの強化学習に成功している とのことです。 かつ ローカル環境でも動作する ようです。 記事では、その対話GPT言語モデルの動作を見てみようと思う 目次 動作環境 モデル動作確認(GoogleColab) ローカル環境で実行 さいごに 動作環境 検証環境 google colaboratory(Colab Pro版) ローカル検証環境 Win

    ローカルでも動く!?日本語に特化した強化学習済み対話GPT言語モデルを検証してみる - Qiita
    gengohouse
    gengohouse 2023/07/03
    “ローカルでも動く!?日本語に特化した強化学習済み対話GPT言語モデルを検証してみる”
  • 無料のDatabricks Community Editionを使って大規模言語モデルを体験してみる - Qiita

    こちらの続編的に。 使っているノートブックはこちらです。 Databricksとは データブリックスは、学術界とオープンソースコミュニティをルーツとするデータ+AIの企業です。Apache Spark™、Delta Lake、MLflowの開発者グループによる2013年の創業以来、最新のレイクハウスアーキテクチャを基盤に、データウェアハウスとデータレイクの優れた機能を取り入れた、データとAIのためのクラウドベースのオープンな統合プラットフォームを提供しています。 このレイクハウスプラットフォームをご利用いただくことで、機械学習モデルのトレーニングはもちろん、機械学習モデルの運用管理、ETLパイプラインの開発・運用、データの蓄積、BIなど様々なワークロードを一つのプラットフォーム上で効率的に実施いただけるようになります。 Databricks Community Editionとは Data

    無料のDatabricks Community Editionを使って大規模言語モデルを体験してみる - Qiita
  • 大規模AIモデルの時代は終わった | AI専門ニュースメディア AINOW

    著者のアルベルト・ロメロ(Alberto Romero)氏はスペイン在住のAI技術批評家で、AINOWでは同氏の記事を多数紹介して来ました。同氏がMediumに投稿した記事『大規模AIモデルの時代は終わった』では、大規模言語モデル開発においてモデルサイズの大規模化のみに注目する規模至上主義が批判的に検討されています。 ロメロ氏はGPT-2からGPT-4にいたる大規模言語モデル開発の歴史において、言語モデルのパラメータ数が大きいほど、言語モデルの性能が向上するスケーリング則が重視されていたことを指摘します。そのうえで2023年4月にマサチューセッツ工科大学で開催されたイベントにおけるサム・アルトマンOpen AI CEOの発言を引用します。同CEOは、モデルサイズの大規模化を最重視する時代は終わった、と発言したのです。というのも、GPT-4より大規模なモデルを開発するために必要なデータセンタ

    大規模AIモデルの時代は終わった | AI専門ニュースメディア AINOW
    gengohouse
    gengohouse 2023/06/30
    “大規模AIモデルの時代は終わった”
  • 最近公開された日本語LLMを要約生成タスクで検証してみる|朝日新聞社 メディア研究開発センター

    こんにちは。メディア研究開発センター(M研)の田口です。 最近、大規模言語モデル(以下、LLM)に関するニュースが毎日のように出ています。直近約1ヶ月の間にもOpenAIAPIのアップデートが発表されたり、日語のLLMが公開されたりしました。 少し前(といっても4月末)に「ChatGPT/OpenAI API/LLM活用事例~NewsPicksと朝日新聞の合同勉強会を公開」でLTをしました。このときはChatGPTの見出し生成の簡単な性能検証をしただけなので、この記事では最近公開されたLLMモデルの検証をしてみました。 ※この記事では社内データでなく公開データされているデータセットで実験しています LTの資料はこちらになります。 日語LLMを要約タスクで検証するさっそく題に入りましょう。今回は5月以降に発表された以下の日語LLMを要約タスクで評価してみようと思います。 cyber

    最近公開された日本語LLMを要約生成タスクで検証してみる|朝日新聞社 メディア研究開発センター
    gengohouse
    gengohouse 2023/06/30
    “最近公開された日本語LLMを要約生成タスクで検証してみる”
  • 文章内の表記の不統一箇所を見つけ出すChatGPTのプロンプトの紹介|SHIFT Group 技術ブログ

    はじめにこんにちは。株式会社SHIFT DAAE(ダーエ)部の栗山です。 "Bot" や "BOT" といった文章における表記の不統一を見つけるのは大変な作業です。稿ではChatGPTを使用して、そういった表記の不統一を発見するプロンプトを紹介します。 他の記事で紹介する「誤字脱字を見つけ出すプロンプト」や「わかりづらい文章や読みづらい文章を見つけ、改善案を提示するプロンプト」と合わせて活用することで、文書作成及びレビューの手間を減らすことができるでしょう。 ※稿で紹介するプロンプトはChatGPT4で検証しています。同等の結果を得たい場合は、無償版のChatGPT3.5ではなくChatGPT4を使用することをお勧めします。 執筆者プロフィール:Kuriyama Akira DAAE開発エンジニア。そろそろプロンプトエンジニアって呼ばれそう、、、 表記の不統一を発見するプロンプト以下が

    文章内の表記の不統一箇所を見つけ出すChatGPTのプロンプトの紹介|SHIFT Group 技術ブログ
  • 大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part1

    はじめに Turing 株式会社のリサーチチームでインターンをしている東京工業大学 B4 横田研究室の藤井(@okoge_kaz)です。 大規模言語モデル(Large Language Model: LLM)への注目がGPT-4のリリース以降高まっていますが、LLMを作るための知見は十分に共有されているとは言い難いと個人的に感じています。 Turingでは、Vision and Language, Video and Languageなどのマルチモーダルなモデルの研究開発を行っている一環として、Megatron-DeepSpeed, GPT-NeoXなどを用いて数十Bのモデルの学習を行う知見を蓄積しています。今回はLLMの事前学習を行う際に候補となるMegatron-DeepSpeedを用いてGPT-2-7B(6.6B)の学習をどのように行うのかについて解説します。 分散並列学習がどのよう

    大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part1
  • テキスト生成APIサーバのスループットを高めるbatching algorithms

    はじめに テキスト生成モデルをAPIサーバでホストする需要が増えてきている昨今ですが1サーバでできるだけ多くのリクエストをさばくためにはどうすればよいでしょうか?もちろん高速なツールを使うことも重要ですが、それだけでは限界があります。前回の記事ではいくつかのツールを比較しましたが、どのツールでもバッチサイズを上げることで単位時間あたりの処理能力を高めることができるということがわかりました。つまりAPIサーバ側でバッチサイズを大きくする工夫をすることでより多くのリクエストをさばくことが可能になります。 今回の記事ではText Generation InferenceやvLLMなどが採用して注目を集めているContinuous batchingと呼ばれる手法について紹介します。 名称や仕組みなどについてはこれらの解説を参考にしています。 予備知識 Continuous batchingの説明に

    テキスト生成APIサーバのスループットを高めるbatching algorithms
  • 60億パラメータの大規模言語モデルChatGLM2-6Bを使ってみた|Masayuki Abe

    英語中国語の60億パラメータの大規模言語モデルの使い方と使ってみた結果を書いていきます。 今回のChatGLM2-6Bとは、以前書いたChatGLM-6Bの2代目ということになります。 今回は、Google Colabで以下のコードで実行しています。 !pip install protobuf transformers==4.30.2 cpm_kernels torch>=2.0 gradio mdtex2html sentencepiece accelerate from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True) model = AutoModel.from_pret

    60億パラメータの大規模言語モデルChatGLM2-6Bを使ってみた|Masayuki Abe
  • マイクロソフト、軽量かつ高性能な大規模言語モデル「phi-1」を発表

    Microsoft ResearchのAI研究チームは6月20日(現地時間)、わずか13億パラメーターと従来のものよりもサイズが小さいにも関わらず「GPT-3.5(1750億パラメーター)」を上回る成績を収めたTransformerベースの大規模言語モデル「phi-1」を発表した。このモデルは間もなく「Hugging Face」で公開される予定だといいう。 ベンチマークでGPT-3.5を凌駕 「Textbooks Are All You Need」と題された研究論文によると、このモデルは8台のA100(NVIDIAの高性能GPU)でわずか4日間かけて訓練され、インターネット上から取得した60億トークンの「教科書品質」データセットと、GPT-3.5で生成した10億トークンの微調整用「練習問題」データセットが使用された。 サイズが小さいにもかかわらず、phi-1はLLMの性能を測定するためのベ

    マイクロソフト、軽量かつ高性能な大規模言語モデル「phi-1」を発表
    gengohouse
    gengohouse 2023/06/27
    “phi-1”
  • ChatGPT API + Function Callingで学習データ不要のカテゴリ推定 - Qiita

    ChatGPT API の Function Calling機能 OpenAIが提供しているChatGPT APIに、Function Calling機能が実装されました。 説明によると、Function Callingは、他のAPIとの連携を想定して、その(json)フォーマットのパラメータを入力テキストから推定してくれる、というものであるとされています。しかし、エンジニアリング・テキスト処理の観点からみると、あるフォーマットを与えると、それに即したいくつかの変数をChatGPT APIが返してくれるという、出力の形式が安定するというところにこそ、この機能の大きな価値があるように思えます。 今までのChatGPTでは、(APIを使ったとしても)出力される文字列の形式を指定することはできませんでした。プロンプトの工夫によって、多くの場合にこちらが返してほしい形式で出力されるようにする様々な

    ChatGPT API + Function Callingで学習データ不要のカテゴリ推定 - Qiita
  • 輪読会「ゼロから作るDeep Learning② 自然言語処理編」第4回 - TechMath Project

    はじめに てくますプロジェクトでは、てくますゼミと呼ばれる輪読会を隔週で開催しています。 少人数であーだこーだ議論しながら、考える楽しさを分かち合う、ゼミのようなコミュニティです。主に、AIなどの「IT × 数学」領域について学習しています。 てくますゼミ(Connpass) てくますゼミの風景 現在は「ゼロから作るDeep Learning② 自然言語処理編」というを読み進めています。 今回は書第4回の輪読会ということで、4章を読み進めました! 記事では、今回の勉強会で学んだことをざっくりと紹介していきます。 学習内容 word2vecのボトルネック 前章で作成したシンプルなword2vecでは、巨大なコーパスを扱う際には時間がかかり過ぎてしまいます。 入力層→(W_inと全結合)→中間層→(W_outと全結合)→(ソフトマックス関数)→出力層 上記のうち、ボトルネックになる箇所は