タグ

finetuningに関するanimistのブックマーク (8)

  • ChatGPTで独自データを学習させて回答してもらう方法 - Qiita

    ChatGPT,使っていますか? ChatGPTは文章を要約したり、プログラム作ってくれたり、一緒にブレストしてくれたりして当に便利なのですが、社内情報などの独自データに関する情報については回答してくれません。 プロンプトに情報を記述して、そこに書かれている情報から回答してもらう方法もありますが、最大トークン4000の壁がありますので、限界があるかと思います。 この課題についてなんとかならないかと考えて色々と調べて見たところ、解決する方法が見つかり、いろいろと検証をして見ましたのでその結果をシェアしたいと思います。 サンプルコード(GoogleColab) 百聞は一見にしかずということで、実際に試したサンプルは以下にありますので、まずは動かしてみることをお勧めします。 このコードを上から順番に動かすと、実際にインターネット上から取得したPDFファイルに関する内容をChatGPTが回答して

    ChatGPTで独自データを学習させて回答してもらう方法 - Qiita
  • ChatGPTで独自データを扱うためのエンべディング|緒方 壽人 (Takram)

    2023/11/7追記】 OpenAI Dev Dayにて、開発者向けの大型アップデートが発表されました。この記事で紹介している手法は、Retrieval-Augmented Generation(RAG)と呼ばれてきましたが、今回のアップデートでコンテクスト長(やりとりできるテキストの長さの上限)がこれまでの8Kから128K(12万8千トークン)に大幅にアップするため、一般的なの内容は1冊分丸ごと渡すことができるようになります。独自データベースとの連携という意味では、ここで紹介している手法も引き続き有効な手法ですが、API関連でも様々な機能が追加されているので、リリースやSam Altmanによるキーノートは要チェックです。 ChatGPTは、膨大な量のテキストを学習してはいますが、天気予報のような最新の情報や、ある特定のの内容や、特定のサービスの詳細についてはじめから知っているわ

    ChatGPTで独自データを扱うためのエンべディング|緒方 壽人 (Takram)
  • OpenAI Platform

    Explore resources, tutorials, API docs, and dynamic examples to get the most out of OpenAI's developer platform.

    OpenAI Platform
  • LLMのFine-Tuning手法まとめ - Qiita

    LLMのFine-Tuning手法まとめ この記事のまとめ+補足説明を加えたものです。 https://dr-bruce-cottman.medium.com/part-1-eight-major-methods-for-finetuning-an-llm-6f746c7259ee LLM に対してパラメータ Fine-Tuning を行う手法 Gradient-based LoRA QLoRA その他の手法 について見ていきます。 0. 初期の Fine-Tuning 方法 初期の Fine-Tuning 方法はシンプルで、事前にトレーニングされた言語モデル (当時の用語は NLP (自然言語処理) と呼ばれていました) を取得し、それをラベル付きデータの小さなデータセットで微調整することが含まれていました。 目標は、モデルのパラメーターを調整することで、ラベル付きデータに対するモデルの

    LLMのFine-Tuning手法まとめ - Qiita
  • 文章を探す時にベクトル検索を行う際の課題と解決策のメモ|Kan Hatakeyama

    最近は、GPTのpromptにオリジナル文書を載せて回答させるchatbotが流行ってます。 文章検索は、GPTのembedベクトル計算機能を使うのが一般的で、llammaindex などのライブラリにも内蔵されています 個人的には、SBERTやローカルLLMでも、大丈夫だと思っています しかし、実際に運用してみると、思ったように動かないという問題に直面します ベクトル検索の利点 https://qdrant.tech/articles/hybrid-search/キーワード検索の利点 https://qdrant.tech/articles/hybrid-search/ベクトル検索は、意味にフォーカスした検索が可能で、従来のキーワード検索は、単語を拾うのが得意、という感じです。 ベクトル検索で個人的に困った点ベクトル検索では、目的の文書になかなか辿り着けないという問題に直面しました。特に

    文章を探す時にベクトル検索を行う際の課題と解決策のメモ|Kan Hatakeyama
  • ChatGPTに表記揺れのある値を自動分類してもらう方法 - Qiita

    ChatGPT当に便利ですね。 ChatGPTは会話形式で答えてもらうだけではなく、プログラムから呼び出して使ってもかなり高精度な答えを返してくれることがわかってきました。こうなってくると使い方無限大です。 今回は、CSVにユーザの自由入力で登録された職業の項目を産業別に分類したいと言ったユースケースを想定して検証を進めました。 たとえば、アンケートなどで職業などを入力してもらう場合、どうしても表記のふれが出てしまいます。(たとえばSE,ソフトウェアエンジニア,プログラマーとか) これを防止するために、ユーザ入力時に予めマスタを用意しておき、プルダウンなどで入力してもらうといったことをすればよいですが、世の中の職業は数えきれないほどあり,マスタを準備するのは大変・・・ 準備できたとしても、あまり選択肢の数が多いと今度は入力者がそこから選ぶのが不可能になってきてしまいます。 とりあえず情

    ChatGPTに表記揺れのある値を自動分類してもらう方法 - Qiita
  • ChatGPTで独自データを学習させて回答してもらう方法 - Qiita

    ChatGPT,使っていますか? ChatGPTは文章を要約したり、プログラム作ってくれたり、一緒にブレストしてくれたりして当に便利なのですが、社内情報などの独自データに関する情報については回答してくれません。 プロンプトに情報を記述して、そこに書かれている情報から回答してもらう方法もありますが、最大トークン4000の壁がありますので、限界があるかと思います。 この課題についてなんとかならないかと考えて色々と調べて見たところ、解決する方法が見つかり、いろいろと検証をして見ましたのでその結果をシェアしたいと思います。 サンプルコード(GoogleColab) 百聞は一見にしかずということで、実際に試したサンプルは以下にありますので、まずは動かしてみることをお勧めします。 このコードを上から順番に動かすと、実際にインターネット上から取得したPDFファイルに関する内容をChatGPTが回答して

    ChatGPTで独自データを学習させて回答してもらう方法 - Qiita
  • 社内文書に特化したChatGPT ファインチューニング実践編 | DOORS DX

    ゼロイチのデータ分析に強みをもつデータサイエンティスト。学術研究の経験を背景に、前職では計算科学コンサルタントとシステムエンジニアを兼務。AIサービス事業を立ち上げ、企画からマーケティングまでを統括。ブレインパッドでは、材料開発・売上改善・特許請求に関するデータ活用の要件定義・分析・プロトタイプ開発を主導。ビジネス・アナリティクス・エンジニアリングの横断的な経験を活かし、未開拓分野のデータ活用に突破口を見出す。 ChatGPT の強みと弱み ChatGPT (Generative Pre-Trained Transformer) は、インターネット上の膨大な文書を事前学習した生成系チャット AI です。2022年に登場した ChatGPT は、人とのコミュニケーションを高いレベルで実現しています。たとえば、みなさんの中には、すでに日常で次のような使い方をしている方もいらっしゃると思います。

    社内文書に特化したChatGPT ファインチューニング実践編 | DOORS DX
  • 1