タグ

ブックマーク / zenn.dev/matsuolab (9)

  • プロンプト進化を用いた日本語選好データセットの構築

    GENIAC 松尾研 LLM開発プロジェクトメンバーのMitsuhashiです。 プロジェクト期間中に取り組んだ内容をまとめます。 概要 記事は、プロンプト進化という手法を用いた日語選好データセットの構築に関する記事です そもそも日語の指示応答データセットが少ない、特に後述する選好データセットが少ない、という致命的な問題に対して、既存のデータセットを拡張して日語のデータセットを確実に増やすことを目的として取り組みました 記事で紹介するデータセットはaya-ja-evol-instruct-calm3-dpo-maskedです 上記の基となったaya-ja-nemotron-dpoも公開します 選好データセットとは ユーザーが入力したと想定する質問文に対して、好ましい応答と、好ましくない応答がペアになったデータセットのことを、記事では選好データセットと呼びます プロジェクト当時の

    プロンプト進化を用いた日本語選好データセットの構築
    yuiseki
    yuiseki 2024/11/09
  • 日本語LLMにヒンディー語も学習させてみた。①事前学習・知識転移編

    はじめに こんにちは。松尾研 GENIAC LLM開発プロジェクト、Team JINIAC の佐野敏幸です。Team JINIACでは、日語LLMの構築でヒンディー語のデータを学習させることにも取り組みました。その取り組みについて報告します。 そもそもの動機:日語データ不足の補強 LLM学習に用いる日語データが英語データに比べて少ないことが、日語のLLMを構築する際の障害になっています。日語データの大きさは、英語データの10分の1以下ほどです。LLM構築には大規模なデータが必要ですが、そのための日語データが不足しており、日語LLM構築のネックとなっています。 https://arxiv.org/pdf/2010.11934 より そこで目を向けたのが、日語と類似した言語です。私が知っている中では、ヒンディー語が日語と近い文法を持っています。基的な文法は、日語と同じ 「

    日本語LLMにヒンディー語も学習させてみた。①事前学習・知識転移編
    yuiseki
    yuiseki 2024/09/01
  • [週次報告] 第1回 Team ビジネス

    yuiseki
    yuiseki 2024/04/05
  • [週次報告] 第1回 Team 天元突破

    yuiseki
    yuiseki 2024/04/05
  • [週次報告] 第1回 Team Zoo

    yuiseki
    yuiseki 2024/04/05
  • [週次報告] 第1回 Team JINIAC

    yuiseki
    yuiseki 2024/04/05
  • [週次報告] 第1回 Team 甲

    開発テーマ・概要 私たちは、日語での大規模言語モデルの開発をしています。 テーマ:メンバー全員で作り上げるボトムアップ型開発 チーム全体の開発状況 メンバー全員と面談を行い、希望を聴取し、各チーム(全体統括チーム、データチーム、事前・事後学習チーム)へのチーム割りを行いました。以下の課題が浮き彫りとなり、解決策を検討しました。 課題と解決策 課題1:稼働時間の短いメンバーのキャッチアップの難しさ(1日2時間程度の稼働時間のうち、1時間はキャッチアップで溶けてしまう) 「ここを見てね」という場所を作る どこを見ればよいか?はslackのcanvasに記載 キャッチアップで見るべき場所は、slackのピン留めアイテムとnotionの更新履歴 課題2:他チームの動きが見づらい notionページのチームホームの記載の統一化(スケジュール、メンバー一覧、週次報告内容はここでわかるようにする) チ

    [週次報告] 第1回 Team 甲
    yuiseki
    yuiseki 2024/04/05
  • [週次報告] 第1回 Team たぬき

    開発テーマ・概要 私たちのチームは、大規模言語モデル(LLM)の開発に取り組んでいます。具体的には、日語に特化したLLMの開発を目指し、データセットの収集・加工、モデルの学習、推論システムの構築などを行っています。 チーム全体の開発状況 現在、各サブチームが並行して作業を進めています。データセットの収集・加工では、CommonCrawlやPMC OAなどの大規模データから日語テキストを抽出し、クリーニングを行っています。モデルの学習では、0.3bモデルの学習を完了し、1Bクラスのモデルの学習に向けた準備を進めています。また、独自のパイプラインの構築や、カリキュラム学習の検討なども行っています。 サブチームからの情報共有 サブチーム1: 指示データセット やったこと インストラクションデータのタスク案をmiro上で作成し、タスク案をクラスタリング 評価データセットの確認 データ収集用のW

    [週次報告] 第1回 Team たぬき
    yuiseki
    yuiseki 2024/04/05
  • [週次報告] 第1回 Team kumagai

    週次報告 チーム名: team_kumagai 日時: 3/26(火) 開発テーマ・概要 PR-MoEのような、MoEの構造のモデルの学習をする 商用利用可能な良質なデータセットの作成 チーム全体の開発状況 Huggingface登録までの一連の流れを実施 wiki40bを利用した、独自のトークナイザーの学習(3type) https://huggingface.co/geniacllm/ja-tokenizer-unigram-v1 https://huggingface.co/geniacllm/en-tokenizer-unigram-v1 https://huggingface.co/geniacllm/ja-en-tokenizer-unigram-v1 以下の条件でのモデルの学習、wandb,hugggingfaceの連携 データ: wiki40bja モデル: Mixtral

    [週次報告] 第1回 Team kumagai
    yuiseki
    yuiseki 2024/04/05
  • 1