並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 7 件 / 7件

新着順 人気順

コーパスとはの検索結果1 - 7 件 / 7件

  • NII、130億パラメータのLLM構築 コーパスなども全公開 「今後の研究に資するため」

    国立情報学研究所(NII)は10月20日、パラメータ数130億の大規模言語モデル(LLM)「LLM-jp-13B」を公開した。初期段階のモデルだが、アカデミアや産業界の研究開発に資するため、コーパスやツールなどを含めてすべてオープンにする。 公開したLLMの学習データ量は合計約3000億トークン。うち日本語は約1450億トークン(mC4/Wikipedia)、英語は約1450億トークン(The Pile/Wikipedia)、プログラムコード約100億トークン。 計算資源としては、大学や研究機関が共同運営する仮想化環境・データ活用社会創成プラットフォーム「mdx」を12ノード活用。モデル構築にはMicrosoftのDeepSpeedを、モデル構築時の監視やログの保存には、モデル開発プラットフォームのWeights&Biasesを利用した。 NIIが主宰するLLM勉強会(LLM-jp)で7月

      NII、130億パラメータのLLM構築 コーパスなども全公開 「今後の研究に資するため」
    • 公開しているモデル・コーパス・ツール

      LLM-jp で開発したモデルやツールを公開しています。コーパスを含む各種データは今後順次公開していく予定です。 公開プラットフォーム モデル: https://huggingface.co/llm-jp ツール: https://github.com/llm-jp 事前訓練済みモデル 13B v1.0 LLM-jp-13B-v1.0 1.3B v1.0 LLM-jp-1.3B-v1.0 チューニング済みモデル 13B v1.1 LLM-jp-13b-dpo-lora-hh_rlhf_ja-v1.1 LLM-jp-13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1 LLM-jp-13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oass

      • 東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築

        『第6回 Data-Centric AI勉強会』(2024年2月9日)にて発表 https://dcai-jp.connpass.com/event/307402/ 東工大岡崎研究室と横田研究室が研究・開発を行った大規模言語モデル『Swallow』の学習にあたり独自に構築した『Swallowコー…

          東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築
        • Common Crawlから作る大規模日本語コーパスとその前処理(Mixtral 8x7Bを語彙拡張継続事前学習 Part2) - ABEJA Tech Blog

          ABEJAでデータサイエンティストをしている服部です。 ABEJAは国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)が公募した「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発」に当社提案の「LLMの社会実装に向けた特化型モデルの元となる汎化的LLM」に採択されたことを受け、LLMの事前学習を実施しました。 その中でモデルの学習だけでなく、学習に欠かせない大規模日本語言語コーパスを作りました。データセットのサイズとしては、語彙拡張前のMixtral Tokenizerで約400Bほどのものです。 特にその中で大部分を占めるCommon Crawlをベースとしてデータセットを作った過程について解説します。 データセットの概要 Common Crawlについて warcとwet データセット作成方針 前処理の流れ 1. 日本語の簡易判定、w

            Common Crawlから作る大規模日本語コーパスとその前処理(Mixtral 8x7Bを語彙拡張継続事前学習 Part2) - ABEJA Tech Blog
          • 7月13日 コーパスクリスティ旅行計画 - ZigZagDog’s diary

            水族館でイルカもポーズを取ってくれました。 みなさま、ご無沙汰しています。 一ヶ月近くもブログから離れてしまっていました。 コメントにメッセージなども頂いてありがとうございました。ご心配をおかけしましたが、元気です。 息子の学校の学年カレンダーを入手したので、そして、もうすぐ母と甥っ子が日本からやってくるので旅行の計画を立てたり、知り合いの旅行に合わせて空港の送り迎えなど諸用が増え落ち着いて座る時間から遠のいていました。とは言え、うたた寝💤は欠かさなかったので、ブログに向き合えなかったのは、ぐうたらしていたせいでも有ります。 本当は書きたい事があるのですが、それを書こうかどうしようか迷い中、頭の中だけが忙しくなって結論が出なくて一ヶ月も経ってしまいました。これは少し寝かせてから書こうと思います。他にも毎日書きたいことが浮かんではいましたが、書かないでいると忘れてしまいますね、またぼちぼち

              7月13日 コーパスクリスティ旅行計画 - ZigZagDog’s diary
            • 国内最大規模で商用利用な日本語コーパス ABEJA-CC-JAの公開と使い方 - ABEJA Tech Blog

              ABEJAでデータサイエンティストをしている服部です。 ABEJAは経産省主催のGENIACプロジェクト1期に採択され、その中で大規模言語モデルの開発を行っていました。 その際にモデルの開発と同時に日本語用の学習コーパスを構築しました。 www.abejainc.com そして、この構築した日本語用の大規模言語コーパス、すなわち言語モデル用の学習データセット ABEJA-CC-JA を公開しました! 商用利用も可能です。 ここでは、公開したデータセットについてご紹介します。 構築したデータセット ABEJA-CC-JAについて 元データ: Common Crawl 2019年から2023年までを対象に、計41のtimestamp データセットのサイズ : 約430Bトークン Mixtral8x7bのtokenizerでのtoken数 約407B (4070億)文字 日本語公開コーパスとして

                国内最大規模で商用利用な日本語コーパス ABEJA-CC-JAの公開と使い方 - ABEJA Tech Blog
              • Locality Sensitive Hashingを用いた大規模コーパスの準重複文書排除

                0. はじめに こんにちは、株式会社D2Cデータサイエンティストの董です。 D2Cでは、広告配信を効率よく効果よく行うために様々な機械学習モデルを活用しています。 今回の記事では、大規模テキストコーパスを用いた言語モデルの学習にあたり、学習データにある準重複文書の除外テクニックについてご紹介します。 1. 開発環境 AWS EC2 (インスタンスタイプ: r5.8xlarge) Python 3.10系 2. Pythonパッケージ transformers scikit-learn 3. 広告文の準重複問題 テキスト広告では、キャッチコピーや宣伝文を少しだけ修正して複数回配信し、その効果を測定することがよくあります。また、シリーズ商品の説明文を同じテンプレートに従って大量に作成することも一般的です。 それゆえに、広告文を収集してテキストコーパスを作ると、準重複サンプル、つまり完全には重複

                  Locality Sensitive Hashingを用いた大規模コーパスの準重複文書排除
                1