並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 2 件 / 2件

新着順 人気順

コーパスの検索結果1 - 2 件 / 2件

  • NII、130億パラメータのLLM構築 コーパスなども全公開 「今後の研究に資するため」

    国立情報学研究所(NII)は10月20日、パラメータ数130億の大規模言語モデル(LLM)「LLM-jp-13B」を公開した。初期段階のモデルだが、アカデミアや産業界の研究開発に資するため、コーパスやツールなどを含めてすべてオープンにする。 公開したLLMの学習データ量は合計約3000億トークン。うち日本語は約1450億トークン(mC4/Wikipedia)、英語は約1450億トークン(The Pile/Wikipedia)、プログラムコード約100億トークン。 計算資源としては、大学や研究機関が共同運営する仮想化環境・データ活用社会創成プラットフォーム「mdx」を12ノード活用。モデル構築にはMicrosoftのDeepSpeedを、モデル構築時の監視やログの保存には、モデル開発プラットフォームのWeights&Biasesを利用した。 NIIが主宰するLLM勉強会(LLM-jp)で7月

      NII、130億パラメータのLLM構築 コーパスなども全公開 「今後の研究に資するため」
    • 青空文庫振り仮名注釈付き音声コーパスの公開について | NDLラボ

      2024年02月07日 NDLラボ公式GitHub上に、青空文庫振り仮名注釈付き音声コーパスを公開しました。 このデータセットは、 青空文庫で公開されている著作権保護期間が満了した作品のテキストデータと、視覚障害者情報総合ネットワーク「サピエ」(社会福祉法人日本点字図書館がシステムを管理し、全国視覚障害者情報提供施設協会が運営)が視覚障害者に提供している音声デイジーデータとを照合して構築した、単語とその読みの情報に関するデータセットです。 青空文庫振り仮名注釈付き音声コーパス https://github.com/ndl-lab/hurigana-speech-corpus-aozora このデータセットは大量のデータを必要とする機械学習等への利用を想定したもので、2021年9月に公開した「振り仮名注釈コーパス(青空文庫コーパス)」が点字データを利用して作成したデータセットであるのに対し、

      1