タグ

PFNに関するbrane-worldのブックマーク (2)

  • PLaMo-13Bを公開しました - Preferred Networks Research & Development

    Preferred Networksでは、9月28日にPLaMo-13Bという大規模な言語モデル (LLM) を公開しました。公開されている他のモデルと比較して、日英2言語を合わせた能力で世界トップレベルの高い性能を示しています。実際に学習を回すまでの技術開発には自社スーパーコンピューターであるMN-2を利用し、学習はAI橋渡しクラウド(AI Bridging Cloud Infrastructure、ABCI) の”第一回 大規模言語モデル構築支援プログラム”を利用して行いました。 今後、PLaMo-13Bを基にした事前学習モデルや、指示学習を行ったモデルについても公開を予定しています。 PLaMo-13Bの概要 PLaMo-13Bは約130億個のパラメータからなる言語モデルです。 PLaMo-13Bは日語・英語の2つの言語のベンチマークタスクで高い性能を示しています。日で使われるL

    PLaMo-13Bを公開しました - Preferred Networks Research & Development
  • ハイパーパラメータ自動最適化ツール「Optuna」公開 - Preferred Networks Research & Development

    ハイパーパラメータ自動最適化フレームワーク「Optuna」のベータ版を OSS として公開しました。この記事では、Optuna の開発に至った動機や特徴を紹介します。 公式ページ 公式ドキュメント チュートリアル GitHub ハイパーパラメータとは? ハイパーパラメータとは、機械学習アルゴリズムの挙動を制御するパラメータのことです。特に深層学習では勾配法によって最適化できない・しないパラメータに相当します。例えば、学習率やバッチサイズ、学習イテレーション数といったようなものがハイパーパラメータとなります。また、ニューラルネットワークの層数やチャンネル数といったようなものもハイパーパラメータです。更に、そのような数値だけでなく、学習に Momentum SGD を用いるかそれとも Adam を用いるか、といったような選択もハイパーパラメータと言えます。 ハイパーパラメータの調整は機械学習

    ハイパーパラメータ自動最適化ツール「Optuna」公開 - Preferred Networks Research & Development
  • 1