タグ

gptに関するchess-newsのブックマーク (2)

  • 超巨大高性能モデルGPT-3の到達点とその限界|akiraTOSEI

    この記事についてこの記事ではGPT-3[1]の解説をします。内容のサマリは以下の通りです。 GPT-3の前身であるGPT-2では、巨大なデータセット+巨大なネットワークで言語モデルを構築し、各タスクで学習させなくても良い結果が得られた。 GPT-3では、さらに巨大なデータセット+さらに巨大なネットワークで言語モデルを構築し、数十のサンプルを見せると凄く良い結果が得られた 一方、様々なタスクに言語モデルのスケールアップのみで対応することへの限界が見えてきた。人種、性別、宗教などへの偏見の問題や、悪用に対する課題もある。 この記事の流れは以下の通りです。 1. Transformer, GPT-2の説明 2. GPT-3のコンセプトと技術的な解説 3. GPT-3ので上手くいくタスク 4. GPT-3で上手くいかないタスク 5. 偏見や悪用への見解 ※ 有料設定していますが、投げ銭用の設定なの

    超巨大高性能モデルGPT-3の到達点とその限界|akiraTOSEI
  • 「GPT-3」周辺で調べたことをまとめる(2021年2月) - u++の備忘録

    コンピュータサイエンス技術の一つに、自然言語処理(NLP)と呼ばれている領域があります。NLPは、コンピュータに人間の用いる言語(自然言語)を処理させる取り組み全般を指します。 ここ数年のNLPの傾向として、大規模テキストでの事前学習済みモデルの活用が挙げられます。代表的な例が、Googleが2018年10月に発表した「Bidirectional Encoder Representations from Transformers (BERT)」*1です。BERTは多数のNLPタスクで飛躍的な性能を示し、注目を集めました。BERTの登場後、大規模テキストを用いた巨大モデルを学習させていく流れが強まっています*2。 BERTの登場以前は、個別のタスクに対してモデルを訓練する取り組みが優勢でした。一方でBERTでは、事前に大量のテキストデータを用いて巨大なニューラルネットワークを学習させて汎用的

    「GPT-3」周辺で調べたことをまとめる(2021年2月) - u++の備忘録
  • 1