タグ

BERTに関するhirotomo88445のブックマーク (3)

  • Google Colaboratory(GPU)上でBERTのチュートリアルを行う - Qiita

    この記事では、GoogleColaboratoryのGPUを使用して、BERTのチュートリアルを行う方法を書いていきます。 学習済みモデルは、GoogleDriveに保存し、GoogleColaboratoryにドライブをマウントして使用します。 *注意 GoogleDriveに学習済みモデルがデータセットを保存するため、500MBの空きが必要です。 一度だけ試す場合は、GoogleDriveとGoogleColaboratory、を連携せず、GoogleColaboratoryのGPUインスタンス上にモデルやデータセットを保存する方が良いかもしれません。 *宣伝 新しく、BERTを用いて日語文章の二値分類の記事と多値分類を行う記事を書きました。 次のステップとしてご利用ください。 Google Colaboratory上でBERTを使い、日語文章の二値分類を行う BERTを用いて、日

    Google Colaboratory(GPU)上でBERTのチュートリアルを行う - Qiita
  • BERT多言語モデルで日本語文章の二値分類を試す - Qiita

    BERTの多言語モデルを用いて二値分類を試してみました。既に先駆者がいらっしゃいますので、二番煎じになります。 ソースコード https://github.com/knok/exp-ml-bertに用意してあります。 READMEにも一通りの説明は記載しました。 対象データ 3種類のデータセットで比較、検討しました。 ライブドアニュースコーパスのうち、「ITライフハック」と「家電チャンネル」の記事 同じくライブドアニュースコーパスのうち、「Sports Watch」と「Peachy」の記事 https://www.aozora.gr.jp/で公開されている、「芥川龍之介」の著作と「宮沢賢治」の著作 下処理 0-setup.ipynbを実行することで、以下の処理を行います。 ライブドアニュースコーパスのダウンロード CoLAデータセットに合わせたtsvへの変換 不要な文字列の除去 データのシ

    BERT多言語モデルで日本語文章の二値分類を試す - Qiita
  • 【SIGNATE】BERTで医療論文を2値分類する(PyTorch BERT)

    何をしたのか(概要) 🤗Huggingface Transformersで提供されているmicrosoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltextをベースにして、医療論文の2値分類用にFine tuningしました。 Modelには、上記のBERTをベースとして、LSTM, Conv1D, Linear層を追加し、BERTの重みを最大限活かした予測ができるように工夫しています。 Datasetには、Argument(データ拡張)処理を実装し、学習データの文章をランダムに削除したり入れ替えることで過学習の抑制をしました。 ラベル1が全体のうちの 1/43 程度しかなかったこと、評価指標がラベル1の正解を高く評価する指標であることから、損失関数のラベル1に対する重みを130倍 (ヒューリスティックス) に設定した。 Datase

    【SIGNATE】BERTで医療論文を2値分類する(PyTorch BERT)
  • 1