[B! BERT] hirotomo88445のブックマーク

hirotomo88445 id:hirotomo88445

BERTに関するhirotomo88445のブックマーク (3)

Google Colaboratory(GPU)上でBERTのチュートリアルを行う - Qiita
この記事では、Google ColaboratoryのGPUを使用して、BERTのチュートリアルを行う方法を書いていきます。学習済みモデルは、GoogleDriveに保存し、Google Colaboratoryにドライブをマウントして使用します。＊注意 GoogleDriveに学習済みモデルがデータセットを保存するため、500MBの空きが必要です。一度だけ試す場合は、GoogleDriveとGoogle Colaboratory、を連携せず、Google ColaboratoryのGPUインスタンス上にモデルやデータセットを保存する方が良いかもしれません。＊宣伝新しく、BERTを用いて日本語文章の二値分類の記事と多値分類を行う記事を書きました。次のステップとしてご利用ください。 Google Colaboratory上でBERTを使い、日本語文章の二値分類を行う BERTを用いて、日
hirotomo88445 2023/11/19
機械学習

BERT

Google Colaboratory
リンク
BERT多言語モデルで日本語文章の二値分類を試す - Qiita
BERTの多言語モデルを用いて二値分類を試してみました。既に先駆者がいらっしゃいますので、二番煎じになります。ソースコード https://github.com/knok/exp-ml-bertに用意してあります。 READMEにも一通りの説明は記載しました。対象データ 3種類のデータセットで比較、検討しました。ライブドアニュースコーパスのうち、「ITライフハック」と「家電チャンネル」の記事同じくライブドアニュースコーパスのうち、「Sports Watch」と「Peachy」の記事 https://www.aozora.gr.jp/で公開されている、「芥川龍之介」の著作と「宮沢賢治」の著作下処理 0-setup.ipynbを実行することで、以下の処理を行います。ライブドアニュースコーパスのダウンロード CoLAデータセットに合わせたtsvへの変換不要な文字列の除去データのシ
hirotomo88445 2023/11/19
機械学習

Transformer

BERT
リンク
【SIGNATE】BERTで医療論文を2値分類する(PyTorch BERT)
何をしたのか(概要) 🤗Huggingface Transf ormersで提供されているmicrosoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltextをベースにして、医療論文の2値分類用にFine tuningしました。 Modelには、上記のBERTをベースとして、LSTM, Conv1D, Linear層を追加し、BERTの重みを最大限活かした予測ができるように工夫しています。 Datasetには、Argument(データ拡張)処理を実装し、学習データの文章をランダムに削除したり入れ替えることで過学習の抑制をしました。ラベル1が全体のうちの 1/43 程度しかなかったこと、評価指標がラベル1の正解を高く評価する指標であることから、損失関数のラベル1に対する重みを130倍 (ヒューリスティックス) に設定した。 Datase
hirotomo88445 2023/11/19
機械学習

Transformer

BERT
リンク
1