エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Locality Sensitive Hashingを用いた大規模コーパスの準重複文書排除
0. はじめに こんにちは、株式会社D2Cデータサイエンティストの董です。 D2Cでは、広告配信を効率よく効... 0. はじめに こんにちは、株式会社D2Cデータサイエンティストの董です。 D2Cでは、広告配信を効率よく効果よく行うために様々な機械学習モデルを活用しています。 今回の記事では、大規模テキストコーパスを用いた言語モデルの学習にあたり、学習データにある準重複文書の除外テクニックについてご紹介します。 1. 開発環境 AWS EC2 (インスタンスタイプ: r5.8xlarge) Python 3.10系 2. Pythonパッケージ transformers scikit-learn 3. 広告文の準重複問題 テキスト広告では、キャッチコピーや宣伝文を少しだけ修正して複数回配信し、その効果を測定することがよくあります。また、シリーズ商品の説明文を同じテンプレートに従って大量に作成することも一般的です。 それゆえに、広告文を収集してテキストコーパスを作ると、準重複サンプル、つまり完全には重複



2024/03/07 リンク