Locality Sensitive Hashingを用いた大規模コーパスの準重複文書排除

テクノロジーカテゴリーの変更を依頼記事元:

zenn.dev/d2c_mtech_blog

3users がブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

sh19910711 "広告文: 完全には重複しないけれども60％以上、場合によっては90％以上の言葉が一致してしまう / LSH: 類似するデータポイントをなるべく同じバケットに格納することを目指すハッシュ関数" 2023

2024/03/07 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

Locality Sensitive Hashingを用いた大規模コーパスの準重複文書排除

0. はじめにこんにちは、株式会社D2Cデータサイエンティストの董です。 D2Cでは、広告配信を効率よく効... 0. はじめにこんにちは、株式会社D2Cデータサイエンティストの董です。 D2Cでは、広告配信を効率よく効果よく行うために様々な機械学習モデルを活用しています。今回の記事では、大規模テキストコーパスを用いた言語モデルの学習にあたり、学習データにある準重複文書の除外テクニックについてご紹介します。 1. 開発環境 AWS EC2 (インスタンスタイプ: r5.8xlarge) Python 3.10系 2. Pythonパッケージ transf ormers scikit-learn 3. 広告文の準重複問題テキスト広告では、キャッチコピーや宣伝文を少しだけ修正して複数回配信し、その効果を測定することがよくあります。また、シリーズ商品の説明文を同じテンプレートに従って大量に作成することも一般的です。それゆえに、広告文を収集してテキストコーパスを作ると、準重複サンプル、つまり完全には重複

ブックマークしたユーザー

keijak2024/05/04
sh199107112024/03/07
ranto3811242023/11/24

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

いま人気の記事 - 企業メディア

企業メディアをもっと読む

設定を変更しましたx