本文「文書クラスタリング」を検索 - はてなブックマーク

1 - 2 件 / 2件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

文書クラスタリングの検索結果1 - 2 件 / 2件

KaggleのNLPコンペで初手に使える可視化〜BERTopicを用いた文書クラスタリングと可視化〜
- 33 users
- zenn.dev/nishimoto
- テクノロジー
- 2024/03/03
BERTopic は、Transformersを用いて文書のトピックモデリングを行うためのPythonライブラリです。本記事では、自分がKaggleコンペの初手EDAによく使うコードをまとめました。入出力のイメージ入力：文章のリスト（例：["I am sure some bashers of Pens fans ...", "My brother is in the market for a high-performance video card that supports VESA local bus with 1-2MB RAM. Does anyone hav...", ...]）出力：各文書の関係性を表した2次元座標図ソースコード以下にもあります Github Google colab import pandas as pd from umap import UMA
- kaggle
- BERT
- 文章
- あとで読む
言語データセットには多量の重複文が潜んでいる！
- 4 users
- ai-scholar.tech
- テクノロジー
- 2021/08/18
3つの要点 ✔️ 現在のデータセットには、学習データとテストデータに重複がある ✔️ モデルが重複データをそのまま記憶してしまう ✔️ 重複データを削除する事でモデルも良くなる Deduplicating Training Data Makes Language Models Bette written by Katherine Lee, Daphne Ippolito, Andrew Nystrom, Chiyuan Zhang, Douglas Eck, Chris Callison-Burch, Nicholas Carlini (Submitted on 14 Jul 2021) Comments: Published on arxiv. Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG) cod
- 機械学習

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx