並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 2 件 / 2件

新着順 人気順

文書クラスタリングの検索結果1 - 2 件 / 2件

  • KaggleのNLPコンペで初手に使える可視化 〜BERTopicを用いた文書クラスタリングと可視化〜

    BERTopic は、Transformersを用いて文書のトピックモデリングを行うためのPythonライブラリです。本記事では、自分がKaggleコンペの初手EDAによく使うコードをまとめました。 入出力のイメージ 入力: 文章のリスト (例:["I am sure some bashers of Pens fans ...", "My brother is in the market for a high-performance video card that supports VESA local bus with 1-2MB RAM. Does anyone hav...", ...]) 出力: 各文書の関係性を表した2次元座標図 ソースコード 以下にもあります Github Google colab import pandas as pd from umap import UMA

      KaggleのNLPコンペで初手に使える可視化 〜BERTopicを用いた文書クラスタリングと可視化〜
    • 言語データセットには多量の重複文が潜んでいる!

      3つの要点 ✔️ 現在のデータセットには、学習データとテストデータに重複がある ✔️ モデルが重複データをそのまま記憶してしまう ✔️ 重複データを削除する事でモデルも良くなる Deduplicating Training Data Makes Language Models Bette written by Katherine Lee, Daphne Ippolito, Andrew Nystrom, Chiyuan Zhang, Douglas Eck, Chris Callison-Burch, Nicholas Carlini (Submitted on 14 Jul 2021) Comments: Published on arxiv. Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG) cod

        言語データセットには多量の重複文が潜んでいる!
      1