並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 2 件 / 2件

新着順 人気順

commoncrawlの検索結果1 - 2 件 / 2件

  • Statistics of Common Crawl Monthly Archives by commoncrawl

    Number of pages, distribution of top-level domains, crawl overlaps, etc. - basic metrics about Common Crawl Monthly Crawl Archives Latest crawl: CC-MAIN-2024-33 View the Project on GitHub Distribution of Languages The language of a document is identified by Compact Language Detector 2 (CLD2). It is able to identify 160 different languages and up to 3 languages per document. The table lists the per

    • CommonCrawlの生データをダウンロードして解析する練習|Kan Hatakeyama

      はじめに大規模言語の事前学習には、Webデータを片っ端からダウンロードしたサイト(CommonCrawl, CC)が大活躍します。 普通はCCを使いやすい形で加工したコーパスを用いるのですが、今回は生データにアクセスして解析してみました。 ファイルをダウンロードする兎にも角にも、ファイルをダウンロードすることから作業が始まります。 URLリストを取得するまずは上記CCのサイトにアクセスし、どの年のデータをダウンロードしたいか選択します。 次に、warc.path.gzをダウンロードします。 こちらには各データへのURL一覧が格納されています。 備考: WARC,WAT,WETとは?「warc」、「wat」、「wet」という用語は、Common Crawlのコンテキストで使用されるファイル形式を指します。Common Crawlは、インターネットの広範囲にわたるウェブページをクロールし、その

        CommonCrawlの生データをダウンロードして解析する練習|Kan Hatakeyama
      1