Wikipediaから日本語の大量の文章をダウンロードするhttps://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2から日本語コンテンツをダウンロードする(1時間ぐらいかかった)。 jawiki-latest-pages-articles.xml.bz2 がダウンロードしたファイル。 圧縮状態で2.78GB、解凍すると11.64GBとかなり大きいです。 wikiextractorでxmlタグを削除して文書を切り出す内容はxml形式なのでそのままでは使えないので(タグがたくさん入っている)、 wikiextractorで文章のみ切り出す。 git clone https://github.com/attardi/wikiextractor.git cd wikiextractor/ python