機械学習関連情報の収集と分類(構想)の❷の部分に関連する記事です。 実際に調べた時点から数か月ほど時間が経っていますので、現状と若干ずれがあるかもしれません。 また、満足できる結果になっていないことをあらかじめお断りしておきましょう。 Qiita にも Python にも慣れていないのでいろいろおかしな記述があるかもしれませんが、そういうところはコメントいただければありがたいです。 今回の記事で説明する処理は下記のような流れになっています。 ❶サイトのクロウル クロウルした文書(article)を bookmarks.crawled ディレクトリ配下に置きます。 ↓ ❷articleのPythonオブジェクト化 文書(article)単位で Pythonオブジェクト化します。 ↓ ❸コーパスのPythonオブジェクト化 文書群全体をコーパスとしてPythonオブジェクト化します。 ↓ ❹ト