はじめに 機械学習でテキスト分類や感情分析をしようと思って、オープンデータのコーパスを探したのですが、自分のやりたいことに合うものがなかったので、YahooショッピングのレビューからAPIでデータを取得することにしました。 コーパスとは、機械学習などの自然言語処理の素材データとして、文章やそれに対する付加情報を大量に集めたものです。 コードはこちら。(Python) https://github.com/nannoki/yahoo_reviews 取得できるデータ 全部で100万レビューくらい取得できます。 階層構造のカテゴリ分類。大分類(22種類)>中分類(約330種類)>小分類(約3,700種類) 分類タスクの教師ラベルとして使えます。 商品に対する評価点。1.00(悪い)から5.00(良い) 感情分析の教師ラベルとして使えます。 上記カテゴリと評価点以外にも分析しがいのある項目があり