本記事は東京学芸大学 櫨山研究室 Advent Calendar 2020の25日目の記事になります. はじめに 本記事ではB'z,Mr.Children,椎名林檎,BUMP OF CHICKEN,RADWIMPS,YUIの歌詞情報を機械学習で分類します. 単純に言うと6値のテキスト分類です. 歌詞データのスクレイピング方法,機械学習モデルの構築・評価,モデルの予測結果にLIMEによる説明について記述しています. 使用するデータの収集 スクレイピングを使って利用する歌詞データを集めます. 手順を図に示すと以下のようになります. 対象とするアーティストと曲の選択 今回は独断と偏見でB'z,Mr.Children,椎名林檎,BUMP OF CHICKEN,RADWIMPS,YUIを対象とします. それぞれから20曲ずつ合計120曲分の歌詞データを収集します. 対象とする曲をリストアップすると以