乃木坂46の結成10周年を記念して(?)、ここまでの全楽曲の歌詞を自然言語処理的なアプローチで分析してみる。 分析といっても個人的に使ってみたかった手法を適用してみる題材として歌詞のテキストデータを使おう、というところから始まっているので、その結果に対して分析的な解釈は与えられていないかもしれない。 したがって、タイトル負けというか「何を歌ってきたか」に対して解を与える内容になっていないかもしれないということは悪しからず。 歌詞のテキストデータは歌詞サイトからスクレイピングしてきた。 1つディレクトリを作成して曲ごとにtxtで保存する。 ※スクレイピングした歌詞は著作権のあるものなので私的な情報解析目的にとどめる ※スクレイピング対象サイトに過度な負荷をかけないようにアクセス間隔を数秒空ける work_dir/ ┗ nogizaka46_lyrics_text/ ┣ 13日の金曜日.txt