はじめに 一年前にこんな記事を書きました。未だにちょくちょくいいねを頂いているので、自然言語処理の練習を兼ねて久しぶりに遊んでみた系の記事を投稿しようと思います。 やったこと 歌詞データのクローリング Mecabによる分かち書き tf-idfによるベクトル化 ベクトル化した歌詞によるアーティストのクラスタリングとUMAPでの可視化 (おまけ) fastTextでハチ=米津玄師を見分けられるのか? 分析にはJupyter Labを用いました。 歌詞データ 今回用いる歌詞データについて説明します。 クローリングで取得 先立って歌詞データのクローリングをしました。とある人気アーティスト順に歌詞を取得できるサイトより、45人のJ-popアーティストにつき、最大50曲分の歌詞を取得しCSVに保存しました。 実際にクローリングに用いたコードを公開するのもどうかと思うので、ここでは割愛します。。。Bea