概要 名前から性別を判定するのって簡単にできるのかな、ということで簡易な判定器を書いて試してみる。 バージョン情報 Python 3.6.8 scikit-learn==0.19.1 xgboost==0.72.1 テストデータ 名前一覧とか名前ランキング的なページをスクレイピングして27,326件の日本人のファーストネームを収集。 下記のような形式で保存する。 name yomi label 太郎 たろう 0 愛 あい 1 label=0が男性, label=1が女性。 データについてはスクレイピングしたものなので公開は控える。 bi-gramのみを利用した予測 まずは単純に下記のように名前の読みをbi-gramにして特徴としてみる。 "たかし" → ["たか", "かし"] "ようこ" → ["よう", "うこ"] 分析器は下記の3つを利用。 logistic regression S