はじめに 非エンジニア職でも分析で荒れ地のような大量のcsvデータを捌かなければいけないときありますよね。私はあります 下記のような住所の入力度合いが行により異なるCSVを、適するカテゴリに分類したい場面に遭遇したので、Pythonで自動分類した話を紹介します。 しかし今回の方法は完璧ではありません…。 ここまでの結果を投稿させて頂きつつ、今後も方法を模索して参ります。 イカれたCSVを紹介するぜ! 住所の番地以降が入力されているCSVで、 部屋番号まで入力されているものもあれば、建物名までや、 番地までの入力に留まるものもあり、しかも行によって建物名が別カラムに来る、 カオスなCSVが今日のゲストです(架空の住所となります)。 ※戸建てはないものとして想定してください。 振り分け区分としては、 「号室まで」、「建物(マンション)名まで」、「番地まで」、「市区町村まで」としたいです。 以下