データ分析をする際に、文字の扱いは重要である。 何故なら文字が違えばデータとしては異なるものになってしまうから。 例えば リンゴ と リンゴ。 意味するものは同じだが、全角と半角で文字が違うのでデータとしては別物になる。 表記ゆれについて、以前Twitterでこのような投稿があった。 旧帝国大学大学院理学部数学科博士先輩が作ってくれた全角半角の表記揺れを直す関数 先輩の数学的頭脳と才能と時間がこんなことに費やされている事実に泣いてる pic.twitter.com/Lo2TleBT6B — a_yam (@yachts111xenon) September 17, 2021 このケースでは旧帝国大学大学院理学部数学科博士先輩がカタカナ1文字ずつ対応表を作っていたようだ。 これをいちいち作るのは大変だし、効率が悪い。 何か効率よく半角全角カタカナの表記ゆれを直す方法はないのか。 そこで今回