文字列の辞書順にもとづくlabel encodingの例label encodingが適さない機械学習モデルしかし、辞書順に基づいてencodingを行ってもその整数の順序には(ほとんどの場合)意味がありません。これは統計学の用語でいうと「名義尺度」で、水準間に大小関係はなく、同じかどうかという情報のみが意味を持ちます。 なので、例えば線形回帰モデル $$\hat{y} = w_1x_\text{country} + \cdots$$ の場合、\(x_\text{country}\)の値によって予測値が変わりますが、日本(=0)、アメリカ(=1)、イギリス(=2)、…となるにつれて予測値が増大してしまいます。日本・アメリカ・イギリスの間に明確な大小関係は無いにもかかわらず、です。 このため、値の大きさに意味を持つモデルにlabel encodingはあまり適していません。 *ニューラルネッ
![【機械学習】label encodingの数字の付け方を変えると精度はどうなる??実験してみた](https://cdn-ak-scissors.b.st-hatena.com/image/square/a29a71bfd3ead3b8093b58771dbea602e0d7cf39/height=288;version=1;width=512/https%3A%2F%2Fmatsuda-blog.info%2Fwp-content%2Fuploads%2F2022%2F08%2FH-21.jpg)