教師あり学習 大量のメールがあって、それぞれ人間の目でSPAMかどうかが判定済みであるとします。 それらのメールの何となくSPAMっぽい2単語「主人」「オオアリクイ」に注目し、各メールにそれらの単語が何回出てくるかを数えてグラフにプロットしたら下記のようになったとします。 (「主人」出現回数を、「オオアリクイ」出現回数をとおきます。) 何だか、グラフ中に直線を引けばSPAMとそうでないメールを分けられそうだと思いませんか。 そしてその直線を基準にすれば、未判定のメールがSPAMなのかどうかも判断できそうな気がしませんか。 これが識別関数による教師あり学習の基本です。 教師あり学習では、教師データと呼ばれるデータをたくさん読み込ませて機械に学習させます。 教師データというのは「パラメータと正解ラベルの組」です。今回の例でいくとパラメータとは「主人」「オオアリクイ」という単語の数、正解ラベルと
![高卒でもわかる機械学習 (1) 識別関数の前知識](https://cdn-ak-scissors.b.st-hatena.com/image/square/2df795e992e713a1d0c48f3f08d2a64023ceb4a9/height=288;version=1;width=512/http%3A%2F%2Fhokuts.com%2Fwp-content%2Fuploads%2F2015%2F11%2Fspam_graph_with_label.png)