の続きです やりたいこと 自然言語処理をつかってブログをうつ病と正常の2クラスに自動で分類したい おおまかな手順 ブログ村メンタルヘルスランキング に掲載されているブログからスクレイピング 取得したhtmlからブログ毎に名詞のみ抽出 (BoW) TfIdfなどで前処理してモデルにつっこむ 結果の解釈 2,3,4からです 名詞の抽出~前処理 文書分類というタスクを解く際に用いられる特徴量にもいろいろあると思いますが、今回はもっとも素直な方法であるBoWを行いました。 BoWとはBag of Words の略で、文章の構造を無視して単語だけに注目して文書の特徴量をつくる方法です。単語をバッグにポイポイ入れてくイメージですね(適当) 具体的には、以下の3ステップで特徴ベクトルをつくります. 文書に登場する単語を拾っていき、単語の辞書を作成する 作成した辞書と文書の単語を照らしあわして、文書毎のB
![うつブログ分類器をつくってみた(結果編) - alotofthings88’s blog](https://cdn-ak-scissors.b.st-hatena.com/image/square/cde5f65163fb01b984bda3807d39bce9c53cba71/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fa%2Falotofthings88%2F20180605%2F20180605160519.jpg)