エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
sklearnテキスト分類で、vectorizerの種類とオプション指定が精度に与える影響を検証する - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
sklearnテキスト分類で、vectorizerの種類とオプション指定が精度に与える影響を検証する - Qiita
教師データとしてlivedoorニュースコーパスから抽出したタイトルとカテゴリのペア7367件(カテゴリ数9)... 教師データとしてlivedoorニュースコーパスから抽出したタイトルとカテゴリのペア7367件(カテゴリ数9)を用いました。半数のデータを使ってナイーブベイズで学習した分類モデルの精度を残りのデータで評価する、という試行を各学習条件に対して100回ずつ行いました。結果を以下に示します。 精度の平均値が最も高かったのは、(vectorizer, tokenizer, ngram_range, binary) = (CountVectorizer , word, (1,3), True)の条件で、平均値は0.812でした。精度の平均値が最も低かったのは、(vectorizer, tokenizer, ngram_range, binary) = (HashingVectorizer, word, (3,3), False)の条件で、平均値は0.812でした。 要因別で見ると、vectorize