エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
相互情報量を用いた特徴選択 - 人工知能に関する断創録
20 Newsgroupsで分類精度を評価(2010/6/18)のつづきです。今回は、特徴選択に挑戦してみようと思いま... 20 Newsgroupsで分類精度を評価(2010/6/18)のつづきです。今回は、特徴選択に挑戦してみようと思います。テキスト分類における特徴とは基本的に単語のことです。 特徴選択 前回、ナイーブベイズの出力結果で documents: 11269, vocabularies: 53852, categories: 20 accuracy: 0.802265156562となってました。documentsは訓練データの総文書数、categoriesは訓練データのカテゴリ数、vocabulariesは訓練データの総単語数を表します。テキスト分類において53852個の単語を考慮していることを意味します。しかし、この単語の中には分類に寄与しないばかりかノイズになって逆に性能を悪化させるような単語が含まれていることがあります。たとえば、the, in, toなどのストップワードがその一例です。そ
2014/01/08 リンク