[B! 素性選択] shun9167のブックマーク

shun9167 id:shun9167

素性選択に関するshun9167のブックマーク (2)

相互情報量を用いた特徴選択 - 人工知能に関する断創録
20 Newsgroupsで分類精度を評価（2010/6/18）のつづきです。今回は、特徴選択に挑戦してみようと思います。テキスト分類における特徴とは基本的に単語のことです。特徴選択前回、ナイーブベイズの出力結果で documents: 11269, vocabularies: 53852, categories: 20 accuracy: 0.802265156562となってました。documentsは訓練データの総文書数、categoriesは訓練データのカテゴリ数、vocabulariesは訓練データの総単語数を表します。テキスト分類において53852個の単語を考慮していることを意味します。しかし、この単語の中には分類に寄与しないばかりかノイズになって逆に性能を悪化させるような単語が含まれていることがあります。たとえば、the, in, toなどのストップワードがその一例です。そ
shun9167 2015/09/13
NLP

素性選択
リンク
文書分類メモ - Negative/Positive Thinking
はじめに文書分類マスターを目指して修行の旅に出るために必要そうな知識を、ざっとメモしておく。(かなり雑だけど・・・) 文書分類とはテキスト分類、Text Classification あらかじめ決められたカテゴリ集合に基づき、与えられた文書に適切なカテゴリを付与する事排他的分類 : 1つのテキストにカテゴリを1つだけ付与される場合マルチラベル分類 : 1つのテキストに複数のカテゴリ付与を許す場合基本的には、目的の分類をどのような分類手法に落とし込むか？を考えることになる主なアプローチとして、以下のような流れで処理する(教師あり分類) 学習データから素性(なんらかの特徴)を抽出し、それらの規則を見つけだす規則に基づく分類モデルを作成未知の文書に対して素性を抽出したものにモデルを適用し、分類結果を返す利用例内容に関する分類ニュースジャンル分類 SPAMフィルタ属性に関す
shun9167 2015/09/13
NLP

素性選択
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx