nabinnoのブックマーク - はてなブックマーク

エントロピーによる Stop Words 抽出とサイトコンテンツの品質指標 - Qiita
Stop Words とは多くの文書に含まれていてそれ自体が文書の特徴を表しづらい単語を表します。例えば英文における the や in, after といったような単語は典型的な Stop Words です。このような単語は検索時にノイズの原因となるためあらかじめ検索対象から除外する必要があります。この記事は選択情報量 (自己エントロピー) を使って検索時に除外すべき Stop Words を判断するための指標を求めます。なおここで扱っている数式は TF-IDF でいうところの DF (Document Frequency) と本質的に同じです。情報量/エントロピーが「文書集合全体」に対する単語の特徴を示すのに対して、TF-IDF は「ある文書」に対する単語の特徴を示す (目的は文書要約や代表語の抽出) という点で異なります。情報量とエントロピーの求め方選択情報量総文書数 $N$
nabinno 2018/08/27
qiita

tf-idf

text-mining

information-retrieval

data-mining

machine-learning

analytics
リンク
[環境構築] Python 2.7 で CaboCha を使用して係り受け解析 - Qiita
Ubuntu 14.04 向け、日本語の自然文係り受け解析を行う CaboCha を Python 2.7 から使用できるようにするための環境構築をメモ書き。まず CaboCha の下層で形態素解析を行う MeCab が先に必要。Ubuntu 14.04 であれば apt-get で MeCab 0.996 をインストールできる。 $ sudo apt-get install build-essential mecab libmecab-dev mecab-ipadic mecab-ipadic-utf8 python-mecab $ mecab --version mecab of 0.996 $ mecab-config --version 0.996 $ mecab すもももももももものうちすもも名詞,一般,*,*,*,*,すもも,スモモ,スモモも助詞,係助詞,*,*,*,
nabinno 2018/08/27
qiita

cabocha

parsing

natural-language-processing

machine-learning

analytics
リンク
1

はてなブックマーク

タグ

ブックマーク / qiita.com/torao@github (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / qiita.com/torao@github (2)

エントロピーによる Stop Words 抽出とサイトコンテンツの品質指標 - Qiita

[環境構築] Python 2.7 で CaboCha を使用して係り受け解析 - Qiita

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス