サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
体力トレーニング
yusuke0h.hatenablog.com
2013-10-15 英語前処理サーベイ 技術系 英語 ■トークン化 形態素に分割するみたいなこと 入門 自然言語処理によると空白で区切る程度までしかしてない 複合語などには未対応 nltkのトークナイザを使うのが安牌か regexp_tokenize(text, pattern) >>> from nltk.tokenize import word_tokenize, wordpunct_tokenize, sent_tokenize >>> s = '''Good muffins cost $3.88\nin New York. Please buy me ... two of them.\n\nThanks.''' >>> wordpunct_tokenize(s) ['Good', 'muffins', 'cost', '$', '3', '.', '88', 'in', 'Ne
2013-10-15 xargsとunzipですべてのサブフォルダからzipを解凍 技術系 シェルスクリプト メインフォルダ -サブフォルダ1 -aaa.zip -bbb.zip -サブフォルダ2 -ccc.zip -ddd.zip -サブフォルダ3 -eee.zip このようなフォルダ構造のときに,すべてのzipファイルを同じ場所に解凍したい場合,以下のようにすると良い. find ここにメインフォルダ名 -name '*.zip' | xargs -n1 unzip 例: find ./folder -name '*.zip' | xargs -n1 unzip findコマンドでzipファイルを検索し,xargsでヒットしたファイルを解凍する. ちなみに解凍されたファイルはカレントディレクトリに展開される. yusuke0h 2013-10-15 12:37 コメントを書く « T
2013-10-15 Okapi BM25 実装方法 技術系 単語重み付け 情報技術 ■はじめに 最近の単語重み付け(用語重み付け)の分野ではTF-IDFを差し置いてOkapiのBM25という手法がスタンダードとなっている. 一般的にTF-IDFよりも良い結果が得られると言われ,比較手法としてのベースラインとなっている. これを実装するためにはTF-IDFに一手間(文書長と平均文書長)加えればよい. 以下がBM25の式である. 出典:http://en.wikipedia.org/wiki/Okapi_BM25 各パラメータは D:特定の文書 Q:全部の単語 qi:i番目の単語 IDF (qi):単語qiのIDF値 f(qi,D):文書Dの中での単語qiのtf |D|:文書Dのドキュメントの長さ→文書の単語数で置き換えられるはず avgdl:全文書の平均ドキュメント長 k1:パラメータ 1
このページを最初にブックマークしてみませんか?
『yusuke0h.hatenablog.com』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く