yusuke0h.hatenablog.com[B!]新着記事・評価 - はてなブックマーク

『yusuke0h.hatenablog.com』

英語前処理サーベイ - 旧みずぎわブログ
4 users
yusuke0h.hatenablog.com

2013-10-15 英語前処理サーベイ技術系英語 ■トークン化形態素に分割するみたいなこと入門　自然言語処理によると空白で区切る程度までしかしてない複合語などには未対応 nltkのトークナイザを使うのが安牌か regexp_tokenize(text, pattern) >>> from nltk.tokenize import word_tokenize, wordpunct_tokenize, sent_tokenize >>> s = '''Good muffins cost $3.88\nin New York. Please buy me ... two of them.\n\nThanks.''' >>> wordpunct_tokenize(s) ['Good', 'muffins', 'cost', '$', '3', '.', '88', 'in', 'Ne
- 世の中
- 2015/12/07 23:12
- nltk

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx