エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
英語前処理サーベイ - 旧みずぎわブログ
2013-10-15 英語前処理サーベイ 技術系 英語 ■トークン化 形態素に分割するみたいなこと 入門 自然言語... 2013-10-15 英語前処理サーベイ 技術系 英語 ■トークン化 形態素に分割するみたいなこと 入門 自然言語処理によると空白で区切る程度までしかしてない 複合語などには未対応 nltkのトークナイザを使うのが安牌か regexp_tokenize(text, pattern) >>> from nltk.tokenize import word_tokenize, wordpunct_tokenize, sent_tokenize >>> s = '''Good muffins cost $3.88\nin New York. Please buy me ... two of them.\n\nThanks.''' >>> wordpunct_tokenize(s) ['Good', 'muffins', 'cost', '$', '3', '.', '88', 'in', 'Ne