日本語の文書を扱っていますと、モデルやパラメータよりも、前処理を改善する方が精度が改善し、かつ、頑健になることがしばしばあります。 本投稿では形態素解析 (分かち書き) する前、つまり文字レベルでの前処理でよく使っているテクニックを紹介します。 お題 少し極端な例ですが、題材として架空のレビュー文を使います。 お友達の紹介で、女子2人で三時のティータイムに利用しました。 2人用のソファに並んでいただきま〜す v(^^)v なかよし(笑) 最後に出された,モンブランのケーキ。 やばっっっ!!これはうまーーーい!! とってもDeliciousで、サービスもGoodでした😀 これで2,500円はとってもお得です☆ http://hogehoge.nantoka.blog/example/link.html 前処理のポイントがいくつかありますね。いずれも、どちらかに統一したり除外したりするほうが