Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? この記事は,NTTドコモSI部アドベントカレンダー5日目の記事になります。 新入社員の澤山です。業務では自然言語処理に関わる内容に取り組んでいます。 5日目のこの記事では,自然言語処理の基本であるテキストデータの前処理について紹介します。 なぜ,前処理を行うのか? 私たちは日々,様々な文字や言葉に囲まれています。話し言葉,書き言葉,ネットスラング,外国語,プログラム言語,多種多様の記号といったものです。人間は,これらが混ざったテキストデータをある程度理解できますが,機械学習などでは,それらの分類や予測・理解が容易ではありません。 そのた