引き続き私の専門の話だが,この手の話をあまり詳しくしても, 多くの人にとっては全く関心が持てないだろうから,今回は極めてざっくりとした話をしよう. 現在の自然言語処理(NLP)の基礎技術は基本的に機械学習(Machine Learning)を利用することが普通になっている.例えばスパムメールフィルタを考えると分かりやすい. 最初はうまくフィルタできず,見逃しやら,正しいメールをスパムと判定したりする. それを,正解と不正解とをいくつも与えて,何度も繰り返すと,段々うまくスパムメールだけを振り分けられるようになってくる. 具体的な手法は,SVM,ロジスティック回帰,パーセプトロンなど,まあ色々ある. 実際Gmailなどはこれによりかなりの精度でメールフィルタリングを実現している. 言語処理ではこのような自動分類技術が一般的に使われる. では,この技術を使って,Webなどから抽出した生のテキス