ステマーは、語根を推測する単純なプログラムで、クラスタリングの際に非常に役立ちます。例えば、よく知られたステミング・アルゴリズムである Porter ステマーは、「university」と「universities」が同じステムを共有し、同じステム・クラス に属していることを検出します。より高度なカスタマイズはすべてステム・クラスに基づいています。残念ながら、これらの単純なステミング・プログラムは完璧ではありません。例えば、Porter アルゴリズムでは、「universal」は「university」および「universities」と同じステムを持っているとされます。この見解は歴史的な根拠に基づくかもしれませんが、現在では意味的に関係ないものとなっています。また、Porter ステマーは、「theater」と「theatre」が同じステム・クラスに属すべきであることを認識しません。この