ステミングとは? 2008-01-20-1 [IIR][NLP][Algorithm][Programming] 「Introduction to Information Retrieval」[1]の第二章 (次回の輪講の範囲)の2.2.4に出てくるステミング (Stemming) の 話題をまとめました。 § 英語などの欧米系の言語では、 意味的には同じ単語が語形変化により表層文字列が異なることがある。 例えば、"retrieves", "retrieved", "retrieving", "retrieval" などで[2]、実用上これらを同じ意味のものと見なし インデックス作成時に同じ単語として扱いたいという要求がある。 ステミング (stemming) はこのような語形変化を取り除き 同一の単語表現に変換する処理である。 ステミングの手法として、 ポーターのアルゴリズム (Port
![ステミングとは?](https://cdn-ak-scissors.b.st-hatena.com/image/square/af37977ee866988286b95e74fff98500a190545c/height=288;version=1;width=512/https%3A%2F%2Fchalow.net%2Fimages%2Ftcl-logo-25.png)