説明 自然言語処理と機械学習で見つけた英語の私的まとめ 自然言語処理 corpus(コーパス): 品詞情報が付与された大量の文章のまとまり。 または、品詞情報が含まれない文章のまとまりをさす。 The Curse of Dimensionality(次元ののろい) 計算処理されるベクトルの行数、または列数の増加によって 処理時間とメモリ消費が増大すること。 (しばしば指数関数的に増大する) Latent Semantic Indexing(LSI): 次元削減に使用される Singular Value Decomposition(SVD): 次元削減に使用される lemma(レマ): 見出し語, 辞書に載っている形式の単語 lemmatization: 見出し語に変換すること。 例 meet, meeting) I'll attend meeting. 変換後 - meeting I me