忘備録 自然言語処理等で用いられる単語の共起頻度を測る手法 例 キーワード「Ruby」の検索件数 |x| = 131,000,000件 キーワード「C++」の検索件数 |y| = 76,800,000件 キーワード「Ruby C++」の検索件数 |x∧y| = 7,940,000件 キーワード「Ruby or C++」の検索件数 |x∨y| = 276,000,000件 J = |x∧y|/|x∨y| 例の場合 7,940,000/276,000,000 = 0.0287681159 Jaccard係数では、 Simpson係数 S = |x∧y|/min(|x|,|y|) 例の場合 7,940,000/min(131,000,000 , 76,800,000) ヒット数の小さい76,800,000を採用して… 7,940,000/76,800,000 = 0.103385417 Simp