文章の類似度を調べる方法の一つ、N-gramを用いて2つの文章の類似度を調べます。N-gramは「隣り合う連続したN文字」の意味で、2文字なら2-gram、3文字なら3-gramとなります。 例えば2-gramは次のように作成します。 【元の文章】群馬県でマイクロバスが崖下に ↓ 【2-gram化】'群馬' '馬県' '県で' 'でマ' 'マイ' 'イク' 'クロ' 'ロバ' 'バス' 'スが' 'が崖' '崖下' '下に' ある文章のN-gramを作成し、別の文章のN-gramに何回出現するかカウントすることで類似度を算出します。 同じニュースに関する記事の類似度、無関係なニュースについての記事の類似度を2-gramで調べます。 環境 windows10 home Anaconda 3/ jupyter notebook 5.6.0 Python 3.7.0 準備 以下の3つのニュース本