タグ

2010年7月1日のブックマーク (1件)

  • 2004-05-27

    KeyGraphというキーワード抽出アルゴリズムの説明を書いてみる。ただ自分の知識をまとめたいだけだけど。結構仕組みはシンプルなので、理解しやすいはず。 概念 まず、細かい用語などは置いておき、雰囲気だけを…。 KeyGraphでは文章を『主題』と『土台』に分けて考える。『主題』は『土台』と共に出現する可能性が高い。これは『主題』を説明するうえで『土台』を利用することが多いからだ。 つまり『主題』を抽出する前に『土台』を抽出し、これらと同時に出現する語を『主題』とするわけだ。 用語 共起度 語Xと語Yが共に出現する回数(ここでは一貫して『同一の文に現われるときに共起したと判断する』)。 詳細 図が無いので、分かりずらい点もあるかと思うが、勘弁。 土台となる語の集合は単純に出現頻度が上位定数個のものとする。ただし、不要語(Stop Word)*1はあらかじめ省く必要がある。次に、出来上がった

    2004-05-27
    futabooo
    futabooo 2010/07/01
    KeyGraph