仕事で行っているPoCの中で、文章の要約が使えるのではと思い、調査をし始めています。 今回はsumyのLexRankの実装を使い、過去の投稿を要約してみます。 LexRank LexRankは、抽出型に分類される要約アルゴリズムで、文書からグラフ構造を作り出して重要な文のランキングを作ることで要約と言える文を発見します。2004年に提案されています (提案論文はこちら) 。 要約アルゴリズムは抽出型と生成型に大きく分けられます 抽出型は、対象の文章内から要約と言える代表的な文を抜き出す方法 (大事なところに線を引くのと近い方法) 生成型は、文章内の文をそのまま使わずに、要約文を作る方法 (読書メモを作るのと近い方法) LexRankのキーポイントは2つで、PageRankから着想を得たTextRank (提案論文PDF) の派生となります。 文をノード、文間の類似度をエッジとした無方向グラ
![Python: LexRankで日本語の記事を要約する - け日記](https://cdn-ak-scissors.b.st-hatena.com/image/square/906c38102964fbbf9b582cfa7a538233125df473/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fo%2Fohke%2F20181117%2F20181117143216.png)