yuisekiのブックマーク - はてなブックマーク

Pythonでのキーワード抽出実装
初出: 2007/6/27 更新: 2007/7/1 文章からキーワードを抽出するスクリプトをPythonモジュールとして実装しました。分かち書きした上に、適切に複合語をつくり、さらに重要そうなものかどうかのスコアをつけます。アルゴリズムは、以下のサイトを参考にしました。 http://gensen.dl.itc.u-tokyo.ac.jp/ ここで紹介されている論文 * 中川裕志、森辰則、湯本紘彰: "出現頻度と連接頻度に基づく専門用語抽出",自然言語処理、Vol.10 No.1, pp. 27 - 45, 2003年1月 http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/academic-res/jnlp10-1.pdf に掲載されているFLR法のみを実装しています。実行結果サンプルたとえば、こんなページの本文をテキストフ
yuiseki 2012/12/16
リンク
cmecab -- Mecab-Pyhton高速バインディング
cmecab -- Mecab-Python高速バインディング初出: 2007/7/14 Status: alpha MecabのPythonバインディングの改良高速版です。 SWIGを使わず、Mecabの最低限の機能だけをPython-C APIで実装しました。 mecab-pythonバインディングの以下のメソッドを実装しています。 createTagger Tagger.parseToNode Nodeからのデータ取得（surface, feature, posid, char_type, statのみ) →もう少しくだけた紹介はこちら。更新情報 →最新情報はこちらでどうぞ [2007/7/16] 多少性能改善。バージョン番号をつけました。0.1 [2007/7/15] 公開。ベンチマーク結果 1.5kb程度の同一の短いテキストを10000回形態素解析した結果を取得す
yuiseki 2009/07/10
リンク
extbody -- Blog&News本文領域抽出ツール
ダウンロード等 extbody-0.1.1.tar.gz(右クリックで保存）ライセンスは、Apacheライセンスv2.0なので自己責任でご利用ください。（上記ファイルはMercurialリポジトリのcloneにもなっています。）動作に必要な環境 Python2.5 feedparser chardet また、内部でppkfを使用しております。(extbodyに内蔵しております。）インストール feedparserと、chardetをインストールしておきます。以上が準備できれば、extbodyも以下のコマンドでインストールできます。 % python setup.py install 使用法 ayu@~% python Python 2.5.1 (r251:54863, Jun 17 2007, 08:50:55) [GCC 4.0.1 (Apple Computer,
yuiseki 2007/08/13
リンク
1

はてなブックマーク

タグ

ブックマーク / tanashi.s240.xrea.com (3)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / tanashi.s240.xrea.com (3)

Pythonでのキーワード抽出実装

cmecab -- Mecab-Pyhton高速バインディング

extbody -- Blog&News本文領域抽出ツール

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス